본문 바로가기

무따공21

R프로그래밍 강좌 - [21][추론통계학활용]교육수준과 흡연정도의 상관 관계,음료들의 유사성 분석 1.교육수준과 흡연정도의 상관관계 ※ x2 (chi_square) 검정 카이제곱검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다. 카이제곱 값은 χ2 = Σ (관측값 - 기댓값)2 / 기댓값 으로 계산한다. 검증유형 - 동질성 검증: '변인의 분포가 이항분포나 정규분포와 동일하다'라는 가설을 설정한다. 이는 어떤 모집단의 표본이 그 모집단을 대표하고 있는지를 검증하는 데 사용한다. - 독립성 검증: 변인이 두 개 이상일 때 사용되며, 기대빈도는 '두 변인이 서로 상관이 없고 독립적'이라고 기대하는 것을 의미하며 관찰빈도와의 차이를 통해 기대빈도의 진.. 2018. 1. 19.
R프로그래밍 강좌 - [20][추론통계학활용] t-test,영업사원 교육 효과 분석, 다이어트 식품 효과 분석 1. R의 t-test (1) t-test의 유형 - t-test는 비교의 대상이 되는 두개의 그룹이 무엇인지에 따라 크게 세가지 유형으로 구분할 수 있다. 1) 독립 표본 t-test: 서로 다른 두개의 그룹 간의 평균 비교 (예: 남자와 여자 간 소득의 차이 비교) 2) 대응 표본 t-test : 하나의 집단에 대한 비교 (예: 과외를 하기 전과 후의 반 학생들의 성적 변화) 3) 단일 표본 t-test : 특정 집단의 평균이 어떤 숫자와 같은지 다른지를 비교 (2) t-test의 조건 - 두개의 집단에 대한 t-test를 실시하기 위해서는 등분산성, 정규성이 만족되어야 한다. - 정규성의 경우 일반적으로 관측 갯수가 30개 이상일때 만족한다고 판단할 수 있다. - 등분산성을 확인하기 위해서는 var.. 2018. 1. 19.
R프로그래밍 강좌 - [19][추론통계학활용]책상 납품을 위한 학생 신장 분석,광고 모델 반응 분석 1. 책상 납품을 위한 학생 신장 분석 -한집단의 평균이 어떤 특정한 값과 같은지를 검정하는 것을 단일집단 평균분석(One sample t-test)라 한다. 또한 한 변수의 평균이 특정한 값과 같은지를 알아보기 위한 방법으로 가장 간단하게 사용할 수 있다.-한 집단의 특정변수가 수치 데이터로 이루어진 경우 평균값을 분석할 수 있이며, 이 평균값이 사전에 조사된 특정 평균값과 동일한지 다른지를 비교하는 분석이라고 할 수 있다.-단일집단평균분석은 통상 t-검정(t-test)에 의해 이루어진다. 문제: 전국학교에 책상납품을 위한 조달경쟁에 이기는 방법은?데이터: 책상제조회사에서 중학생 표본을 대상으로 조사한 신장 데이터 .일반적으로 중학생들의 평균신장은 145센티미터 정도로 알려져 있음.교육부에서 발주한 전.. 2018. 1. 19.
R프로그래밍 강좌 - [17][R패키지 활용]텍스트 마이닝, 워드클라우드 1.텍스트 마이닝(Text Mining) - tm패키지를 사용하여 텍스트를 분석한다. - tm의 Corpus는 데이터의 정제, 통합, 선택, 변환 과정을 거친 구조화된 단계로서 더 이상 추가적인 절차 없이 데이터 마이닝 알고리즘 실험에서 활용할 수 있는 상태이다. - 텍스트 마이닝 패키지인 tm에서 문서를 관리하는 기본구조를 Corpus라 부르며, 이는 텍스트 문서들의 집합을 의미한다. (1) 데이터 준비 및 패키지 설치 - 실습에 사용할 데이터는 kor.txt이며 코리아 헤럴드의 경제 부분 기사를 텍스트형식으로 만든 데이터이다. - 텍스트 파일은 영어로 구성되어 있으며, 우리나라 경제상황에 대한 내용을 담고 있다. # Installinstall.packages("tm") # for text mining.. 2018. 1. 18.