본문 바로가기

전체 글102

R프로그래밍 강좌 - [21][추론통계학활용]교육수준과 흡연정도의 상관 관계,음료들의 유사성 분석 1.교육수준과 흡연정도의 상관관계 ※ x2 (chi_square) 검정 카이제곱검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다. 카이제곱 값은 χ2 = Σ (관측값 - 기댓값)2 / 기댓값 으로 계산한다. 검증유형 - 동질성 검증: '변인의 분포가 이항분포나 정규분포와 동일하다'라는 가설을 설정한다. 이는 어떤 모집단의 표본이 그 모집단을 대표하고 있는지를 검증하는 데 사용한다. - 독립성 검증: 변인이 두 개 이상일 때 사용되며, 기대빈도는 '두 변인이 서로 상관이 없고 독립적'이라고 기대하는 것을 의미하며 관찰빈도와의 차이를 통해 기대빈도의 진.. 2018. 1. 19.
R프로그래밍 강좌 - [20][추론통계학활용] t-test,영업사원 교육 효과 분석, 다이어트 식품 효과 분석 1. R의 t-test (1) t-test의 유형 - t-test는 비교의 대상이 되는 두개의 그룹이 무엇인지에 따라 크게 세가지 유형으로 구분할 수 있다. 1) 독립 표본 t-test: 서로 다른 두개의 그룹 간의 평균 비교 (예: 남자와 여자 간 소득의 차이 비교) 2) 대응 표본 t-test : 하나의 집단에 대한 비교 (예: 과외를 하기 전과 후의 반 학생들의 성적 변화) 3) 단일 표본 t-test : 특정 집단의 평균이 어떤 숫자와 같은지 다른지를 비교 (2) t-test의 조건 - 두개의 집단에 대한 t-test를 실시하기 위해서는 등분산성, 정규성이 만족되어야 한다. - 정규성의 경우 일반적으로 관측 갯수가 30개 이상일때 만족한다고 판단할 수 있다. - 등분산성을 확인하기 위해서는 var.. 2018. 1. 19.
R프로그래밍 강좌 - [19][추론통계학활용]책상 납품을 위한 학생 신장 분석,광고 모델 반응 분석 1. 책상 납품을 위한 학생 신장 분석 -한집단의 평균이 어떤 특정한 값과 같은지를 검정하는 것을 단일집단 평균분석(One sample t-test)라 한다. 또한 한 변수의 평균이 특정한 값과 같은지를 알아보기 위한 방법으로 가장 간단하게 사용할 수 있다.-한 집단의 특정변수가 수치 데이터로 이루어진 경우 평균값을 분석할 수 있이며, 이 평균값이 사전에 조사된 특정 평균값과 동일한지 다른지를 비교하는 분석이라고 할 수 있다.-단일집단평균분석은 통상 t-검정(t-test)에 의해 이루어진다. 문제: 전국학교에 책상납품을 위한 조달경쟁에 이기는 방법은?데이터: 책상제조회사에서 중학생 표본을 대상으로 조사한 신장 데이터 .일반적으로 중학생들의 평균신장은 145센티미터 정도로 알려져 있음.교육부에서 발주한 전.. 2018. 1. 19.
R프로그래밍 강좌 - [17][R패키지 활용]텍스트 마이닝, 워드클라우드 1.텍스트 마이닝(Text Mining) - tm패키지를 사용하여 텍스트를 분석한다. - tm의 Corpus는 데이터의 정제, 통합, 선택, 변환 과정을 거친 구조화된 단계로서 더 이상 추가적인 절차 없이 데이터 마이닝 알고리즘 실험에서 활용할 수 있는 상태이다. - 텍스트 마이닝 패키지인 tm에서 문서를 관리하는 기본구조를 Corpus라 부르며, 이는 텍스트 문서들의 집합을 의미한다. (1) 데이터 준비 및 패키지 설치 - 실습에 사용할 데이터는 kor.txt이며 코리아 헤럴드의 경제 부분 기사를 텍스트형식으로 만든 데이터이다. - 텍스트 파일은 영어로 구성되어 있으며, 우리나라 경제상황에 대한 내용을 담고 있다. # Installinstall.packages("tm") # for text mining.. 2018. 1. 18.
R프로그래밍 강좌 - [18][추론통계학활용]신차 색상 고객 선호도 분석,홍보이벤트 효과 분석 1. 신차 색상 고객 선호도 분석 - 관찰되는 값이 기대되는 값과 일치 하는지를 조사하는 것을 적합도 검정이라 한다. - 선택항목이 여러개 있을때 동일하게 선택될 것인가, 아니면 다르게 선택될 것인가를 기대하는 비중이 있다. - 또한 해당 선택 항목들에 대한 실제 조사관찰치의 선택 비중이 기대한 비중과 일치하는 여부를 판단하는 것이라고 할 수 있다. - 카이제곱 검정기법으로 이행한다. 새롭게 출시하는 신차 색상중 고객이 선호하는 색상은 무엇인가? 귀무가설: 새롭게 출시하는 신차 색상에 대한 고객 선호도 조사 결과는 유의미한 차이가 없다. 대립가설: 새롭게 출시하는 신차 색상에 대한 고객 선호도 조사 결과는 유의미한 차이가 있다. (1) 실습데이터 준비 및 패키지 설치 - 예제데이터는 A자동차메이커에서 신.. 2018. 1. 18.
R프로그래밍 강좌 - [16]그래프 함수 활용, Plot의 종류, 통계분포 그래프 그리기, ggplot2 1. 그래프 함수 활용 (1) 기본적인 그래프 함수 1)고수준 그래프 함수 - 새로운 그래프를 시작한다. 그래픽스 창을 초기 생성 하거나 설정하고, 축적을 설정한다. 이후 제목과 라벨 등 장식을 넣을 수 있다. - 고수준 함수 2)저수준 그래프 함수 - 그래프 작성을 시작할 수 없다. 존재하는 그래프에 점, 선, 텍스트, 장식등을 더한다. - 저수준 그래프 3) Plot()함수 plot(x,y,main=,sub=,xlab=,type=,axes="",col="", pch="") - x: x축의 자료 - y: y축의 자료 - main : plot의 전체 제목 - sub : plot의 부 제목 - xlab : x축의 제목, ylab: y축의 제목 - type : plot형태 결정 - axes : plot의 테.. 2018. 1. 17.
R프로그래밍 강좌 - [15] [고급통계] 선형회귀분석, 선형회귀분석 검증, 다중 선형회귀분석 1. 회귀분석 (1) 선형회귀분석 - 회귀분석은 진화론에 해당하는 키가 큰 아버지의 자식은 점점 커질것인고 키가 작은 아버지의 자식은 점점 작아질 것이라는 가설을 반박 하기 위해 연구되었다. - 칼톤은 아들의 키는 아버지의 키에 영향을 받는다 하더라도 결국 평균으로 돌아가려는 현상이 있다는 것을 발견한다. - 칼톤의 연구에 이어받은 피어슨은 신장자료를 이어받아 다음과 같은 함수식을 구한다. Y = 33.73 + 0.516X X는 아버지의 키이다. 70을 X에 대입하면 69.85; 72을 X에 대입하면 72.45; 65을 X에 대입하면 67.27; 60을 X에 대입하면 64.69:의 값이 나온다. 값이 평균에서 크게 벗어나지 않는다. 즉, 평균으로 회귀하려는 모습을 볼 수 있다. - 위에 내용에서 아버지 .. 2018. 1. 17.
R프로그래밍 강좌 - [14] [기초통계] 신뢰구간, 모비율 검정, 정규성 검증, 유의성 검증 1. 신뢰구간 - 통계학에선 표본으로 모집단의 성질을 유추한다. 이것을 통계적인 추정이라 한다. - 전국 초등학교 어린이의 한달 용돈의 평균값을 알기 위해 무작위로 뽑은 초등학생 2500명을 조사했다. 평균값이 3000원 표본오차가 5000원 이었다면 , 한달 용돈 평균값를 95%의 정확도(신뢰도)로 추정할 수 있다. - 모집단은 전국 초등학교 어린이들 이고, 표본은 무작위로 뽑은 초등학생 2500명이 된다. - 추정에 사용되는 통계량의 표본분포를 조사하는데, 표본분포에서 그 기댓값을 중심으로 주어진 신뢰도로 통계량이 일어나는 범위를 조사하고 신뢰도 95%가 되는 구간이 얻어지는데 그 구간을 신뢰구간이라 한다. - R의 t.test()로 표본을 이용하여 모집단의 신뢰구간을 추정할 수 있다. - conf... 2018. 1. 16.
R프로그래밍 강좌 - [13] [기초통계] 확률개념, 추론 통계학 1. 확률 개념 (1) 통계학에 확률이 필요한 이유 - 통계학을 수학적으로 분석하는 데는 확률이 필요하다. - 표본으로 부터 모집단의 특징을 추론할때 확률이 필요하다. 1) 전수조사와 표본조사 - 전수조사(전체 조사) : 대상 모두를 조사함, 오차 없이 정확하게 결과가 얻어지는 반면 막대한 비용과 수고가 따른다. - 표본조사(샘풀 조사) : 대상의 일부를 추출해 조사함, 일부를 조사해서 그 전체를 추정하는 방법, 일부를 표본이라 하고 전체를 모집단이라 한다. 전수조사에 비해 수고나 비용을 줄일 수 있으나 표본의 선택 방법에 따라 오차(표본오차)가 생김, 2) 표본선택, 표본오차 - 표본조사에서는 전체(모집단)에서 표본을 추출해 모집단을 추정한다. 표본은 무작위로 추출한다. - 모집단에서 복수의 표본을 무.. 2018. 1. 16.