본문 바로가기
공부/IT-R프로그래밍

R프로그래밍 강좌 - [19][추론통계학활용]책상 납품을 위한 학생 신장 분석,광고 모델 반응 분석

by 썸볼 2018. 1. 19.
1. 책상 납품을 위한 학생 신장 분석
 
-한집단의 평균이 어떤 특정한 값과 같은지를 검정하는 것을 단일집단 평균분석(One sample t-test)라 한다.
 또한 한 변수의 평균이 특정한 값과 같은지를 알아보기 위한 방법으로 가장 간단하게 사용할 수 있다.
-한 집단의 특정변수가 수치 데이터로 이루어진 경우 평균값을 분석할 수 있이며, 이 평균값이 사전에 조사된
 특정 평균값과 동일한지 다른지를 비교하는 분석이라고 할 수 있다.
-단일집단평균분석은 통상 t-검정(t-test)에 의해 이루어진다.
 
문제: 전국학교에 책상납품을 위한 조달경쟁에 이기는 방법은?
데이터: 책상제조회사에서 중학생 표본을 대상으로 조사한 신장 데이터
        .일반적으로 중학생들의 평균신장은 145센티미터 정도로 알려져 있음
.교육부에서 발주한 전국 중학교에서 사용할 책상물품 조달입찰 시 사용할 근거데이터 확보를 위해 분석을 수행함
변수명: id, height(신장데이터)
분석문제: 
1) 표본중학생들의 평균신장 수치를 구하시오
2) 데이터 분포가 정규분포를 이루고 있는지를 검정하시오
3) 식생활습관 및 체질개선에 따라 신장이 기존에 알려진 수치보다 커졌는지를 검정하시오
 
(1) 실습데이터 읽어오기 및 패키지 설치
 
myheight <- read.csv("./data/myheight.csv",header = T)
head(myheight)
#빈도및 비율의 기술통계량 분석을 한번에 해주는 기능을 위한 패키지 설치
install.packages("Hmisc")
library(Hmisc)
 
install.packages("prettyR")
library(prettyR)

 
(2) 내용확인 및 신장평균및 범위값을 구한다.
 
myheight$height
 
mean(myheight$height)
range(myheight$height)
 
#신장값만 추출한다.
myheight5 <- subset(myheight, height != 999, c(height))
myheight5
 
 
(3)기술통계량 분석내용 출력및 t-검정 실행
 
#기술통계량 분석내용 출력
describe(myheight)
describe(myheight$height)
 
#분석집단의 데이터분포가 정규분포를 이루고 있는지 확인한다.
#p값이 커야 정규분포를 이루고 있다.
#p-value가 0.05보다 작으므로 정규모집단에서 추출되지 않았다.
 
> shapiro.test(myheight$height)
 
Shapiro-Wilk normality test
 
data:  myheight$height
W = 0.90777, p-value = 0.01308
 
 
 
-귀무가설: 중학생들의 평균신장은 145센티미터 이다
-대립가설: 중학생들의 평균신장은 145센티미터가 아니다.
-아래의 t-test 검정결과는 p-value값이 0.05보다 작으므로 
 귀무가설은 기각되고 대립가설이 채택된다.
 
#t-test를 적용해 모집단의 평균값을 검정한다.
> t.test(myheight$height,mu=145.0)
 
One Sample t-test
 
data:  myheight$height
t = 5.3862, df = 29, p-value = 8.674e-06
alternative hypothesis: true mean is not equal to 145
95 percent confidence interval:
 147.9567 151.5766
sample estimates:
mean of x 
 149.7667 
 
 
-대립가설변경:중학생들의 평균신장은 145센티미터 보다 크다
-아래의결과도 대립가설이 채택된다.
-즉,중학생의 평균신장은 식생활 습관 및 체질 개선등의 따라 기존에 알려진 수치보다
 유의미한 수준으로 커졌다고 할 수 있다.
 
> t.test(myheight$height,mu=145.0,alternative = "greater")
 
One Sample t-test
 
data:  myheight$height
t = 5.3862, df = 29, p-value = 4.337e-06
alternative hypothesis: true mean is greater than 145
95 percent confidence interval:
 148.263     Inf
sample estimates:
mean of x 
 149.7667 
 
 
#--------------------------------------------------------
2. 광고 모델 반응 분석
 
-두 집단의 비율이 서로 같은지 다른지를 검정하는 것을 두집단 비율차이 분석이라 한다.
-두 집단이 둘 중에 하나를 선택하는 항목으로 구성된 경우와 각 집단에서 선택한 비율이
 서로 동일한지/다른지를 비교하는 분석이라고 할 수 있다.
 
문제: 어떤한 모델을 활용해 광고를 내보내야 반응이 좋을까?
데이터:2가지 광고 대안별로 독립적인 모니터링 그룹에서 해당 광고에 대한 관심 유무를 
       조사한 것이다.(mycf.csv)
변수명: group - 모니터링을 한 집단 유형(1:연예인 CF, 2:일반인 CF)
        interest - 해당 광고에 대한 관심 유무(0:관심없다 ,1:관심있다. )
 
 
mycf <- read.csv("./data/mycf.csv",header=T)
mycf
mycf$group
mycf$interest
 
#각항목이 빈도수및 두항목 교차빈도수 생성
table(mycf$group)
table(mycf$interest)
> table(mycf$group,mycf$interest)
   
     0  1
  1 13 37
  2 27 23
 
#각항목의 비율및 두항목 교차비율 생성
> prop.table(table(mycf$group,mycf$interest))
   
       0    1
  1 0.13 0.37
  2 0.27 0.23
> round(prop.table(table(mycf$group,mycf$interest))*100,1)
   
     0  1
  1 13 37
  2 27 23
 
 
(2) 두집단의 비율값이 동일한지 차이가 나는지를 분석하기 위하여 두집단 비율차이 검정을 실시한다.
 
- 귀무가설: 두집단의 비율값은 동일하다.
- 대립가설: 두집단의 비율값은 동일하지 않다.
- 아래 결과는 p-value값이 0.05보다 작다 그러므로 귀무가설 기각이며
  대립가설 채택이다.
 
> prop.test(c(37,23),c(50,50))
 
2-sample test for equality of proportions with continuity
correction
 
data:  c(37, 23) out of c(50, 50)
X-squared = 7.0417, df = 1, p-value = 0.007963
alternative hypothesis: two.sided
95 percent confidence interval:
 0.07597201 0.48402799
sample estimates:
prop 1 prop 2 
  0.74   0.46 
 
- 대립가설 변경 : 일반인 cf집단보다 연예인 cf집단의 비율이 더 크다.
- 아래의결과는 p-value값이 0.05보다 작으므로 대립가설 채택이다.
- 즉,일반인 cf집단보다 연예인 cf집단에 대한 관심도 유의적으로 크다고 할 수 있다.
> prop.test(c(37,23),c(50,50),alternative = "greater")
 
2-sample test for equality of proportions with continuity
correction
 
data:  c(37, 23) out of c(50, 50)
X-squared = 7.0417, df = 1, p-value = 0.003982
alternative hypothesis: greater
95 percent confidence interval:
 0.1055588 1.0000000
sample estimates:
prop 1 prop 2 
  0.74   0.46 


댓글