1. 책상 납품을 위한 학생 신장 분석
-한집단의 평균이 어떤 특정한 값과 같은지를 검정하는 것을 단일집단 평균분석(One sample t-test)라 한다.
또한 한 변수의 평균이 특정한 값과 같은지를 알아보기 위한 방법으로 가장 간단하게 사용할 수 있다.
-한 집단의 특정변수가 수치 데이터로 이루어진 경우 평균값을 분석할 수 있이며, 이 평균값이 사전에 조사된
특정 평균값과 동일한지 다른지를 비교하는 분석이라고 할 수 있다.
-단일집단평균분석은 통상 t-검정(t-test)에 의해 이루어진다.
문제: 전국학교에 책상납품을 위한 조달경쟁에 이기는 방법은?
데이터: 책상제조회사에서 중학생 표본을 대상으로 조사한 신장 데이터
.일반적으로 중학생들의 평균신장은 145센티미터 정도로 알려져 있음
.교육부에서 발주한 전국 중학교에서 사용할 책상물품 조달입찰 시 사용할 근거데이터 확보를 위해 분석을 수행함
변수명: id, height(신장데이터)
분석문제:
1) 표본중학생들의 평균신장 수치를 구하시오
2) 데이터 분포가 정규분포를 이루고 있는지를 검정하시오
3) 식생활습관 및 체질개선에 따라 신장이 기존에 알려진 수치보다 커졌는지를 검정하시오
(1) 실습데이터 읽어오기 및 패키지 설치
myheight <- read.csv("./data/myheight.csv",header = T)
head(myheight)
#빈도및 비율의 기술통계량 분석을 한번에 해주는 기능을 위한 패키지 설치
install.packages("Hmisc")
library(Hmisc)
install.packages("prettyR")
library(prettyR)
(2) 내용확인 및 신장평균및 범위값을 구한다.
myheight$height
mean(myheight$height)
range(myheight$height)
#신장값만 추출한다.
myheight5 <- subset(myheight, height != 999, c(height))
myheight5
(3)기술통계량 분석내용 출력및 t-검정 실행
#기술통계량 분석내용 출력
describe(myheight)
describe(myheight$height)
#분석집단의 데이터분포가 정규분포를 이루고 있는지 확인한다.
#p값이 커야 정규분포를 이루고 있다.
#p-value가 0.05보다 작으므로 정규모집단에서 추출되지 않았다.
> shapiro.test(myheight$height)
Shapiro-Wilk normality test
data: myheight$height
W = 0.90777, p-value = 0.01308
-귀무가설: 중학생들의 평균신장은 145센티미터 이다
-대립가설: 중학생들의 평균신장은 145센티미터가 아니다.
-아래의 t-test 검정결과는 p-value값이 0.05보다 작으므로
귀무가설은 기각되고 대립가설이 채택된다.
#t-test를 적용해 모집단의 평균값을 검정한다.
> t.test(myheight$height,mu=145.0)
One Sample t-test
data: myheight$height
t = 5.3862, df = 29, p-value = 8.674e-06
alternative hypothesis: true mean is not equal to 145
95 percent confidence interval:
147.9567 151.5766
sample estimates:
mean of x
149.7667
-대립가설변경:중학생들의 평균신장은 145센티미터 보다 크다
-아래의결과도 대립가설이 채택된다.
-즉,중학생의 평균신장은 식생활 습관 및 체질 개선등의 따라 기존에 알려진 수치보다
유의미한 수준으로 커졌다고 할 수 있다.
> t.test(myheight$height,mu=145.0,alternative = "greater")
One Sample t-test
data: myheight$height
t = 5.3862, df = 29, p-value = 4.337e-06
alternative hypothesis: true mean is greater than 145
95 percent confidence interval:
148.263 Inf
sample estimates:
mean of x
149.7667
#--------------------------------------------------------
2. 광고 모델 반응 분석
-두 집단의 비율이 서로 같은지 다른지를 검정하는 것을 두집단 비율차이 분석이라 한다.
-두 집단이 둘 중에 하나를 선택하는 항목으로 구성된 경우와 각 집단에서 선택한 비율이
서로 동일한지/다른지를 비교하는 분석이라고 할 수 있다.
문제: 어떤한 모델을 활용해 광고를 내보내야 반응이 좋을까?
데이터:2가지 광고 대안별로 독립적인 모니터링 그룹에서 해당 광고에 대한 관심 유무를
조사한 것이다.(mycf.csv)
변수명: group - 모니터링을 한 집단 유형(1:연예인 CF, 2:일반인 CF)
interest - 해당 광고에 대한 관심 유무(0:관심없다 ,1:관심있다. )
mycf <- read.csv("./data/mycf.csv",header=T)
mycf
mycf$group
mycf$interest
#각항목이 빈도수및 두항목 교차빈도수 생성
table(mycf$group)
table(mycf$interest)
> table(mycf$group,mycf$interest)
0 1
1 13 37
2 27 23
#각항목의 비율및 두항목 교차비율 생성
> prop.table(table(mycf$group,mycf$interest))
0 1
1 0.13 0.37
2 0.27 0.23
> round(prop.table(table(mycf$group,mycf$interest))*100,1)
0 1
1 13 37
2 27 23
(2) 두집단의 비율값이 동일한지 차이가 나는지를 분석하기 위하여 두집단 비율차이 검정을 실시한다.
- 귀무가설: 두집단의 비율값은 동일하다.
- 대립가설: 두집단의 비율값은 동일하지 않다.
- 아래 결과는 p-value값이 0.05보다 작다 그러므로 귀무가설 기각이며
대립가설 채택이다.
> prop.test(c(37,23),c(50,50))
2-sample test for equality of proportions with continuity
correction
data: c(37, 23) out of c(50, 50)
X-squared = 7.0417, df = 1, p-value = 0.007963
alternative hypothesis: two.sided
95 percent confidence interval:
0.07597201 0.48402799
sample estimates:
prop 1 prop 2
0.74 0.46
- 대립가설 변경 : 일반인 cf집단보다 연예인 cf집단의 비율이 더 크다.
- 아래의결과는 p-value값이 0.05보다 작으므로 대립가설 채택이다.
- 즉,일반인 cf집단보다 연예인 cf집단에 대한 관심도 유의적으로 크다고 할 수 있다.
> prop.test(c(37,23),c(50,50),alternative = "greater")
2-sample test for equality of proportions with continuity
correction
data: c(37, 23) out of c(50, 50)
X-squared = 7.0417, df = 1, p-value = 0.003982
alternative hypothesis: greater
95 percent confidence interval:
0.1055588 1.0000000
sample estimates:
prop 1 prop 2
0.74 0.46
'공부 > IT-R프로그래밍' 카테고리의 다른 글
R프로그래밍 강좌 - [21][추론통계학활용]교육수준과 흡연정도의 상관 관계,음료들의 유사성 분석 (0) | 2018.01.19 |
---|---|
R프로그래밍 강좌 - [20][추론통계학활용] t-test,영업사원 교육 효과 분석, 다이어트 식품 효과 분석 (0) | 2018.01.19 |
R프로그래밍 강좌 - [17][R패키지 활용]텍스트 마이닝, 워드클라우드 (0) | 2018.01.18 |
R프로그래밍 강좌 - [18][추론통계학활용]신차 색상 고객 선호도 분석,홍보이벤트 효과 분석 (1) | 2018.01.18 |
R프로그래밍 강좌 - [16]그래프 함수 활용, Plot의 종류, 통계분포 그래프 그리기, ggplot2 (0) | 2018.01.17 |
댓글