R프로그래밍 강좌 - [19][추론통계학활용]책상 납품을 위한 학생 신장 분석,광고 모델 반응 분석

1. 책상 납품을 위한 학생 신장 분석

-한집단의 평균이 어떤 특정한 값과 같은지를 검정하는 것을 단일집단 평균분석(One sample t-test)라 한다.

또한 한 변수의 평균이 특정한 값과 같은지를 알아보기 위한 방법으로 가장 간단하게 사용할 수 있다.

-한 집단의 특정변수가 수치 데이터로 이루어진 경우 평균값을 분석할 수 있이며, 이 평균값이 사전에 조사된

특정 평균값과 동일한지 다른지를 비교하는 분석이라고 할 수 있다.

-단일집단평균분석은 통상 t-검정(t-test)에 의해 이루어진다.

문제: 전국학교에 책상납품을 위한 조달경쟁에 이기는 방법은?

데이터: 책상제조회사에서 중학생 표본을 대상으로 조사한 신장 데이터

.일반적으로 중학생들의 평균신장은 145센티미터 정도로 알려져 있음

.교육부에서 발주한 전국 중학교에서 사용할 책상물품 조달입찰 시 사용할 근거데이터 확보를 위해 분석을 수행함

변수명: id, height(신장데이터)

분석문제:

1) 표본중학생들의 평균신장 수치를 구하시오

2) 데이터 분포가 정규분포를 이루고 있는지를 검정하시오

3) 식생활습관 및 체질개선에 따라 신장이 기존에 알려진 수치보다 커졌는지를 검정하시오

(1) 실습데이터 읽어오기 및 패키지 설치

myheight <- read.csv("./data/myheight.csv",header = T)

head(myheight)

#빈도및 비율의 기술통계량 분석을 한번에 해주는 기능을 위한 패키지 설치

install.packages("Hmisc")

library(Hmisc)

install.packages("prettyR")

library(prettyR)

(2) 내용확인 및 신장평균및 범위값을 구한다.

myheight$height

mean(myheight$height)

range(myheight$height)

#신장값만 추출한다.

myheight5 <- subset(myheight, height != 999, c(height))

myheight5

(3)기술통계량 분석내용 출력및 t-검정 실행

#기술통계량 분석내용 출력

describe(myheight)

describe(myheight$height)

#분석집단의 데이터분포가 정규분포를 이루고 있는지 확인한다.

#p값이 커야 정규분포를 이루고 있다.

#p-value가 0.05보다 작으므로 정규모집단에서 추출되지 않았다.

> shapiro.test(myheight$height)

Shapiro-Wilk normality test

data: myheight$height

W = 0.90777, p-value = 0.01308

-귀무가설: 중학생들의 평균신장은 145센티미터 이다

-대립가설: 중학생들의 평균신장은 145센티미터가 아니다.

-아래의 t-test 검정결과는 p-value값이 0.05보다 작으므로

귀무가설은 기각되고 대립가설이 채택된다.

#t-test를 적용해 모집단의 평균값을 검정한다.

> t.test(myheight$height,mu=145.0)

One Sample t-test

data: myheight$height

t = 5.3862, df = 29, p-value = 8.674e-06

alternative hypothesis: true mean is not equal to 145

95 percent confidence interval:

147.9567 151.5766

sample estimates:

mean of x

149.7667

-대립가설변경:중학생들의 평균신장은 145센티미터 보다 크다

-아래의결과도 대립가설이 채택된다.

-즉,중학생의 평균신장은 식생활 습관 및 체질 개선등의 따라 기존에 알려진 수치보다

유의미한 수준으로 커졌다고 할 수 있다.

> t.test(myheight$height,mu=145.0,alternative = "greater")

One Sample t-test

data: myheight$height

t = 5.3862, df = 29, p-value = 4.337e-06

alternative hypothesis: true mean is greater than 145

95 percent confidence interval:

148.263 Inf

sample estimates:

mean of x

149.7667

#--------------------------------------------------------

2. 광고 모델 반응 분석

-두 집단의 비율이 서로 같은지 다른지를 검정하는 것을 두집단 비율차이 분석이라 한다.

-두 집단이 둘 중에 하나를 선택하는 항목으로 구성된 경우와 각 집단에서 선택한 비율이

서로 동일한지/다른지를 비교하는 분석이라고 할 수 있다.

문제: 어떤한 모델을 활용해 광고를 내보내야 반응이 좋을까?

데이터:2가지 광고 대안별로 독립적인 모니터링 그룹에서 해당 광고에 대한 관심 유무를

조사한 것이다.(mycf.csv)

변수명: group - 모니터링을 한 집단 유형(1:연예인 CF, 2:일반인 CF)

interest - 해당 광고에 대한 관심 유무(0:관심없다 ,1:관심있다. )

mycf <- read.csv("./data/mycf.csv",header=T)

mycf

mycf$group

mycf$interest

#각항목이 빈도수및 두항목 교차빈도수 생성

table(mycf$group)

table(mycf$interest)

> table(mycf$group,mycf$interest)

0 1

1 13 37

2 27 23

#각항목의 비율및 두항목 교차비율 생성

> prop.table(table(mycf$group,mycf$interest))

0 1

1 0.13 0.37

2 0.27 0.23

> round(prop.table(table(mycf$group,mycf$interest))*100,1)

0 1

1 13 37

2 27 23

(2) 두집단의 비율값이 동일한지 차이가 나는지를 분석하기 위하여 두집단 비율차이 검정을 실시한다.

- 귀무가설: 두집단의 비율값은 동일하다.

- 대립가설: 두집단의 비율값은 동일하지 않다.

- 아래 결과는 p-value값이 0.05보다 작다 그러므로 귀무가설 기각이며

대립가설 채택이다.

> prop.test(c(37,23),c(50,50))

2-sample test for equality of proportions with continuity

correction

data: c(37, 23) out of c(50, 50)

X-squared = 7.0417, df = 1, p-value = 0.007963

alternative hypothesis: two.sided

95 percent confidence interval:

0.07597201 0.48402799

sample estimates:

prop 1 prop 2

0.74 0.46

- 대립가설 변경 : 일반인 cf집단보다 연예인 cf집단의 비율이 더 크다.

- 아래의결과는 p-value값이 0.05보다 작으므로 대립가설 채택이다.

- 즉,일반인 cf집단보다 연예인 cf집단에 대한 관심도 유의적으로 크다고 할 수 있다.

> prop.test(c(37,23),c(50,50),alternative = "greater")

2-sample test for equality of proportions with continuity

correction

data: c(37, 23) out of c(50, 50)

X-squared = 7.0417, df = 1, p-value = 0.003982

alternative hypothesis: greater

95 percent confidence interval:

0.1055588 1.0000000

sample estimates:

prop 1 prop 2

0.74 0.46

'공부 > IT-R프로그래밍' 카테고리의 다른 글

R프로그래밍 강좌 - [21][추론통계학활용]교육수준과 흡연정도의 상관 관계,음료들의 유사성 분석 (0)	2018.01.19
R프로그래밍 강좌 - [20][추론통계학활용] t-test,영업사원 교육 효과 분석, 다이어트 식품 효과 분석 (0)	2018.01.19
R프로그래밍 강좌 - [17][R패키지 활용]텍스트 마이닝, 워드클라우드 (0)	2018.01.18
R프로그래밍 강좌 - [18][추론통계학활용]신차 색상 고객 선호도 분석,홍보이벤트 효과 분석 (1)	2018.01.18
R프로그래밍 강좌 - [16]그래프 함수 활용, Plot의 종류, 통계분포 그래프 그리기, ggplot2 (0)	2018.01.17

#

R프로그래밍 강좌 - [19][추론통계학활용]책상 납품을 위한 학생 신장 분석,광고 모델 반응 분석

'공부 > IT-R프로그래밍' 카테고리의 다른 글

댓글

티스토리툴바

R프로그래밍 강좌 - [19][추론통계학활용]책상 납품을 위한 학생 신장 분석,광고 모델 반응 분석

'공부 > IT-R프로그래밍' 카테고리의 다른 글

관련글

댓글

티스토리툴바