본문 바로가기
공부/IT-R프로그래밍

R프로그래밍 강좌 - [14] [기초통계] 신뢰구간, 모비율 검정, 정규성 검증, 유의성 검증

by 썸볼 2018. 1. 16.

1. 신뢰구간 
- 통계학에선 표본으로 모집단의 성질을 유추한다. 이것을 통계적인 추정이라 한다.
- 전국 초등학교 어린이의 한달 용돈의 평균값을 알기 위해 무작위로 뽑은 초등학생 2500명을 조사했다.
  평균값이 3000원 표본오차가 5000원 이었다면 , 한달 용돈 평균값를 95%의 정확도(신뢰도)로 추정할 수 있다.

- 모집단은 전국 초등학교 어린이들 이고, 표본은 무작위로 뽑은 초등학생 2500명이 된다.
- 추정에 사용되는 통계량의  표본분포를 조사하는데, 표본분포에서 그 기댓값을 중심으로 주어진 신뢰도로
  통계량이 일어나는 범위를 조사하고 신뢰도 95%가 되는 구간이 얻어지는데 그 구간을 신뢰구간이라 한다.

- R의 t.test()로 표본을 이용하여 모집단의 신뢰구간을 추정할 수 있다.
- conf.level 인자를 사용하여 99%의 신뢰구간을 추정할 수 있다.
- rnorm() 함수는 평균값과, 표준편차를 기준으로 랜덤 값을 만들어주는 함수이다.
- 신뢰도 구간에 포함되므로 표본으로 부터 얻은 평균값은 신뢰할 수 있다.


> x<-rnorm(2500,mean =3000, sd=5000)

> head(x)
[1] -1390.324  2078.670  8496.166  7118.888  7921.763  2006.365
 
> t.test(x)
 
One Sample t-test
 
data:  x
t = 31.35, df = 2499, p-value < 2.2e-16(p-value값이 0.05보다 작으므로 평균값이 나올 확률이 유의하며 우연이라고 볼수 없다.  )
alternative hypothesis: true mean is not equal to 0 (대립가설)
95 percent confidence interval: (95% 신뢰구간)
 2978.034 3375.440
sample estimates: (x의 평균값)
mean of x 
 3176.737 
 


 
> t.test(x,conf.level = 0.99)
 
One Sample t-test
 
data:  x
t = 31.35, df = 2499, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
 2915.524 3437.950
sample estimates:
mean of x 
 3176.737 

 
 

2 모비율 검정

1) 100경기중 56번 이겼을때, 앞으로의 경기에서 절반 이상을 이길 수 있을 것이라는 가설을 검증하고자 한다.
   (귀무가설 :성공확률(P)==0.5)

 -   표본비율을이용하여 모집단 비율을 구하고싶다면
    prop.test 함수를 이용해서 가설을 검정한다.
 - 실제 성공확률(P)에 대한 가설이 검정된다.
 
# prop.test(이긴경기(56), 전체경기(100), 성공확률(50%) )

> prop.test(56,100,0.5)
 
1-sample proportions test with continuity correction
 
data:  56 out of 100, null probability 0.5 (귀무가설:성공확률50%이다.)
X-squared = 1.21, df = 1, p-value = 0.2713
alternative hypothesis: true p is not equal to 0.5(대립가설:50%아니다.)
95 percent confidence interval:
 0.4573588 0.6579781
sample estimates:
   p 
0.56 
 

- p-value값이 0.05보다 크기때문에 귀무가설은 기각되지 않는다.(성공확률 50% 이다.)
   




- prop.test() 에 
alternative = "greater" 추가하여 대립가설의 성공확률을 50%이상으로 변경하여 검정한다.
 # prop.test(이긴경기(56), 전체경기(100), 성공확률(50%), 대립가설이 50%보다 크다)

> prop.test(56,100,0.5, alternative = "greater")
 
1-sample proportions test with continuity correction
 
data:  56 out of 100, null probability 0.5(귀무가설)
X-squared = 1.21, df = 1, p-value = 0.1357(0.05이거나 작아야 유의한값이고, 귀무가설이 기각된다.)
alternative hypothesis: true p is greater than 0.5(대립가설)
95 percent confidence interval:
 0.4728784 1.0000000
sample estimates:
   p 
0.56 
 

- 대립가설이 50%이상일때  p-value = 0.1357에 따라 0.05보다 크기때문데 귀무가설 기각되지 않는다. 
100경기중 56번 이겼을때, 앞으로의 경기에서 절반 이상을 이길 수 있을 것이라는 생각은  잘못된 판단이다.




3. 정규성 검증

(1) 정규성 검증이란
- 모집단의 확률분포가 정규분포를 따르고 있는 지를 검정하는것이다.  


(2) R에서 표본이 정규분포로 된 모집단에서 나온 것인지 검정하고 싶다면 shapire.test(x)를 사용하다.

p-value이 0.05보다 크다면 모집단이 정규분포를 따르고 있다는 것을 의미하지만
  
p-value이 작다면 모집단이 정규분포를 따른다고 볼 수 없다.

> attach(iris)

> shapiro.test(Sepal.Length)
 
Shapiro-Wilk normality test
 
data:  Sepal.Length
W = 0.97609, p-value = 0.01018(크기가 작다-정규분포에 따르지 않다)
 
> table(Sepal.Length)
Sepal.Length
4.3 4.4 4.5 4.6 4.7 4.8 4.9   5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9   6 6.1 6.2 6.3 6.4 6.5 6.6 6.7 
  1   3   1   4   2   5   6  10   9   4   1   6   7   6   8   7   3   6   6   4   9   7   5   2   8 
6.8 6.9   7 7.1 7.2 7.3 7.4 7.6 7.7 7.9 
  3   4   1   1   3   1   1   1   4   1 

 
> ggplot(data = iris, aes(x = Sepal.Length)) + geom_bar()






4. 유의성 검증

(1) 상관관계 
- 조사항목의 두변수사이의 관계를 파악할 수 있다
- 두항목 간의 관계를 파악하는데는 산포도가 편리하다.
1) 상관관계의 종류
- 양의 상관 : 한변수의 값이 커지면 다른 변수의 값도 커지는 경향
- 음의 상관 : 한변수의 값이 커지면 다른 변수의 값은 작아지는 경향
상관없다 :  두변수의 값의 분포가 일정하지 않다.

3) 공분산과 상관계수
공분산: 위의 세 상관관계를 수치화 한 방법
상관계수 : 공분산보다 좀더 정확하게 수치화 한 방법
양의상관: 상관계수 1에 가깝다
음의상관: 상관계수 -1에 가깝다.
상관없다 : 상관계수 0에 가깝다.

2) R에서 두변수 상관관계 확인
- 유의성 검정과 신뢰구간을 계산하는 cor.test()를 사용한다.
- cor.test()의 기본설정은 정규분포에 따르면 피어슨이며, 정규 분포에 따르지 않으면 스피어만을 사용한다.
- iris$Sepal.Length(붓꽃의 꽃받침 길이), iris$Sepal.width
(붓꽃의 꽃받침 넓이)의 상관관계의 유의성 확인

> cor.test(iris$Sepal.Length,iris$Sepal.Width)

 
Pearson's product-moment correlation (피어슨 적률상관)
 
data:  iris$Sepal.Length and iris$Sepal.Width
t = -1.4403, df = 148, p-value = 0.1519(0.05보다 크기)
alternative hypothesis: true correlation is not equal to 0(대립가설)
95 percent confidence interval:
 -0.27269325  0.04351158
sample estimates:
       cor 
-0.1175698 

- 귀무가설(대립가설이 부정) : 상관계수가 0이다.
- 대립가설: 상관계수가 0이 아니다.

 

- 유의값(p-value)값이 0.05보다 크기 때문에 상관계수가 0 이라는 귀무가설을 기각할 수 없다.
  다시 말하면 상관계수는 통계적으로 유의하지 않다고 판단할 수 있다.
  양의 상관도 음의 상관도 아니다

attach(iris)
library(ggplot2)

ggplot(data = iris, aes(x = Sepal.Length, y = Sepal.Width)) + geom_point() 



댓글