1. 신뢰구간
- 통계학에선 표본으로 모집단의 성질을 유추한다. 이것을 통계적인 추정이라 한다.
- 전국 초등학교 어린이의 한달 용돈의 평균값을 알기 위해 무작위로 뽑은 초등학생 2500명을 조사했다.
평균값이 3000원 표본오차가 5000원 이었다면 , 한달 용돈 평균값를 95%의 정확도(신뢰도)로 추정할 수 있다.
- 모집단은 전국 초등학교 어린이들 이고, 표본은 무작위로 뽑은 초등학생 2500명이 된다.
- 추정에 사용되는 통계량의 표본분포를 조사하는데, 표본분포에서 그 기댓값을 중심으로 주어진 신뢰도로
통계량이 일어나는 범위를 조사하고 신뢰도 95%가 되는 구간이 얻어지는데 그 구간을 신뢰구간이라 한다.
- R의 t.test()로 표본을 이용하여 모집단의 신뢰구간을 추정할 수 있다.
- conf.level 인자를 사용하여 99%의 신뢰구간을 추정할 수 있다.
- rnorm() 함수는 평균값과, 표준편차를 기준으로 랜덤 값을 만들어주는 함수이다.
- 신뢰도 구간에 포함되므로 표본으로 부터 얻은 평균값은 신뢰할 수 있다.
> x<-rnorm(2500,mean =3000, sd=5000)
2 모비율 검정
1) 100경기중 56번 이겼을때, 앞으로의 경기에서 절반 이상을 이길 수 있을 것이라는 가설을 검증하고자 한다.
(귀무가설 :성공확률(P)==0.5)
- 표본비율을이용하여 모집단 비율을 구하고싶다면
prop.test 함수를 이용해서 가설을 검정한다.
- 실제 성공확률(P)에 대한 가설이 검정된다.
# prop.test(이긴경기(56), 전체경기(100), 성공확률(50%) )
- p-value값이 0.05보다 크기때문에 귀무가설은 기각되지 않는다.(성공확률 50% 이다.)
- prop.test() 에 alternative = "greater" 추가하여 대립가설의 성공확률을 50%이상으로 변경하여 검정한다.
# prop.test(이긴경기(56), 전체경기(100), 성공확률(50%), 대립가설이 50%보다 크다)
- 대립가설이 50%이상일때 p-value = 0.1357에 따라 0.05보다 크기때문데 귀무가설 기각되지 않는다.
- 100경기중 56번 이겼을때, 앞으로의 경기에서 절반 이상을 이길 수 있을 것이라는 생각은 잘못된 판단이다.
3. 정규성 검증
(1) 정규성 검증이란
- 모집단의 확률분포가 정규분포를 따르고 있는 지를 검정하는것이다.
(2) R에서 표본이 정규분포로 된 모집단에서 나온 것인지 검정하고 싶다면 shapire.test(x)를 사용하다.
- p-value이 0.05보다 크다면 모집단이 정규분포를 따르고 있다는 것을 의미하지만
p-value이 작다면 모집단이 정규분포를 따른다고 볼 수 없다.
> attach(iris)
4. 유의성 검증
(1) 상관관계
- 조사항목의 두변수사이의 관계를 파악할 수 있다
- 두항목 간의 관계를 파악하는데는 산포도가 편리하다.
1) 상관관계의 종류
- 양의 상관 : 한변수의 값이 커지면 다른 변수의 값도 커지는 경향
- 음의 상관 : 한변수의 값이 커지면 다른 변수의 값은 작아지는 경향
- 상관없다 : 두변수의 값의 분포가 일정하지 않다.
3) 공분산과 상관계수
공분산: 위의 세 상관관계를 수치화 한 방법
상관계수 : 공분산보다 좀더 정확하게 수치화 한 방법
양의상관: 상관계수 1에 가깝다
음의상관: 상관계수 -1에 가깝다.
상관없다 : 상관계수 0에 가깝다.
2) R에서 두변수 상관관계 확인
- 유의성 검정과 신뢰구간을 계산하는 cor.test()를 사용한다.
- cor.test()의 기본설정은 정규분포에 따르면 피어슨이며, 정규 분포에 따르지 않으면 스피어만을 사용한다.
- iris$Sepal.Length(붓꽃의 꽃받침 길이), iris$Sepal.width(붓꽃의 꽃받침 넓이)의 상관관계의 유의성 확인
> cor.test(iris$Sepal.Length,iris$Sepal.Width)
- 귀무가설(대립가설이 부정) : 상관계수가 0이다.
- 대립가설: 상관계수가 0이 아니다.
- 유의값(p-value)값이 0.05보다 크기 때문에 상관계수가 0 이라는 귀무가설을 기각할 수 없다.
다시 말하면 상관계수는 통계적으로 유의하지 않다고 판단할 수 있다.
양의 상관도 음의 상관도 아니다
attach(iris)
library(ggplot2)
'공부 > IT-R프로그래밍' 카테고리의 다른 글
R프로그래밍 강좌 - [16]그래프 함수 활용, Plot의 종류, 통계분포 그래프 그리기, ggplot2 (0) | 2018.01.17 |
---|---|
R프로그래밍 강좌 - [15] [고급통계] 선형회귀분석, 선형회귀분석 검증, 다중 선형회귀분석 (0) | 2018.01.17 |
R프로그래밍 강좌 - [13] [기초통계] 확률개념, 추론 통계학 (0) | 2018.01.16 |
R프로그래밍 강좌 - [12] [기초통계] 기술 통계학 (0) | 2018.01.15 |
R프로그래밍 강좌 - [11] [기초통계] 도수분포,상대도수분포,분활표 (0) | 2018.01.15 |
댓글