본문 바로가기
공부/IT-R프로그래밍

R프로그래밍 강좌 - [20][추론통계학활용] t-test,영업사원 교육 효과 분석, 다이어트 식품 효과 분석

by 썸볼 2018. 1. 19.
1. R의 t-test
 
(1) t-test의 유형
 
- t-test는 비교의 대상이 되는 두개의 그룹이 무엇인지에 따라 크게 세가지 유형으로 구분할 수 있다.
 
1) 독립 표본 t-test: 서로 다른 두개의 그룹 간의 평균 비교
   (예: 남자와 여자 간 소득의 차이 비교)
 
2) 대응 표본 t-test : 하나의 집단에 대한 비교
   (예: 과외를 하기 전과 후의 반 학생들의 성적 변화)
 
3) 단일 표본 t-test : 특정 집단의 평균이 어떤 숫자와 같은지 다른지를 비교
 
 
(2) t-test의 조건
 
- 두개의 집단에 대한 t-test를 실시하기 위해서는 등분산성, 정규성이 만족되어야 한다.
 
- 정규성의 경우 일반적으로 관측 갯수가 30개 이상일때 만족한다고 판단할 수 있다.
 
- 등분산성을 확인하기 위해서는 var.test라는 함수를 사용하면 된다. 한번 실습해 볼까요?
 

※등분산성:
 
분산분석을 통해 서로 다른 두개 이상의 집단을 비교하고자 할때, 
기본적으로 해당 집단들이 만족해야되는 조건 중 한가지로 분산이 같음을 의미한다.
 
나머지 조건은 독립성과 정규성이 있으며, 
세 가지를 모두 합쳐 IID 혹은 iid(Independent and identically distributed random variables)라고 한다.
 
a = c(175, 168, 168, 190, 156, 181, 182, 175, 174, 179)
b = c(185, 169, 173, 173, 188, 186, 175, 174, 179, 180)
 
var.test(a,b)
 
F test to compare two variances
 
data: a and b
F = 2.1028, num df = 9, denom df = 9, p-value = 0.2834
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.5223017 8.4657950
sample estimates:
ratio of variances 
 2.102784
 
p-value가 0.05보다 작은 경우 두 집단의 분산은 유의미하게 다르다고 볼 수 있다. 
위 예제에서는 p-value가 0.2834로 0.05보다 크다.
귀무가설(두집단의 분산은 다르다) 기각에 실패했으므로 두 집단의 분산은 같다고 볼 수 있다.
 
 
(3) 독립표본 t-test  (independent two sample t-test)
 
- 서로 다른 두개의 그룹 간 평균의 차이가 유의미 한지 여부를 판단하기 위한 t-test는 독립표본 t-test 이다.
- 두개의 표본이 “독립”적 이기 위해서는 아래 조건을 만족해야 한다.
 
1) 두개의 표본이 서로 관계 없는 모집단에서 추출 되었을 것
2) 표본 간에는 아무런 관계가 없을 것
 
 
- mtcars 데이터셋을 사용해서 독립표본 t-test를 해 보면, 
  mtcars 데이터셋은 1974년 미국에서 자동차 별 가스 마일리지를 측정한 데이터 이다. 
  자세한 설명은 R 콘솔에서 ?mtcars 를 입력하면 된다.
 
- str과 head 함수를 사용해서 mtcars 데이터셋이 어떻게 생겼는지를 확인한다.
 
(데이터 셋을 R에 로드할 때 str과 head 함수를 사용해서 로드가 잘 되었는지, 
 데이터 셋이 어떤 모양인지를 확인한다.)
 
 
 str(mtcars)
'data.frame': 32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
 
 
head(mtcars)
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
 
 
- 11개의 변수가 있는 32개의 관측 데이터이다. 
 
- mtcars$am 변수는 자동차 기어가 오토인지 수동인지를 기록한 변수 이다. (0=오토, 1=수동)
 
- 자동차 기어 종류(오토/수동)에 따른 mpg의 차이가 통계적으로 유의한지 t-test를 통해 확인해 보겠다.
 
- 우선 두 표본이 등분산성을 만족하는지 확인해 보아야 한다
 
 
var.test(mtcars[mtcars$am==1,1 ], mtcars[mtcars$am==0, 1])
 
F test to compare two variances
 
data:  mtcars[mtcars$am == 1, 1] and mtcars[mtcars$am == 0, 1]
F = 2.5869, num df = 12, denom df = 18, p-value = 0.06691
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.934280 8.040391
sample estimates:
ratio of variances 
          2.586911
 
- p-value가 0.06691로 0.05보다 크므로 등분산성을 만족한다. 
  즉, 분산이 같다. 
 
 
※ R에서 독립표본 t-test를 하는 두가지 방법
 
1) 하나는 분석을 원하는 두 집단의 평균을 각각 별개의 벡터 객체로 만들어 입력하는 방법
 
  유형 1 문법: t.test(group 1의 관측치, group2의 관측치, t-test 유형, 신뢰범위)
 
2) 다른 방법은 하나의 데이터 프레임에서 집단을 구분하고자 하는 기준을 입력하는 방법
 
  유형 2 문법: t.test(관측치~집단 구분 기준, 데이터프레임, t-test 유형, 신뢰범위)
 
 
- 독립표본 t-test의 경우 t-test 유형을 var.equal을 TRUE로 지정하면 된다. 
 
- 신뢰범위는 default로 0.95로 지정되어 있으므로 별도로 지정할 필요는 없다.
 
- paired = FALSE로 지정하여 동일한 집단의 전,후 차이를 비교하는게 아닌것을 나타낸다.
 
 

t.test(mtcars[mtcars$am==0,1 ], mtcars[mtcars$am==1, 1],  paired = FALSE, var.equal = TRUE, conf.level = 0.95)
 
Two Sample t-test
 
data:  mtcars[mtcars$am == 0, 1] and mtcars[mtcars$am == 1, 1]
t = -4.1061, df = 30, p-value = 0.000285
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -10.84837  -3.64151
sample estimates:
mean of x mean of y 
 17.14737  24.39231
 
---------------------------------------------------------------------
 
t.test(mpg ~ am, data=mtcars, var.equal=TRUE, conf.level = 0.95) 
 
Two Sample t-test
 
data:  mpg by am
t = -4.1061, df = 30, p-value = 0.000285
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -10.84837  -3.64151
sample estimates:
mean in group 0 mean in group 1 
       17.14737        24.39231
 
- 위의 예제는 유형 1, 유형2의 문법을 사용한 t-test 이다.
 
- 결과를 해석해 보면, 우선 가장 아래쪽 집단 별 mpg의평균을 보면 오토는 17.14, 수동은 24.39로 차이가 난다.
 
- 이러한 차이가 유의한지를 판단하기 위해서는 p-value를 확인하면 된다.
 
- p-value를 확인해 보면 0.001374로 오토와 수동 자동차의 mpg차이는 유의하다고 할수 있다.
 
 
 
(4) 대응표본 t-test  (Paired sample t-test)
 
- 대응표본 t-test는 동일한 집단의 전-후 차이를 비교하기 위해 사용된다.
 
- 예를 들어 초콜렛을 하루 30g씩 섭취하는 것이 수면 시간에 영향을 미치는지 여부나, 
 
- 과외를 받는 것이 학교 성적에 영향을 미치는지 등등 특정 변인의 영향을 측정하기 위해 주로 사용된다.
 
- 주의할 점은 대응 표본은 실험 전-후를 비교하는 것이기 때문에 입력하는 관측치의 수가 반드시 같아야 한다.
 
- 중간고사 이후 과외를 받은 10명의 학생의 중간고사 와 기말고사 점수 데이터를 가상으로 만들어서 비교해 보자.
 
 
mid = c(16, 20, 21, 22, 23, 22, 27, 25, 27, 28)
final = c(19, 22, 24, 24, 25, 25, 26, 26, 28, 32)
t.test(mid,final, paired=TRUE)
 
Paired t-test
 
data:  mid and final
t = -4.4721, df = 9, p-value = 0.00155
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.0116674 -0.9883326
sample estimates:
mean of the differences 
                     -2
 
- p-value가 0.00155로 과외를 받은 전과 이후의 평균 성적 차이가 난다고 말할 수 있다.



2. t-test 예제 


1) t 검정(모평균 검정)
- 표본을 이용하여 모집단의 평균이 어떠한 값을 가지고 있는 지를 알고 싶다면 t.test 함수를 사용한다.
- 표본조사(샘플조사)를 위한 전체를 모집단이라 하며 모집단으로 부터 무작위 추출된 일부를 표본이라 한다.
- 모집단의 데이터에 대한 평균값을 모평균이라 한다.

- 평균 95, 표준편차가 10 인 모집단에서 표본 추출을 했을경우 평균이 90일 수 있는지 알아본다.


#난수 발생
> rnorm(40, mean=95, sd=10)
 [1]  88.32062 106.19048  93.27057  91.25028  91.37276 103.79702
 [7]  79.98763  80.09891 100.27435 107.51704 115.82473 103.25769
[13] 103.31443 106.22659  87.94741  93.28915  96.34301  94.45932
[19] 110.05172 107.27138 109.79298 107.06312 106.08354  80.00617
[25] 101.09900  76.78848  95.77820  99.78241  87.59807 109.44478
[31]  98.23854  91.43916 100.52137  99.49175 107.30741 104.65155
[37] 110.61685  91.83888  85.82679 110.57222
x <- rnorm(40, mean=95, sd=10)
#표본 x값으로 모평균 90이다라는 가설(귀무가설-영가설)
t.test(x, mu=90) 
 
One Sample t-test
 
data:  x
t = 3.9312, df = 39, p-value = 0.0003362
alternative hypothesis: true mean is not equal to 90(대립가설)
95 percent confidence interval:
  93.39973 100.60601
sample estimates:
mean of x 
 97.00287 

- p-value값이 0.05 보다 작기 때문에 
모평균 90이다라는 귀무가설은 기각된다.
  0.05 이상이면
 귀무가설은 채택된다.
 

2) t 검정 - 두집단 평균 비교
 - t검정은 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법이다.
 - R에 내장된 t.test()를 이용해 t 검정을 할 수 있다.
 - ggplot2패키지의 mpg데이터를 이용해 t검정을 수행한다. 소형차와 suv가 도시 연비에서 통계적으로 유의한 차이가 있는지 알아본다.
 - mpg데이터에서  class, cty변수만 남긴 뒤 class변수가 "compact"인 자동차와 "suv"인 자동차를 추출한다.


install.packages("scales")
mpg <- as.data.frame(ggplot2::mpg)
 
library(dplyr)

> mpg_diff <- mpg %>% 
+   select(class, cty) %>% 
+   filter(class %in% c("compact", "suv"))
 
> head(mpg_diff)
    class cty
1 compact  18
2 compact  21
3 compact  20
4 compact  21
5 compact  16
6 compact  18
 
> table(mpg_diff$class)
 
compact     suv 
     47      62 

- t.test()를 이용해 t검정을 수행한다. 추출된 데이터를 지정하고 ~기호를 이용해 비교할 값인 cty(도시연비)와 비교할 집단인
  class(자동차종류)지정한다.
- t검정은 비교하는 집단의 분산이 같은지 여부에 따라 적용하는 공식이 다르다.
  여기선 집단 간 분산이 같다고 가정한다.var.equal=T지정한다.


> t.test(data = mpg_diff, cty ~ class, var.equal = T)
 
Two Sample t-test
 
data:  cty by class
t = 11.917, df = 107, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 5.525180 7.730139
sample estimates:
mean in group compact     mean in group suv 
             20.12766              13.50000 
 

 
- t검정이 결과는 유의 확률을 의미하는 p-value값이 0.05미만이면 집단간의 차이가 통계적으로 유의하다로 해석한다.
- 유의확률은 일반적으로 5%를 판단기준으로 삼는다. 5%보다 작다면 이 차이는 우연이라고 보기 어렵다고 결론 내린다.
p-value < 2.2e-16  은 유의확률이 2.2 * 10의 -16승 보다 작다는 의미다.
p-value가 0.05보다 작기 때문에 위의 분석결과는 compact와 suv간 평균도시 연비 차이가 난다로 해석한다.
- 두 차종류의 연비 평균값에서 suv보다 compact의 도시 연비가 더 높다는 것을 알 수 있다.


- 일반 휘발유와 고급 휘발유의 도시 연비 t검정
일반 휘발유와 고급 휘발유의 도시 연비가 차이가 나는지 알아본다.
- 두 연료를 사용하는 자동차를 추출한 후 t 검정을 실시한다.


> mpg_diff2 <- mpg %>% 
+   select(fl, cty) %>% 
+   filter(fl %in% c("r", "p"))  # r:regular, p:premium
 
> table(mpg_diff2$fl)
 
  p   r 
 52 168 
 
> t.test(data = mpg_diff2, cty ~ fl, var.equal = T)
 
Two Sample t-test
 
data:  cty by fl
t = 1.0662, df = 218, p-value = 0.2875
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.5322946  1.7868733
sample estimates:
mean in group p mean in group r 
       17.36538        16.73810 
 
 
- 분석결과를 보면 p-value값이 0.05보다  0.2875이다. 실제로 차이가 없는데 우연에 의해 이런 차이가 관찰될
  확률이 28.75% 라는 의미이다.
- 일반휘발유와 고급 휘발유를 사용하는 자동차 간 도시 연비 차이가 통계적으로 유의하지 않다고 결론을 내릴수 있다.
- 출력결과의 두 자동차의 평균에서 보면 고급 휘발유 자동차 연비 평균이 0.6 정도 높지만 이런 정도이 차이는 우연히 
  발생했을 가능성이 크다고 해석한다.





 
 


3.영업사원 교육 효과 분석

- 두집단의 평균이 서로 같은지 다른지를 검증하는 것을 두 집단 평균차이 분석이라고 한다 (two sample t-test) 

- 또한 두 그룹 간의 평균을 기준으로 차이에 의미를 부여하는 방법이다.

- 두집단의 특정변수가 수치 데이터로 이루어진 경우 평균값을 분석할 수 있으며, 이 평균값이 두 집단 간에 
  동일한지/다른지를 비교하는 분석이라고 할 수 있다.

문제 : 영업사원들의 실적을 향상시키기 위해 어떠한 교육이 더 좋을까?

예제데이터 : 2가지 교육방법별로 교육을 이수한 영업사원들의 영업실적을 조사한 데이터
                (mymethod.csv)
변수명: id,method:영업역량강화 교육방법(1:집체교육, 2:멘토링교육),
          performance:영업직원들의 영업실적(단위: 억 원)
          (단, 입사 6개월 이내 인력은 교육을 받았어도 영업실적조사에서 제외함-> 99로 표시)

분석문제:
1) 교육방법별로 교육을 이수한 사람들의 빈도수와 영업실적 평균값을 구하시오
2) 실제 영업실적 비교대상자만의 데이터를 별도로 추출하시오
3) 두 교육방법별 영업실적 데이터 간에 분포모양이 비숫한지를 검증하시오
4) 두 집단 간의 영업실적에 차이가 있는지를 검증하시오


(1) 실습데이터 읽기


 mymethod <- read.csv("./data/mymethod.csv",header = T)

> mymethod$method
 [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2
[37] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 
> mymethod$performance
 [1] 27  5 21 99 14 23 20  9 28 15 29 99  9  5 19 13 10 29  5 28  6 20 17  9
[25] 19 45 21 37 26 26 24 37 34 44 39 20 99 15 41 38 21 26 26 22 99 31 34 27
[49] 21 32 35 35 29 43 18 15 99 30 23 32 99 28 29



(2) 교육방법에 따른 영업실적을 구분한다.

groupA <- subset(mymethod,method==1 & performance<90)
mode(groupA)
groupB <- subset(mymethod,method==2 & performance<90)
 


 (groupAcount <- length(groupA$method))
 (groupAmean <- round(mean(groupA$performance),2))
 
> groupAcount;groupAmean
[1] 22
[1] 16.41


 (groupBcount <- length(groupB$method))
 (groupBmean <- round(mean(groupB$performance),2))
 
> groupBcount;groupBmean
[1] 35
[1] 29.23
 

 
(3) 집체교육과 멘토링 교육을 받은 집단 간의 빈도와 평균실적을 정리하여 교차분석표를 출력한다.
         

 groupcount <- c(groupAcount,groupBcount)
 groupmean <- c(groupAmean,groupBmean)
 
> groupcount;groupmean
[1] 22 35
[1] 16.41 29.23
 
grouptable <- data.frame(Freq=groupcount,Mean=groupmean)
> grouptable
  Freq  Mean
1   22 16.41
2   35 29.23

(4) 
분석대상 두 집단의 등분산성을 검정후 두 집단의 평균차이를 분석한다.

- 등분산성 이면 t-test를 적용하고 아니면 wilcox.test분석을 한다.

- 정규성 가정을 충족하지 못하는 경우, 혹은 분포형태를 모르는 경우, 두 모집단의 중심 차이에 대한
  비모수 검정인 wilcox.test를 한다.

※ 비모수란 ?
통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법이다. 비모수적(Non-parametric), 비모수검정법 혹은 분포무관(Distribution-free)검정법이라고도 한다.





#분석대상 두집단의 등분산성을 검정한다.
> var.test(groupA$performance, groupB$performance)
 
F test to compare two variances
 
data:  groupA$performance and groupB$performance
F = 1.0648, num df = 21, denom df = 34, p-value = 0.8494
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.502791 2.427170
sample estimates:
ratio of variances 
           1.06479 

- p-value가 0.05보다 크므로 귀무가설(분산이 같지않다) 기각하고, 대립가설을 채택한다.

- 즉, 분석대상 두집단이 등분산성을 만족하므로  t-test를 적용해 모집단의 평균값을 검정한다.


- 귀무가설: 두집단 평균의 차이는 0이다.(두집단 평균차이가 나지 않는다.)

- 대립가설: 두집단 평균의 차이는 0이 아니다.(두집단 평균의 차이가 난다.)



> t.test(groupA$performance,groupB$performance,var.equal = T )
 
Two Sample t-test
 
data:  groupA$performance and groupB$performance
t = -5.6466, df = 55,
p-value = 5.946e-07
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -17.369242  -8.269719
sample estimates:
mean of x mean of y 
 16.40909  29.22857 
 

- 두 집단 평균의 차이가 보이며, 그차이가 유의한지는 p-value값으로 확인하다.

- p-value값이 0.05보다 작으므로 귀무가설 기각하고 대립가설 채택한다.

- 즉 두집단 평균의 차이가 있다.(양측검정)
 



> t.test(groupA$performance,groupB$performance, alternative = "greater",var.equal = T)
 
Two Sample t-test
 
data:  groupA$performance and groupB$performance
t = -5.6466, df = 55,
p-value = 1
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 -16.61775       Inf
sample estimates:
mean of x mean of y 
 16.40909  29.22857 
 
- p-value가 0.05보다 크므로, 두집단 평균의 차이가 있다는 대립가설은 기각된다. 
 
 



3. 다이어트 식품 효과 분석

- 짝을 이루는 두 집단의 평균이 서로 같은지 다른지 검정하는 것을 대응 두집단 평균차이 

  분석이라 한다.
- 또한 짝지어진 변수값 차이의 평균이 특정한 값과 같은지를 검정한다.
- 짝을 이룬다/대응을 이룬다 는 표현은 독립적인 두 집단이 아니라 실제는 하나의 집단에서 
  두번 측정이 이루어진 것을 의미한다.
- 한 집단을 대상으로 사전-사후 효과 비교 시 많이 사용되고 있는 방법이다
 
문제: 연구개발 중인 다이어트 식품의 효과는 있는 것일까?
 
예제데이터:새로운 다이어트 효능 식품을 복용한 시험참가자의 몸무게 변화를 조사한 데이터
           (myeffect.csv)
 
변수명:id,before(다이어트 효능식품 복용 전 몸무게),after(다이어트 효능식품 복용 후 몸무게,
       단, 한 달 동안의 몸무게 평균 수치이며, 중도포기자는 조사에서 제외함->999로 표시)
 
분석문제:
  1) 복용전과 복용후의 시험 참가자의 빈도수와 몸무게 평균값을 구하시오
  2) 실제 한달 간의 시험기간을 완수한 시험참가자들 만의 데이터를 별로 추출하시오
  3) 2개의 몸무게 집단 데이터간의 분포모양이 비숫한지를 검정하시오
  4) 복용전과 복용후에 효과차이가 있는지를 검정하시오
 
(1) 실습데이터 가져오기 및 내용확인

myeffect <- read.csv("./data/myeffect.csv",header =T)              
myeffect
myeffect$before
myeffect$after
 
(2) 다이어트 효능식품 복용전,후의 이상치 데이터 제거후 각각 새로운변수에 저장한다.

#before와 after의 이상치 값을 제거한후 다른변수에 저장
myeffect2 <- subset(myeffect,after<999)
myeffect3 <- subset(myeffect,after!=999)
myeffect4 <- subset(myeffect,after<999, c(before,after))
myeffect5 <- subset(myeffect,after!=999, c(before,after))
myeffect5
 
(3) before, after 각각의 데이터의 빈도수 및 평균값을 구한다.
#참가자의 빈도수와 before, after의 평균값을 구한다.
groupBE <- myeffect5$before
groupAF <- myeffect5$after

> length(groupBE)
[1] 249
> length(groupAF)
[1] 249
> mean(groupBE)
[1] 65.61968
> mean(groupAF)
[1] 57.94016
 
(4) 한쌍의 두 집단 평균의 등분산성 검정후 한쌍의 두집단의 평균의 차이를 분석한다.

> var.test(groupBE,groupAF, paired = T)
 
F test to compare two variances
 
data:  groupBE and groupAF
F = 0.70567, num df = 248, denom df = 248, p-value =
0.006234
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.5498608 0.9056408
sample estimates:
ratio of variances 
         0.7056744 

- p-value가 0.05보다 작으므로 두 집단의 평균이 등분산성 검정을 만족하지 못한다.

- wilcox.test()함수로 두집단의 평균 차이 분석을 한다.

- 귀무가설 : 한쌍의 두집단 평균의 차이는 없다.
- 대립가설 : 한쌍의 두 집단 평균의 차이는 있다. 
 

> wilcox.test(groupBE,groupAF, paired = T)
 
Wilcoxon signed rank test with continuity correction
 
data:  groupBE and groupAF
V = 24541, p-value = 2.983e-15
alternative hypothesis: true location shift is not equal to 0

- p-value가 0.05보다 작으므로 귀무가설 기각되고 대립가설 채택된다.

- 즉, 다이어트 효능식품 복용 전후의 몸무게 평균의 차이는 있는것으로 확인된다. 


댓글