1. 통계학의 종류
(1) 기술 통계학
- 데이터를 요약해 설명하는 통계기법이다.
- 자료를 분석하려면 수많은 숫자와 문자의 이면에 있는 경향이나 특징을 파악해야한다.
이를 위해 수집한 자료를 정리해 표로 나타내야 하는데 이를 기술 통계학이라 한다.
- 기술통계학에서는 자료정리를 표로 나타내며 자료의 제시는 그래프로 표현한다.
1) 비율
- 전체에서 개개의 요소가 어느 정도의 비율을 차지하는가를 보면 그 요소의 중요성이나 영향력을 알 수있다.
- 주로 백분율로 나타낸다. 띠그래프, 누적 막대그래프, 원그래프로 항목들을 표현한다.
※ 띠그래프
?mtcars
※ 누적 막대그래프
※ 원그래프
-----------------------------------------------------------------------------------------------------------------------------------------
install.packages("plotrix")
#3차원 파이 차트
---------------------------------------------------------------------------------------------------------------------------------------------
radial.pie(slices,labels=lbls, radlab = T)
2)상관 관계
- 자료의 항목이 2개 이상인 항목을 이용하면 조사항목 간의 관계를 파악할 수 있다.
- 두 변량 중 한 쪽이 증가함에 따라, 다른 한 쪽이 증가 또는 감소할 때 두 변량 관계를 말한다
- 양의 상관 : 2개의 자료항목에서 한쪽이 증가하면 다른쪽도 증가하는 관계를 양의 상관이라한다.
- 음의 상관 : 2개의 자료항목에서 한쪽이 증가하면 다른쪽은 감소하는 관계를 음의 상관이라한다.
- 산포도, 상관도로 항목들을 표현한다.
3)분포(분산)
- 많은요소로 이루어진 자료에서 그 흩어진 상태를 정리해 표로 나타낸 것이 도수분포표이다. 그 표를 그래프로
나타낸것이 히스토그램이다.
- 분산된 데이터를 비교하는 데 편리한 것이 상자 수염 그림이다.
- 측정값을 작은 순서로 늘어 놓았을때 전체의 작은 쪽부터 25%의 값을 1사분위수, 50%의 값을 2사분위(중간값),
75%의 값을 3사분위수라 하고 합해서 사분위수라 한다.
※ 히스토그램
※ 상자 수염 그림
boxplot(mtcars$hp, ylab="HOrse Power")
4)자료의 대표값
- 평균값 : 자료의 데이터를 평평하게 고른 값이 평균값이다.
- 중앙값 : 값을 크기순으로 늘어놓았을때 가장 중간에 오는 수치를 말한다.
데이터 크기가 짝수일때는 한가운데 2개를 취하고 이를 2로 나눈 수치가 중앙값이다.
1, 2, 3, 4, 5 => 3(중앙값)
1, 2, 3, 4, 5, 6 => 3+4/2 = 7/2 = 3.5(중앙값)
- 최댓값과 최솟값 : 자료 중 가장 큰 값과 가장 작은 값이다.
- 최빈값 : 가장 많이 관찰된 값
- 표준편차와 사분위수 범위 : 자료들이 퍼저 있는 정도이다.
5)편차와 분산
- 편차 : 데이터에서 평균값을 뺀 값으로 자료 속의 각 데이터가 어느 정도 평균값에서 벗어났는지를 나타낸다.
편차의 합과 평균은 항상 0인 특성을 가진다. 이런 성질을 이용하여 자유도란 개념을 생각해 볼 수 있다.
- 자유도 : n개의 자료가 있을 때 그들의 편차 중 (n-1)개는 원하는 값을 마음대로 가질 수 있는데 이를 자유도라 한다.
편차1 -> 10, 편차2-> 20, 편차3-> ? 일때 ? 값은 편차의 합이 0이라는 특성을 이용하여 -30을 가질수 밖에 없다.
이처럼 편차1,편차2는 아무런 값을 가져도 되지만, 편차3은 특정한 값이 되다.
- 편차 제곱의 평균을 통계에선 분산이라 하며, 분산의 제곱근을 표준편차라 한다.
- 분산 : 흩어진 정도를 표현하는 지표이다.
6) 표준편차
- 표준편차 : 통계에서 분산의 제곱근을 표준편차라 한다.
- 평균 -> 편차(데이터-평균) -> 분산(편차 제곱의 평균) -> 표준편차(분산의 제곱근)
-------------------------------------------------------
-------------------------------------------------------------
> var( height )
※ 위의 편차제곱의 평균(분산)값과 R의 var()의 분산 결과값이 다르다. 이유는,
R에서 var()의 분산계산은 모집단의 특성을 유추하는 표본의 특성이 갖춰야 할 중요한 성질을 만족하기 위해 분산(or 표준편차)의 계산에서
표본의 갯수가 아닌 자유도로 나누기 때문이다. n이 아닌 (n-1)로 나누었다.
- 표준편차의 크기비교를 통해 자료의 퍼진 정도를 비교할 수 있다.
- 두 자료에서 표준편차가 작은 자료(점선)는 평균을 중심으로 표준편차가 큰 경우보다 몰려 있고 높이가 높은 반면,
표준편차가 큰 자료(실선)가 평균을 중심으로 퍼진 정도가 더 크다 (= 자료의 변동 폭이 더 크다)
7) 변동계수
- 앞서 두자료의 단위가 동일하고 평균이 같은 경우이기에 직접 비교가 가능하지만, 두자료의 단위가 다르거나 평균이 다른 자료들의
퍼진 정도를 비교할 경우 변동계수를 사용한다.
- 평균과 표준편차가 서로 다른 두 데이터를 비교하기 위해 만들어 진 개념이다. (예:키,몸무게 예: 커피, 주스 판매량)
- 변동계수는 평균에 대한 표준편차의 비율로서 변동계수가 클수록, 즉 표준편차가 표본평균에 비해 클수록 자료의 퍼진 정도가 더
크다고 한다.
- 변동 계수(coefficient of variation, C.V.)는 표준 편차()를 산술 평균()으로 나눈 것이다
- 변동계수 구하기
커피 판매량과 주스판매량 자료로 부터 표준편차를 구하고, 어떤 음료가 판매량의 변동이 더 큰지 알아보기 위해 변동계수를 구한다.
# 데이터에 결측치가 포함되어 있을 경우 R의 NA에 대응시킬 값을 지정한다. # 기본값은 "NA"로, "na"로 저장된 문자열들은 R의 NA로 저장된다. - na.strings="na" ranicafe <- read.csv("./data/cafedata.csv", header=T, na.strings="na", stringsAsFactors=FALSE ) ranicafe <- na.omit(ranicafe) str(ranicafe)
-----------------------------------------------------------
- 위내용은 주스판매량의 변동계수가 커피판매량의 변동계수보다 크다.
8) 표준화
- 기준이 다른 데이터를 비교하기 위해서 표준화를 한다.
- 예를 들어 A대학에 모든 학생의 토익점수와 토플점수에 대한 두 시험을 비교하려고 할대 하나는 총점이 990이고
하나는 120점이기 때문에 두 시험을 비교하기 쉽지 않다.
- 이때 비교하기 위한 방법이 두 시험의 점수를 표준화 시키는 것이다.
- 표준화 하는 방법은 평균을 0으로 이동하여 모든 값도 같이 움직이면서 0을 기준으로 데이터들이 위치하게 된다.
그다음 각각의 값을 표준편차로 나눠준다. 그러면 표준편차는 1이 된다.
- 이렇게 평균이 0, 표준편차가 1로 만드는 것을 표준화라 부른다.
- 만점이 서로 달라 평균이 전혀 다른 두 시험을 비교하고 싶을 때 두 데이터를 표준화 하면 두 데이터 모두 평균은 0이
되며 서로 달랐던 표준편차는 1이 되기 때문에 서로 비교가 가능해진다.
- 모든 데이터의 원소에 상응하는 z점수를 구할때 R에서 scale함수(벡터,행렬,데이터프레임 에서 작동함)를 사용한다.
#붓꽃의 꽃받침 길이의 z점수(표준화) 구하기
scale(iris$Sepal.Length)
:
:
- 위의 center는 평균, scale은 표준편차를 나나타내다.
(2) summary 함수
- summary함수는 데이터의 요약된 통계정보( 벡터, 행렬, 요인, 데이터 프레임등에 대한 유용한 통계량)를 보여준다.
- iris는 붓꽃의 3가지 종(setosa, versicolor, virginica)에 대해 꽃받침(sepal)과 꽃잎(petal)의 길이를 정리한 데이터다.
R에 기본으로 내장되어 있고, 이해하기 쉬우며 크기가 작은 데이터다.
> summary(iris)
- 벡터 요약: 사분위수, 중앙값, 평균
- 행렬 요약: 열 단위로 표시
- 요인 요약: 수준별 도수 표시
- 데이터 프레임 요약: 기능(벡터, 행렬, 요인)을 모두 사용 가능
- lapply(x,fun,..) : list apply, 리스트에 지정한 함수를 적용
'공부 > IT-R프로그래밍' 카테고리의 다른 글
R프로그래밍 강좌 - [14] [기초통계] 신뢰구간, 모비율 검정, 정규성 검증, 유의성 검증 (0) | 2018.01.16 |
---|---|
R프로그래밍 강좌 - [13] [기초통계] 확률개념, 추론 통계학 (0) | 2018.01.16 |
R프로그래밍 강좌 - [11] [기초통계] 도수분포,상대도수분포,분활표 (0) | 2018.01.15 |
R프로그래밍 강좌 - [10] [실습] 인터랙티브 그래프 (0) | 2018.01.08 |
R프로그래밍 강좌 - [09] [실습] 지도 시각화 (0) | 2018.01.08 |
댓글