본문 바로가기

전체 글102

R프로그래밍 강좌 - [12] [기초통계] 기술 통계학 1. 통계학의 종류 (1) 기술 통계학 - 데이터를 요약해 설명하는 통계기법이다. - 자료를 분석하려면 수많은 숫자와 문자의 이면에 있는 경향이나 특징을 파악해야한다. 이를 위해 수집한 자료를 정리해 표로 나타내야 하는데 이를 기술 통계학이라 한다. - 기술통계학에서는 자료정리를 표로 나타내며 자료의 제시는 그래프로 표현한다. 1) 비율 - 전체에서 개개의 요소가 어느 정도의 비율을 차지하는가를 보면 그 요소의 중요성이나 영향력을 알 수있다. - 주로 백분율로 나타낸다. 띠그래프, 누적 막대그래프, 원그래프로 항목들을 표현한다. ※ 띠그래프 ?mtcarsattach(mtcars)par(mfrow=c(2,2))stripchart(hp) #method="overplot" (디폴트)stripchart(gear.. 2018. 1. 15.
R프로그래밍 강좌 - [11] [기초통계] 도수분포,상대도수분포,분활표 1. 기초통계 - 통계에서 데이터를 표로 잘 정리하는 것은 통계전체 작업에서 50%이상을 완성했음을 의미한다. - 표로 데이터가 정리되면 통계적 해석이 쉽고, 그래프로도 나타내기 쉽다. (1) 명목형 변수의 도수분포표 - No, Yes의 답변이 흩어져있는 자료들은 표로 정리한다. - 측정된 값을 카운트해서 정리하는 표를 도수분포표 한다. - 도수의 의미는 거듭하는 횟수이며, 도수분포표는 수량을 세어 나타낸 표라 한다. - Yes, No는 명목변수이다. (2) 명목형 변수의 상대도수분포표 - 커피의 종류 아메리카노, 카라멜 마끼야또, 더치, 카페라떼, 오늘의 커피, 초코렛 프라프치노 등 변수값이 많을 경우에는 월판매 도수분포표는 서로 비교가 쉽지 않다. - 판매비율을 추가하면 숫자만 보는것보다 훨씬 비교가.. 2018. 1. 15.
R프로그래밍 강좌 - [10] [실습] 인터랙티브 그래프 1. 인터랙티브 그래프 - 마우스 움직임에 반응하여 실시간으로 형태가 변하는 그래프이다. - 그래프를 자유롭게 조절하면서 관심있는 부분을 자세히 살펴볼 수 있다. - html로 저장하여 웹 브라우저를 이용해서 그래프를 자유롭게 조작하면서 살펴볼 수 있다. (1) plotly 패키지로 인터랙티브 그래프 생성 1) 산점도 인터랙티브 그래프 생성 - plotly 패키지 설치 및 로딩 - ggplot2로 만든 그래프 plotly 패키지의 ggplotly()함수로 인터그랙티브 그래프를 만든다. - mpg데이터를 이용하여 x축 displ(배기량), y축 hwy(고속도로 연비)를 지정하여 산점도 생성한다. - drv(구동방식)별 색상을 표현하기 위해 col=drv를 지정한다. install.packages("plot.. 2018. 1. 8.
R프로그래밍 강좌 - [09] [실습] 지도 시각화 1. 지도 시각화 - 지도에 지역별 특성을 색깔로 표현한 지도를 단계 구분도라 한다. - 단계 구분도를 보면 인구나 소득 같은 특성이 지역별로 얼마나 다른지 쉽게 이해할수 있다. (1) 미국 주별 강력 범죄율 단계 구분도 만들기 1) 데이터 준비 - 단계 구분도는 ggiraphExtra 패키지를 이용해 만든다. - R에 내장된 USArrests데이터는 1973년 미국 주(State)별 강력 범죄율 정보를 담고 있다. install.packages("ggiraphExtra")library(ggiraphExtra) > str(USArrests)'data.frame': 50 obs. of 4 variables: $ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 .. 2018. 1. 8.
R프로그래밍 강좌 - [08] [실습]텍스트 마이닝 R프로그래밍 강좌 - [08] [실습]텍스트 마이닝1. 텍스트 마이닝 - 텍스트 마이닝(Text mining) : 문자로 된 데이터에서 가치 있는 정보를 얻어내는 분석기법 - 형태소 분석(Morephology Analysis) : 텍스트 마이닝 할때 가장 먼저 하는 작업, 어절들의 품사 파악 - 형태소 분석으로 어절들의 품사를 파악후 명사,동사, 형용사 등 의미를 지닌 품사의단어를 추출해 각 단어가 얼마나 많이 등장했는지 확인하다. (1) 힙합가사 텍스트 마이닝 1) 패키지 준비 - 한글 자연어 분석 패키지인 KoNLP(Korean Natural Language Processing)를 이용하면 한글 데이터로 형태소를 분석할 수 있다. - KoNLP는 자바가 설치 되어있어야 한다. 자바 설치후 환경변수 설.. 2017. 10. 25.
R프로그래밍 강좌 - [07] [실습] 데이터 분석 - 한국복지패널 데이터 R프로그래밍 강좌 - [07] [실습] 데이터 분석 - 한국복지패널 데이터1. 데이터 분석- 앞에서 배운 분석기술을 실습한다. - 한국 복지패널데이터를 이용해서 분석한다. ※ 한국복지패널데이터: 한국보건사회연구원에서 가구의 경제 활동을 연구해 정책지원에 반영할 목적으로 발간하는 조사 자료이다. 2006~2015년까지 전국 7000여 가구를 선정해 매년 추적 조사한 자료로, 경제활동, 생활실태, 복지 요구등 수천 개 변수에 대한 정보를 담고 있다. (1) 데이터 준비 - 제공된 Koweps_hpc10_2015_beta1.sav 파일을 testR프로젝트 폴더에 넣는다. - 위 파일은 2016년에 발간된 한국복지패널데이터로, 6,914가구의 16,664명에 대한 정보를 담고 있다. - 한국복지패널 사이트 회원.. 2017. 10. 24.
R데이터배우기 - [06] 그래프 만들기 R데이터배우기 - [06] 그래프 만들기 1. R 그래프 - 데이터의 원자료나 통계표는 수많은 숫자와 문자로 구성되어 있어서 의미 파악이 어렵다. - 데이터를 그래프로 표현하면 추세와 경향성을 알기 쉽다. - ggplot2는 그래프를 만들때 가장 많이 사용하는 패키지 이다. - 산점도, 막대그래프,선그래프, 상자 그래프를 알아본다. ※ ggplot2 레이어 구조 ggplot2는 레이어 구조로 되어있다. 배경을 만들고, 그위에 그래프 형태를 그리고, 마지막으로 축 범위위, 색, 표식 등을 설정한다. ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point() + xlim(3, 6) 데이터 축 그래프종류 세부설명 (1) 산점도 그래프 - 데이터를 x측과 y측에 점.. 2017. 10. 24.
R데이터배우기 - [05] 데이터 가공(데이터 전처리),데이터 정제 무작정 따라하는 공부법 ! 무따공입니다~ 벌써 다섯번째 포스팅이네요 ㅎㅎ 패키지 함수를 몇가지 다루는데, 잘 따라오세요! ---------------------------------------------------------------- 1. 데이터 전처리기 - 분석에 적합한 데이터로 가공하는 작업을 데이터 전처리(Data Preprocessing)라고 한다. - dplyr패키지는 데이터 전처리 작업에 가장 많이 사용된다. (1) 조건에 맞는 데이터 추출 - filter(조건식)를 이용하여 원하는 데이터를 추출할 수 있다. library(dplyr)exam % filter(class == 1) # 2반인 경우만 추출exam %>% filter(class == 2) # 1반이 아닌 경우exam %>% fi.. 2017. 10. 24.
R데이터배우기 - [04] 데이터 분석을 위한 데이터파악, 데이터 수정 안녕하세요 ! 무따공입니다 ~ 이번에는 데이터 파악과 수정에 대해서 공부를 해볼겁니다.다양한 함수들이 있지만, 다른 언어에서 쓰는 함수들과 비슷하고특히 SQL과 느낌이 비슷하다는 생각을 해봤습니다. R프로그래밍이 난이도는 생각보다 많이 어렵진 않다고 생각이 들긴 하지만공부할 건 참 많구나? 새로운 언어를 접할 때 느끼는 감정들이 문득 떠올랐어요 ㅎㅎ -------------------------------------------------------------------------------------------- 1. 데이터 분석을 위한 데이터 파악하기 - 분석할 데이터가 확보되면 데이터 특성을 파악하고 다루기 쉽게 변형작업을 한다. ※ 데이터 파악을 위한 함수들 (1) head(), tail() - h.. 2017. 10. 23.