본문 바로가기

무따공21

R프로그래밍 강좌 - [09] [실습] 지도 시각화 1. 지도 시각화 - 지도에 지역별 특성을 색깔로 표현한 지도를 단계 구분도라 한다. - 단계 구분도를 보면 인구나 소득 같은 특성이 지역별로 얼마나 다른지 쉽게 이해할수 있다. (1) 미국 주별 강력 범죄율 단계 구분도 만들기 1) 데이터 준비 - 단계 구분도는 ggiraphExtra 패키지를 이용해 만든다. - R에 내장된 USArrests데이터는 1973년 미국 주(State)별 강력 범죄율 정보를 담고 있다. install.packages("ggiraphExtra")library(ggiraphExtra) > str(USArrests)'data.frame': 50 obs. of 4 variables: $ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 .. 2018. 1. 8.
R프로그래밍 강좌 - [08] [실습]텍스트 마이닝 R프로그래밍 강좌 - [08] [실습]텍스트 마이닝1. 텍스트 마이닝 - 텍스트 마이닝(Text mining) : 문자로 된 데이터에서 가치 있는 정보를 얻어내는 분석기법 - 형태소 분석(Morephology Analysis) : 텍스트 마이닝 할때 가장 먼저 하는 작업, 어절들의 품사 파악 - 형태소 분석으로 어절들의 품사를 파악후 명사,동사, 형용사 등 의미를 지닌 품사의단어를 추출해 각 단어가 얼마나 많이 등장했는지 확인하다. (1) 힙합가사 텍스트 마이닝 1) 패키지 준비 - 한글 자연어 분석 패키지인 KoNLP(Korean Natural Language Processing)를 이용하면 한글 데이터로 형태소를 분석할 수 있다. - KoNLP는 자바가 설치 되어있어야 한다. 자바 설치후 환경변수 설.. 2017. 10. 25.
R프로그래밍 강좌 - [07] [실습] 데이터 분석 - 한국복지패널 데이터 R프로그래밍 강좌 - [07] [실습] 데이터 분석 - 한국복지패널 데이터1. 데이터 분석- 앞에서 배운 분석기술을 실습한다. - 한국 복지패널데이터를 이용해서 분석한다. ※ 한국복지패널데이터: 한국보건사회연구원에서 가구의 경제 활동을 연구해 정책지원에 반영할 목적으로 발간하는 조사 자료이다. 2006~2015년까지 전국 7000여 가구를 선정해 매년 추적 조사한 자료로, 경제활동, 생활실태, 복지 요구등 수천 개 변수에 대한 정보를 담고 있다. (1) 데이터 준비 - 제공된 Koweps_hpc10_2015_beta1.sav 파일을 testR프로젝트 폴더에 넣는다. - 위 파일은 2016년에 발간된 한국복지패널데이터로, 6,914가구의 16,664명에 대한 정보를 담고 있다. - 한국복지패널 사이트 회원.. 2017. 10. 24.
R데이터배우기 - [06] 그래프 만들기 R데이터배우기 - [06] 그래프 만들기 1. R 그래프 - 데이터의 원자료나 통계표는 수많은 숫자와 문자로 구성되어 있어서 의미 파악이 어렵다. - 데이터를 그래프로 표현하면 추세와 경향성을 알기 쉽다. - ggplot2는 그래프를 만들때 가장 많이 사용하는 패키지 이다. - 산점도, 막대그래프,선그래프, 상자 그래프를 알아본다. ※ ggplot2 레이어 구조 ggplot2는 레이어 구조로 되어있다. 배경을 만들고, 그위에 그래프 형태를 그리고, 마지막으로 축 범위위, 색, 표식 등을 설정한다. ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point() + xlim(3, 6) 데이터 축 그래프종류 세부설명 (1) 산점도 그래프 - 데이터를 x측과 y측에 점.. 2017. 10. 24.