1.텍스트 마이닝(Text Mining)
- tm패키지를 사용하여 텍스트를 분석한다.
- tm의 Corpus는 데이터의 정제, 통합, 선택, 변환 과정을 거친 구조화된 단계로서 더 이상 추가적인
절차 없이 데이터 마이닝 알고리즘 실험에서 활용할 수 있는 상태이다.
- 텍스트 마이닝 패키지인 tm에서 문서를 관리하는 기본구조를 Corpus라 부르며, 이는 텍스트 문서들의
집합을 의미한다.
(1) 데이터 준비 및 패키지 설치
- 실습에 사용할 데이터는 kor.txt이며 코리아 헤럴드의 경제 부분 기사를 텍스트형식으로 만든 데이터이다.
- 텍스트 파일은 영어로 구성되어 있으며, 우리나라 경제상황에 대한 내용을 담고 있다.
# Install
(2) 데이터 정제
- Corpus는 tm패키지에서 문서를 관리하는 기본구조이다.
- 데이터 정제는 텍스트 마이닝 중에서 반드시 필요한 부분이다.
- 텍스트 파일 안에 문장의 공백,숫자,구두점, 특수기호, 대소문자 구별 등 여러 요인들을 제거해야
비로서 필요한 명사(단어)들로 추릴 수 있다.
- 정제할때 tm의 tm_map()함수가 많이 쓰인다.
- 어근추출을 위해 SnowballC 패키지 설치
- 어근이란 단어를 분석할 때 실질적 의미를 나타내는 중심이 되는 부문이다.
덮개의 덮_, 어른 스럽다의 어른
- Document-term matrix 란 문서번호와 단어 간의 사용여부 또는 빈도수를 만드는 작업이다.
해당 문서의 해당 용어의 출현빈도를 카운팅해서 알려준다.
docs <- Corpus(VectorSource(text))
#term document matrix를 만든다.
#term document matrix의 결과를 합해서 내림차순으로 정렬
(3) 워드 클라우드로 시각화
freq = d$freq,
min.freq = 1,
random.order=FALSE,
rot.per=0.35,
2.워드클라우드(Word Cloud)
- 단어를 구름모양으로 나열하여 시각화하는 packages이다.
- 본절에서 사용되는 패키지는 wordcloud, KoNLP, RColorBrewer가 사용되었으며 Text mining하는데 유용한 패키지 이다.
- 데이터로는 검색엔진을 통해서 빅데이터 주제로 검색한 결과를 SNS의 댓글들을 모아 txt파일로 저장하였다.
(1) 패키지 설치 및 데이터 읽어오기
(2)데이터 정제하기
(3)글자 생성 지정후 cloud그리기
- min.freq=1 의미
단어의 빈도수를 나타내는 것으로서 "한번이상 쓰인 단어들을 그림에 나타낸다" 라는 의미이다.
숫자의 값이 증가할 수록 그림으로 표현되는 단어의 수는 적어짐을 알 수 있다.
- min.freq = 1, min.freq = 2,min.freq = 4,min.freq =5 로 변경해서 그린 그림이다.
'공부 > IT-R프로그래밍' 카테고리의 다른 글
R프로그래밍 강좌 - [20][추론통계학활용] t-test,영업사원 교육 효과 분석, 다이어트 식품 효과 분석 (0) | 2018.01.19 |
---|---|
R프로그래밍 강좌 - [19][추론통계학활용]책상 납품을 위한 학생 신장 분석,광고 모델 반응 분석 (0) | 2018.01.19 |
R프로그래밍 강좌 - [18][추론통계학활용]신차 색상 고객 선호도 분석,홍보이벤트 효과 분석 (1) | 2018.01.18 |
R프로그래밍 강좌 - [16]그래프 함수 활용, Plot의 종류, 통계분포 그래프 그리기, ggplot2 (0) | 2018.01.17 |
R프로그래밍 강좌 - [15] [고급통계] 선형회귀분석, 선형회귀분석 검증, 다중 선형회귀분석 (0) | 2018.01.17 |
댓글