본문 바로가기

분류 전체보기102

R프로그래밍 강좌 - [17][R패키지 활용]텍스트 마이닝, 워드클라우드 1.텍스트 마이닝(Text Mining) - tm패키지를 사용하여 텍스트를 분석한다. - tm의 Corpus는 데이터의 정제, 통합, 선택, 변환 과정을 거친 구조화된 단계로서 더 이상 추가적인 절차 없이 데이터 마이닝 알고리즘 실험에서 활용할 수 있는 상태이다. - 텍스트 마이닝 패키지인 tm에서 문서를 관리하는 기본구조를 Corpus라 부르며, 이는 텍스트 문서들의 집합을 의미한다. (1) 데이터 준비 및 패키지 설치 - 실습에 사용할 데이터는 kor.txt이며 코리아 헤럴드의 경제 부분 기사를 텍스트형식으로 만든 데이터이다. - 텍스트 파일은 영어로 구성되어 있으며, 우리나라 경제상황에 대한 내용을 담고 있다. # Installinstall.packages("tm") # for text mining.. 2018. 1. 18.
R프로그래밍 강좌 - [18][추론통계학활용]신차 색상 고객 선호도 분석,홍보이벤트 효과 분석 1. 신차 색상 고객 선호도 분석 - 관찰되는 값이 기대되는 값과 일치 하는지를 조사하는 것을 적합도 검정이라 한다. - 선택항목이 여러개 있을때 동일하게 선택될 것인가, 아니면 다르게 선택될 것인가를 기대하는 비중이 있다. - 또한 해당 선택 항목들에 대한 실제 조사관찰치의 선택 비중이 기대한 비중과 일치하는 여부를 판단하는 것이라고 할 수 있다. - 카이제곱 검정기법으로 이행한다. 새롭게 출시하는 신차 색상중 고객이 선호하는 색상은 무엇인가? 귀무가설: 새롭게 출시하는 신차 색상에 대한 고객 선호도 조사 결과는 유의미한 차이가 없다. 대립가설: 새롭게 출시하는 신차 색상에 대한 고객 선호도 조사 결과는 유의미한 차이가 있다. (1) 실습데이터 준비 및 패키지 설치 - 예제데이터는 A자동차메이커에서 신.. 2018. 1. 18.
R프로그래밍 강좌 - [16]그래프 함수 활용, Plot의 종류, 통계분포 그래프 그리기, ggplot2 1. 그래프 함수 활용 (1) 기본적인 그래프 함수 1)고수준 그래프 함수 - 새로운 그래프를 시작한다. 그래픽스 창을 초기 생성 하거나 설정하고, 축적을 설정한다. 이후 제목과 라벨 등 장식을 넣을 수 있다. - 고수준 함수 2)저수준 그래프 함수 - 그래프 작성을 시작할 수 없다. 존재하는 그래프에 점, 선, 텍스트, 장식등을 더한다. - 저수준 그래프 3) Plot()함수 plot(x,y,main=,sub=,xlab=,type=,axes="",col="", pch="") - x: x축의 자료 - y: y축의 자료 - main : plot의 전체 제목 - sub : plot의 부 제목 - xlab : x축의 제목, ylab: y축의 제목 - type : plot형태 결정 - axes : plot의 테.. 2018. 1. 17.
R프로그래밍 강좌 - [15] [고급통계] 선형회귀분석, 선형회귀분석 검증, 다중 선형회귀분석 1. 회귀분석 (1) 선형회귀분석 - 회귀분석은 진화론에 해당하는 키가 큰 아버지의 자식은 점점 커질것인고 키가 작은 아버지의 자식은 점점 작아질 것이라는 가설을 반박 하기 위해 연구되었다. - 칼톤은 아들의 키는 아버지의 키에 영향을 받는다 하더라도 결국 평균으로 돌아가려는 현상이 있다는 것을 발견한다. - 칼톤의 연구에 이어받은 피어슨은 신장자료를 이어받아 다음과 같은 함수식을 구한다. Y = 33.73 + 0.516X X는 아버지의 키이다. 70을 X에 대입하면 69.85; 72을 X에 대입하면 72.45; 65을 X에 대입하면 67.27; 60을 X에 대입하면 64.69:의 값이 나온다. 값이 평균에서 크게 벗어나지 않는다. 즉, 평균으로 회귀하려는 모습을 볼 수 있다. - 위에 내용에서 아버지 .. 2018. 1. 17.