
단행본
R을 이용한 텍스트 마이닝
Text-Mining Using R
- 저자
- 백영민
- 판사항
- 개정판
- 발행사항
- 파주 : 한울아카데미, 2020
- 형태사항
- 423 p. : 삽화, 도표 ; 25 cm
- 서지주기
- 참고문헌과 색인(p.399-423) 수록
소장정보
위치 | 등록번호 | 청구기호 / 출력 | 상태 | 반납예정일 |
---|---|---|---|---|
지금 이용 불가 (1) | ||||
자료실 | E207837 | 대출중 | 2025.07.07 |
지금 이용 불가 (1)
- 등록번호
- E207837
- 상태/반납예정일
- 대출중
- 2025.07.07
- 위치/청구기호(출력)
- 자료실
책 소개
R를 이용한 텍스트 마이닝(개정판)
이번 개정판에는...
첫째, 텍스트 사전처리와 관련된 stringr 패키지에 편리한 기능을의 함수들이 새로 탑재되었다. 이에 따라 2판에서는 stringr 패키지의 함수들을 설명하는 분량이 증가했다.
둘째, 1판에서 사용한 말뭉치(corpus) 데이터를 업데이트했다.
셋째, KoNLP 패키지에서 기존 사전에 이용자가 지정 표현을 추가하하는 방법을 소개했다. 또한 KoNLP 패키지 외에 한국어 형태소 분석이 가능한 R 패키지들을 간단하게 소개했다.
넷째, 텍스트 내부의 단어와 단어의 연관 관계를 설명에 널리 사용되는 연관 규칙(association rule) 분석을 새로 소개했다.
다섯째, 잠재적 디리클레 할당(latent Dirichlet allocation, LDA) 모형에서 최적의 잠재토픽 개수를 추정하는 방법을 추가로 소개했다.
여섯째, 적은 수의 단어로 구성된 짧은 텍스트(예를 들어 140자 이내의 트윗, 온라인 Q&A 게시판, 광고 문구 등)에서 잠재토픽을 추정하는 데 특화된 토픽모형들 중 하나로 ‘공통단어등장 토픽모형(biterm topic model, BTM)’을 추가로 소개했다.
일곱째, 타이디데이터 관점에서 데이터를 조직하고 관리하는 tidyverse 접근법을 기반으로 하는 텍스트 데이터 분석기법들을 대폭 추가했다.
여덟째, 감정어휘 사전(sentiment lexicon)을 이용한 감정분석(sentiment analysis) 내용은 거의 대부분을 새로 작성했다. 우선 영어 텍스트의 경우 최근 새로운 감정어휘 사전들이 개발되어 공개되면서, 이를 다운로드받을 수 있는 textdata 패키지를 새로 소개하게 되었다.
아홉째, caret 패키지를 이용해 지도 기계학습 기법을 소개했다.
끝으로 웹 스크레이핑(scraping)을 소개하는 부분은 완전히 새로 작성했다. 1판에서는 실렉터가젯(selectorGadget)이라는 프로그램을 위주로 웹 스크레이핑을 설명했으나, 온라인 공간의 웹페이지 구성 방식 변화로 인해 실렉터가젯을 활용한 웹 스크레이핑 적용 영역은 크게 감소했다. 2판에서는 모바일 환경에 특화된 그리고 반응형 웹 페이지가 주류인 현재의 온라인 공간에 더 적합한 RSelenium 패키지와 rvest 패키지를 이용한 웹 스크레이핑 방법을 간략하게 소개했다.
이번 개정판은 흑백으로 인쇄되었던 초판과 달리 컬러로 인쇄해 독자들이 출력 결과물을 실제 색으로 확인할 수 있다. 코드 부분도 본문과 색을 다르게 인쇄하여 가시성을 높였다.
출간 의의
프로그램의 작동법을 아는 것과 그것을 이용헤 제대로 된 결과물을 얻는 것은 별개이다. R이 강력한 도구임에는 틀림없지만 그 도구를 어떻게 써야 하는지 배우는 데는 상당한 노력이 필요하다. 특히 일반적, 피상적 사용법으로는 나에게 맞는 최적의 결과물을 만들어 내기 어렵다.
저자는 자신의 연구 데이터를 분석하기 위한 도구로서 R을 다루어 왔고 여론조사 및 수용자 조사, 계량적 연구 방법에 주로 관심을 두고 연구해 왔다. 저자 자신의 시행착오와 교차검층을 통해 확인된 결과를 제시하고 있다는 점이 이 책을 더욱 가치게 한다. 이 책은 기존의 영어 텍스트 처리 방식뿐만 아니라 우리말에 특화된 방식도 자세하게 예제를 통해 설명하고 있어 특히 도움이 된다.
자신의 연구를 위해 또 데이터 분석을 위해 R를 이용하고자 하는 사람은 저자의 친절한 설명과 자세한 코드 등을 이용해 보다 쉽게 텍스트 마이닝에 도전해 볼 수 있을 것이다.
이번 개정판에는...
첫째, 텍스트 사전처리와 관련된 stringr 패키지에 편리한 기능을의 함수들이 새로 탑재되었다. 이에 따라 2판에서는 stringr 패키지의 함수들을 설명하는 분량이 증가했다.
둘째, 1판에서 사용한 말뭉치(corpus) 데이터를 업데이트했다.
셋째, KoNLP 패키지에서 기존 사전에 이용자가 지정 표현을 추가하하는 방법을 소개했다. 또한 KoNLP 패키지 외에 한국어 형태소 분석이 가능한 R 패키지들을 간단하게 소개했다.
넷째, 텍스트 내부의 단어와 단어의 연관 관계를 설명에 널리 사용되는 연관 규칙(association rule) 분석을 새로 소개했다.
다섯째, 잠재적 디리클레 할당(latent Dirichlet allocation, LDA) 모형에서 최적의 잠재토픽 개수를 추정하는 방법을 추가로 소개했다.
여섯째, 적은 수의 단어로 구성된 짧은 텍스트(예를 들어 140자 이내의 트윗, 온라인 Q&A 게시판, 광고 문구 등)에서 잠재토픽을 추정하는 데 특화된 토픽모형들 중 하나로 ‘공통단어등장 토픽모형(biterm topic model, BTM)’을 추가로 소개했다.
일곱째, 타이디데이터 관점에서 데이터를 조직하고 관리하는 tidyverse 접근법을 기반으로 하는 텍스트 데이터 분석기법들을 대폭 추가했다.
여덟째, 감정어휘 사전(sentiment lexicon)을 이용한 감정분석(sentiment analysis) 내용은 거의 대부분을 새로 작성했다. 우선 영어 텍스트의 경우 최근 새로운 감정어휘 사전들이 개발되어 공개되면서, 이를 다운로드받을 수 있는 textdata 패키지를 새로 소개하게 되었다.
아홉째, caret 패키지를 이용해 지도 기계학습 기법을 소개했다.
끝으로 웹 스크레이핑(scraping)을 소개하는 부분은 완전히 새로 작성했다. 1판에서는 실렉터가젯(selectorGadget)이라는 프로그램을 위주로 웹 스크레이핑을 설명했으나, 온라인 공간의 웹페이지 구성 방식 변화로 인해 실렉터가젯을 활용한 웹 스크레이핑 적용 영역은 크게 감소했다. 2판에서는 모바일 환경에 특화된 그리고 반응형 웹 페이지가 주류인 현재의 온라인 공간에 더 적합한 RSelenium 패키지와 rvest 패키지를 이용한 웹 스크레이핑 방법을 간략하게 소개했다.
이번 개정판은 흑백으로 인쇄되었던 초판과 달리 컬러로 인쇄해 독자들이 출력 결과물을 실제 색으로 확인할 수 있다. 코드 부분도 본문과 색을 다르게 인쇄하여 가시성을 높였다.
출간 의의
프로그램의 작동법을 아는 것과 그것을 이용헤 제대로 된 결과물을 얻는 것은 별개이다. R이 강력한 도구임에는 틀림없지만 그 도구를 어떻게 써야 하는지 배우는 데는 상당한 노력이 필요하다. 특히 일반적, 피상적 사용법으로는 나에게 맞는 최적의 결과물을 만들어 내기 어렵다.
저자는 자신의 연구 데이터를 분석하기 위한 도구로서 R을 다루어 왔고 여론조사 및 수용자 조사, 계량적 연구 방법에 주로 관심을 두고 연구해 왔다. 저자 자신의 시행착오와 교차검층을 통해 확인된 결과를 제시하고 있다는 점이 이 책을 더욱 가치게 한다. 이 책은 기존의 영어 텍스트 처리 방식뿐만 아니라 우리말에 특화된 방식도 자세하게 예제를 통해 설명하고 있어 특히 도움이 된다.
자신의 연구를 위해 또 데이터 분석을 위해 R를 이용하고자 하는 사람은 저자의 친절한 설명과 자세한 코드 등을 이용해 보다 쉽게 텍스트 마이닝에 도전해 볼 수 있을 것이다.
목차
1부 텍스트 데이터란 무엇인가
01 텍스트를 데이터로 파악하기
2부 텍스트 데이터 처리
01 텍스트 분석을 위한 기초적 R 함수
02 텍스트 분석을 위한 R의 베이스 함수
03 텍스트 분석을 위한 stringr 패키지 함수
04 말뭉치 텍스트 데이터 사전처리
05 한국어 텍스트 데이터 처리
06 품사분석
3부 텍스트 데이터 분석 및 결과 제시
01 텍스트 데이터에 대한 기술통계분석
02 토픽모형
03 감정분석
4부 마무리
01 RSelenium, rvest 패키지를 활용한 온라인 데이터 수집
02 맺음말
별첨 자료
01 자바 설치 방법
02 잠재토픽 개수 선정