若手研究者、日日是好日。

大学の若手研究者。このブログは研究内容や勉強内容、日々の活動などの備忘録。

テキストマイニング入門

 今回、整理する本は「テキストマイニング入門 ExcelとKH Coderでわかるデータ入門」です。著者は、末吉美喜さん。ビジネスで使える統計分析に関する書籍を多数出版しているそうです。

テキストマイニング入門: ExcelとKH Coderでわかるデータ分析

テキストマイニング入門: ExcelとKH Coderでわかるデータ分析

  • 作者:末吉美喜
  • 発売日: 2019/02/26
  • メディア: 単行本(ソフトカバー)
 

  

 ここ最近、新しい研究方法にチャレンジしようと色々と探っていたところ、”テキストマイニング”という手法があることがわかりました。

 テキストマイニングとは、大量の文字情報(テキスト)を分析することにより、何らかの傾向を抽出する、あるいは仮説を検証する方法です。

 私の研究分野には、大量のテキストデータがあるにも関わらず、あまり分析した事例を見たことないということで、手法を身に付け、研究に適用することにしました。

 テキストマイニングの初心者ですので、まずは教科書探しから。何かを開始するときには、挫折しない工夫が大事だと思っているので、次のポイントを抑えた書籍を探しました。

 

初心者が挫折しないためのポイント

  • 薄い本:すぐに読み終わるため、達成感がある。
  • わかりやすい(専門用語が少ない):科学としての厳密性よりも、わかった雰囲気を味わう。
  • 手を動かす内容:飽きずに分かった気、できた気になる。

 

 ということで、この視点で書籍を探したところ発見したのが本書です。

 データ分析やテキストマイニングの重要事項を、会社の先輩と部下の会話によって紹介してくれるので、さーっと流し読みしながら読むことができます。また、サンプルデータをHPからダウンロードできるので、サンプルデータを活用して手を動かしながら、テキストマイニングを学ぶことがもできます。

 私は、2日間でこの本を読破しましたが、実質6時間程度で読破したので、やる気のある人は1日で読破できるかと思います。

 そもそも、書籍のタイトルのある”KH Coder”は、立命館大学の樋口耕一先生が開発したフリーソフトウェアです。詳細はKH CoderのHPを見ていただいた方が良いかと思います。こんなに素晴らしいソフトウェアが無料で使えるなんて、樋口先生に感謝です。

 

KH CoderのHP:

KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア

 

 実は、樋口先生が書いた書籍も購入したのですが、私のように”とりあえずテキストマイニングの雰囲気を味わいたい!”という人には、ハードルがちょっと高いように思ったので、まずは本書に読むことにしました。勿論、テキストマイニングとKH Coderに慣れてきたら樋口先生の著書も読みます。

 

樋口先生の著書

 

 では、肝心の中身の話ですが・・・、本当にわかりやすい本なので、自分で手を動かしながら学んだ方が良いかと思います。

 私は、本書のテキストデータだけはなく、「青空文庫」から福沢諭吉の無料テキストデータをダウンロードして、テキストマイニングをしてみました。

 

青空文庫

青空文庫 Aozora Bunko

 

分析結果がこちら。

f:id:RLab:20200308194406p:plain

共起ネットワーク図

 

f:id:RLab:20200308194444p:plain

対応分析図

 とりあえずやってみただけのデータなので、それぞれの図に特に意味はないのですが、初心者でも数時間後にはこのような図を作れるようになります。恐るべし、KH Coder。

 本来なら、2つの図の意味(共起ネットワークって何?、対応分析って何?)を勉強した後に、このような分析をすることが望ましいのだと思います。そうすると、ああだこうだと考察ができたり、もっとこんな分析ができたら良いのにと修正ができます。

 しかし、初心者である私からすると、まずはやって見て、どんなことができて、どんな結果が得られるのか、雰囲気を掴み、それから深堀りする方が良いのではと思い、とりあえずやってみました。これから、どんどん勉強していきます。

 

 最後に、本書から学んだデータ分析・テキストマイニングの要点を整理します。要点を整理しておくと、見返すのに便利ですからね。

 

データ分析の要点

  • 課題の設定
  • 計画
  • データ収集
  • 分析
  • 結論

のサイクルを回す。1回でデータ分析は終わらず、何回もサイクルを回すことが大事だそうです。

 初めからキッチリした分析するために時間をかけるよりも、まずとりあえず分析してみて、とりあえずの結論を出してみる。その次に、もっとこうした方が良いというアイデアや違うデータも実は必要ではと思いつき、2回のサイクルを回す。このサイクルを回し続けることで、より良い結論を得る、という流れです。

 

続いて、テキストマイニングの要点

  • テキストデータを用意する
  • とりあえず、KH Coderで分析(前処理)してみる。
  • "抽出語リスト”でどんな言葉が多いか見てみる。
  • ”KWICコンコーダンス”で原文をチェックし、文言の使われ方を知る。
  • ”語の取捨選択”で強制的に抽出したい言葉と分析したくない言葉を定義する。
  • とりあえず、作図してみる(共起ネットワークや対応分析など)
  • 作図結果を見ながら、データクレンジング(テキストデータの整理整頓)へ
  • 再度、作図する→データクレンジングを繰り返し、考察へ。

 

 KH Coderは、テキストデータの分析だけではなく、外部変数データ(性別や年代などの変数)も併せて分析することができます。

 そのため、例えば、自由記述アンケートを分析した結果、60代の男性は〇〇の商品に〇〇機能を追加して欲しいことが分かった、のような分析もできます。

 本当に便利です!

 テキストマイニングを研究で活用するためには、データの取得は勿論のこと、統計学の知識、図を解釈する能力などなどが必要ですので、引き続き勉強していきたいと思います。

 

 それでは。

 

テキストマイニング入門: ExcelとKH Coderでわかるデータ分析

テキストマイニング入門: ExcelとKH Coderでわかるデータ分析

  • 作者:末吉美喜
  • 発売日: 2019/02/26
  • メディア: 単行本(ソフトカバー)