テキストマイニングが上手くなりたい。 - 若手研究者、日日是好日。

新型コロナのためジムで筋トレもできず、日頃できない勉強を進めています。

今回、整理する本は「やってみようテキストマイニング　自由回答アンケートの分析に挑戦！」です。

作者:牛澤賢二
発売日: 2018/08/20
メディア: 単行本（ソフトカバー）

以前、投稿した記事と同様にKH coderを用いたテキストマイニングに細々と取り組んでします。そのうち、Rを用いたテキストマイニングにもチャレンジしたいと思っているのですが、プログラミングの経験がないため、まずはKH coderに取り組んでいます。

以前の記事

rlab.hatenablog.com

ここでは、以前紹介した書籍には無かった「コーディング」に特化して記事をまとめました。

テキストマイニングには、

探索的な分析
仮説検証的な分析

の2つの分析目的があります。

　仮説検証的な分析は、探索的な分析によって得られた結果に基づき、単語を共通のキーワードで整理し、キーワードが文章のテーマとして合致するのかを検証します。

　共通のキーワードとしての整理とは、例えば、LINEやFacebook, twitter, instagramをまとめてSNSと言うことになります。本書籍では、高齢者向けサービスを題材に、家事、食事、掃除、買い物、洗濯という単語を日常生活支援というワードで整理しています。

　このように整理することで、頻度が高くない単語を分析対象として抽出することができますし、キーワードを複数作成できれば、分析対象の全体像を整理することもできます。

　KH Coderでは、キーワード（本書ではテーマ）と抽出語を組み合わせて新しいコードを定義し、それをコーディングルール・ファイルとして、テキスト形式のファイルを作成します。
　コーディングルール・ファイルは、アスタリスクに付随するキーワードと条件式（算術演算子と論理演算子）により構成されます。

　ファイルは、テキストで作成して、最終的にはCSVファイルで保存することが良いそうです。

　コーディングファイルをKH Coderに実装する方法は実に簡単です。「ツール」＞「コーディング」を選択し、分析したい項目（単純集計や対応分析など）において、ファイルを選択するだけです。

　まずは、単純集計で、コーディングルールが的確に文書を表現しているかを把握します。単純集計では、キーワードが文章全体のどれぐらいを占めているかを表示してくれます。そして、「コード無し」の割合が高い場合には、正確にキーワードを設定できていない可能性があるため、再度コーディングルールを見直す必要があります。

　この見直しには、「ツール」＞「文章」＞「文章検索」＞「ファイル設定」＞「Search Entry」＞「＃コード無し」と検索することで、コード無しに該当する文章のみ表示され、既存のキーワードに包含するか、新しいキーワードを設定するか、などを検討することができます。

　単純集計の結果が適切な場合には、クロス集計や対応分析、共起ネットワーク等で、仮説コードと外部変数の関係を探ることができます。

　このように、文章全体を色々な角度から分析することで、総合的な視点に基づき文章を解釈することができるようになります。

　最後に、分析プロセスで作成したファイルを1つのフォルダに収めておくのがオススメだそうです。その結果、いつでも元データに戻って分析を再現することができるようになります。
（あのファイル、どこに保存したっけ・・・ということが多々あるので重要ですね）

元データのExcelファイル
テキスト部のファイル
外部変数のファイル
変換用ファイル
My辞書のファイル
仮説のコーディングルール・ファイル

それでは

（補足）
学術研究にKH Coderを利用した場合には下記のお願いがあります。KH Coderを作成された樋口先生に感謝の気持ちを込めて、論文ができた際には協力します。英語は当分先ですかね。
以下、転載。

KH Coderを用いた研究の成果を論文などに発表される際には、KH Coderを利用したことを注にでも記載していただけますと幸いです。またご研究の書誌情報をフォームにご記入いただけると大変喜ばしく存じます。
文献リストに挙げていただける場合には、下記いずれかの文献をお使いください。

樋口耕一 2014 『社会調査のための計量テキスト分析 ―内容分析の継承と発展を目指して―』ナカニシヤ出版サポートページ

樋口耕一 2004 「テキスト型データの計量的分析 ―2つのアプローチの峻別と統合―」『理論と方法』 (数理社会学会) 19(1): 101-115

英語でご研究を発表される場合には以下の文献をお使いください。

Koichi Higuchi 2016 "A Two-Step Approach to Quantitative Content Analysis: KH Coder Tutorial Using Anne of Green Gables (Part I)" Ritsumeikan Social Science Review, 52(3): 77-91

Koichi Higuchi 2017 "A Two-Step Approach to Quantitative Content Analysis: KH Coder Tutorial Using Anne of Green Gables (Part II)" Ritsumeikan Social Science Review, 53(1): 137-147