豊満な脳みそ←わがままブレーン

ただただ、暗号文をつくりたいがため

青空文庫 (http://www.aozora.gr.jp/)から小説を引っ張ってきて、中身を分析するプログラムを構築します。

とっかかりに「Aozora_analyzer.py」として、昨晩まとめました。

 

f:id:DWJEqxs2G0:20170904182053p:plain

 

① 先ずは青空文庫からテキストを選びます。例えば夏目漱石の『こころ』。そこのURLをプログラムに教えます。これが元となるデータです。

f:id:DWJEqxs2G0:20170904182136p:plain

 

② 次に、mecab(雌株)という形態素解析ソフトを走らせて、目標に合わせてデータを分析します。ここはオプションから選択できます。例えば、『こころ』における代名詞の種類と出現数を調べましょう。

 

結果を見ますと、以下のように『こころ』では「私」の出現が突出して多いことがわかります。既知の事実ですが、こんな風に確かめられるのです。

f:id:DWJEqxs2G0:20170904182407p:plain

以上の操作を一つづりにまとめたのが「Aozora_analyzer.py」です。