豊満な脳みそ←わがままブレーン

ただただ、暗号文をつくりたいがため・・・・・・ 専用の復号プログラムとパスナンバーが9つあれば読めるブログ。さもなければ、ある程度正確に暗号化の仕組みを理解したうえで、総当たり(brute attack)で最大約6,631,300,125,000,000通りの試行が解読に必要です。

青空文庫 (http://www.aozora.gr.jp/)から小説を引っ張ってきて、中身を分析するプログラムを構築します。

とっかかりに「Aozora_analyzer.py」として、昨晩まとめました。

 

f:id:DWJEqxs2G0:20170904182053p:plain

 

① 先ずは青空文庫からテキストを選びます。例えば夏目漱石の『こころ』。そこのURLをプログラムに教えます。これが元となるデータです。

f:id:DWJEqxs2G0:20170904182136p:plain

 

② 次に、mecab(雌株)という形態素解析ソフトを走らせて、目標に合わせてデータを分析します。ここはオプションから選択できます。例えば、『こころ』における代名詞の種類と出現数を調べましょう。

 

結果を見ますと、以下のように『こころ』では「私」の出現が突出して多いことがわかります。既知の事実ですが、こんな風に確かめられるのです。

f:id:DWJEqxs2G0:20170904182407p:plain

以上の操作を一つづりにまとめたのが「Aozora_analyzer.py」です。