{NLP}分散プロットの生成

O’reilly NLP with Pythonの演習問題1.8_6

環境等

  • win 10
  • python2.7
  • python lib: nltk.book

  • 分散プロットとは

    特定の単語がテキスト中のどの位置に出現するかを表示した図です。
    例えば、歴代大統領就任演説を全て繋げたテキストの中で、freedomやdemocracyといった語の出現頻度を、時間の経過とともに見ることができます。

    関数dispersion_plot()

    NLTKのbookモジュールのtext2にある『Sence and Sensibility (Jane Austen)』から’Elinor’,’Marianne’,’Edward’,’Willoughby’の4人の登場人物の分散プロットを表示してみます。

    text2.dispersion_plot(['Elinor','Marianne','Edward','Willoughby'])



    出力結果:

    以上の図が出力される。
    それぞれの名前の出現位置から、ウィロビーとマリアン、エドワードとエリナーに、物語上深い関係があると推測することができます。

    Leave a Reply

    Your email address will not be published. Required fields are marked *