自動で文章を要約するには

  • このエントリーをはてなブックマークに追加

こんにちは、mergyです。先週に引き続き、テキストの自動要約手法について書きたいと思います。

前回から

前回、テキスト自動要約には、「抽出型要約」と「生成型要約」があり、抽出型要約にはさらに、『重要文抽出』と『文短縮』があることを説明しました。
では、実際には、どうやって自動で要約するのでしょうか?

自動要約手法の使い分け

まず最初にネガティブな話になってしまうのですが、「生成型要約」はとても難しいです。現在の自然言語処理の研究では、実用に耐えうる結果を出せていないと思います。一方で『重要文抽出』と『文短縮』は良い成果も出せているのですが、文章のジャンルによって使い分けが必要です。

『文短縮』は、修飾子が多い小説などの文章に向いており、intronworksで取り扱っている判決文など、表現を豊かにする必要のない文章は『重要文抽出』が向いていると言えます。

image1

手がかり表現

今回は『重要文抽出』に的を絞って説明したいと思います。
『重要文抽出』で一般的に用いられている一つの手法として「手がかり表現」があります。
「手がかり表現」とは”特定の文章箇所を見つける上で手がかりとなる表現”のことです。

この説明だけだとよくわからないと思いますので、実際の例で見てみましょう。
例で用いるのは前回と同じ童謡「森のクマさん」です。

image3

皆さんお馴染みの「森のクマさん」ですが、歌詞を読んでいると、以下のフレーズが重要であることがわかります。

「くまさん」
「お嬢さん」

当たり前なのですが、物語の主役は「くまさん」と「お嬢さん」なので、それ以外の部分は物語の主軸には関係がないという考え方です。

では、「くまさん」「お嬢さん」という”手がかり表現”を用いて『重要文抽出』を行いたいと思います。
image5

要約結果

”手がかり表現”を用いて『重要文抽出』を行うと、以下の文だけが残ります
image6

いかがでしょうか?
文章量は半分になったのにかかわらず、歌詞のストーリーは大体理解できますね。これが『重要文抽出』の一つの手法である”手がかり表現”を用いた要約です。

まとめ

「森のクマさん」はかなり簡単な例ですが、このように適切な”手がかり表現”を設定しておくことで、人手を解することなく自動で文章を要約することが出来ます。

次回は”手がかり表現”の収集方法について書きたいと思います

  • このエントリーをはてなブックマークに追加