自然言語処理を用いたテキスト自動要約の手法

  • このエントリーをはてなブックマークに追加

こんにちは、mergyです。3月まで大学院生で今は港区のIT企業に勤務しています。
blog投稿は初めてになります。よろしくお願いします。

今回はテキスト自動要約の手法について書かせていただきます。

intronworksの判決文検索サービスleaglesプロジェクトで用いられている技術です。
とりあえず、今回はソースコードなどは出てきませんので、非エンジニアの方も是非読んでいただければと思います。

テキスト自動要約とは

まず、例を見てみましょう
20150717.002
これはlivedoorニュースですが、皆さんも上記の画像のようなニュースサイトを見たことがあるのではないでしょうか?テキスト自動要約はこのように、「長い文章も読まなくても良いように、最低限の必要な情報だけを自動で抽出する」技術です。(livedoorニュースが手動か自動かはわかりませんが)

テキスト自動要約手法

実際にどのようにテキスト要約を自動で行うか、という話ですが、ざっくり分類すると以下のようになります
20150717.001

まず大きく2つ「抽出型要約」「生成型要約」があり、さらに「抽出型要約」には「重要文抽出」と「文短縮」の2つの種類があります。

実際に体験してみる

手法名だけ見てもピンとこないので、具体例で試したいと思います。本来はニュース記事、新聞記事などが対象となることが多いのですが、今回はわかりやすさのため以下の例を使います。
20150717.003

そうです。森のくまさんです。
子供の頃は楽しく聞いていたのですが、大人になって読んでみるとやや冗長な表現が多く、テキスト要約の例にはピッタリです。笑

重要文抽出

20150717.004
まず重要文抽出を行った場合、上記のようになります。
「花咲く森の道 くまさんに 出会った」のような重複した表現が含まれる文、
「スタコラ サッササノサ スタコラ サッササノサ」のような本文の意味を理解する上では不要な文が取り除かれていることがわかります。

重要文抽出&文短縮

20150717.005
次に重要文抽出した文に続けて文短縮を行います。既存研究を見る限り文短縮は重要文抽出と同時に行われることが多そうです。
「ところが」のような接続詞、「ちょっと」のような副詞が取り除かれていることがわかります。

生成型要約

20150717.006

最後に生成型要約です。これは重要文抽出・文短縮とは全く異なったアプローチで行われます。
元々存在した表現とは全く異なっていることがわかります。
生成型要約はこのように、意味を解釈して、文章を再構築・生成する手法です。
この技術はとても難易度が高く、テキスト自動要約技術の中で最も研究が進んでいない分野と言われています。

まとめ

テキスト自動要約の技術を紹介させていただきました。
次回は、実際にどうやって自動で要約を行うかを紹介させていただこうと思います!

それでは失礼します。

  • このエントリーをはてなブックマークに追加