判例コーパスを用いた判決文の要約手法

阪野 慎司*,松原 茂樹**,吉川 正俊**
*名古屋大学大学院情報科学研究科社会システム情報学専攻
**名古屋大学情報連携基盤センター
〒464-8601 愛知県名古屋市千種区不老町
Tel:052-789-1532, Fax:052-789-4384
E-mail:banno@dl.itc.nagoya-u.ac.jp

概要

 本稿では,判例コーパスに基づく判決文の自動要約について述べる. 最高裁判所判例集に収録されている判決文に対して, 文書構造タグを付与し,判例コーパスを構築した. このコーパスでは,判決文の要旨に該当する部分をタグ付けしており, 要約コーパスとして使用できる. 判例コーパスから抽出した要約文の特徴に基づき要旨を含む文を取り出すことができる.

キーワード

判決文,自動要約,コーパス,SVM

1. はじめに

 現代の司法制度において判例は重要な役割を果たしている. 裁判では,専門家は過去の類似判例を参照し,その判例に対して裁判官, 検察官,弁護士がそれぞれの立場における判断,解釈を加える. 特に裁判官に対しては,「判例を尊重しこれに従うべきである」[1]と されており,判例が与える影響は大きい.

 判例は判決文に記されており,判例を理解するためには,ユーザは 大量に存在する判決文の中から該当文書を選び出し, その文書から判例を読み取る必要がある. こうしたユーザのタスクを軽減するために,通常, 判決文には様々な付加情報が付与されている. 例えば,最高裁判所判例集[2]に掲載されている判決文には, 判示事項,要旨,参照・法条といった情報が判決文と共に記されており, ユーザが目的の判例を探すための支援環境として機能している.

 しかし,こうした判決文に追加される情報は全て人手で作成されており, その負担は小さくない. これまでに提案されている文書処理技術を導入することにより, これらの作業の負担を軽減できる可能性がある. 例えば,要約技術を活用し,判決文から重要文を抽出することにより, 要旨の生成を自動化することが可能となる. また,その判決文の重要箇所を明示化することにより,ユーザが 判決文を理解するときの支援にもつながる.

 判決文に対する要約生成として,諸外国では様々なプロジェクトが進行している. 現在行われているものとして,SUM[3,5,6,7]やLetSum[4,8,9]などが挙げられる. これらのプロジェクトでは,判決文に対するコーパスを構築しており, それを利用することにより,人手による規則の作成に頼らない手法を提案している. 一方で,日本の判決文に対する研究はほとんど行われておらず, 判決文に関するコーパス環境も整備されているとはいえない. ルールベースの要約手法が提案されているが[10], 高性能な要約の生成には至っておらず,また,規則の作成は容易ではない.

 そこで本稿では,判例コーパスに基づく判決文の要約手法について述べる. 日本語判決文に対する判例コーパスとして整備されているものはほとんど存在しない. 本研究では,Web上で公開されている最高裁判所判例集[2]に 掲載されている判決文を用いて判例コーパスを構築する. 判例コーパスを用いることにより,判決文の特徴を抽出できるとともに, 判決文の重要箇所についての特徴を得ることが可能となる. 本手法では,判例コーパスから特徴素を取り出し, Support Vector Machine(SVM)[12]で学習することにより,判決文の重要箇所を 含む文の抽出を実現する.

 本稿の構成は次のとおりである. まず,2章で構築した判例コーパスについて説明し,3章で判例コーパスを 用いた要旨該当文の抽出方法について述べる. 4章でまとめ,今後の課題を示す.

2. 判例コーパスの構築

2.1 判決文の構成

 判決文は,どの裁判所で記述されたのか,誰が判決文を記述したのか, また,第何審の裁判であるかによって,その記述法が異なる. 以下,最高裁判所判例集の判決文を対象として論じる.

 最高裁判所の判決文は,その裁判に関する基本情報,判示事項,要旨,参照・法条, 内容の5つから構成される. このうち,内容以外は最高裁判所判例集に掲載されるときに,追加情報として付与される. 図1に最高裁判所判例集の判決文を,図2に判決文の理由の例を示す. 5つの項目にはそれぞれ,以下の内容が記述される.

 ・裁判に関する基本情報  判決日,法廷名,裁判番号,裁判の種類,裁判官名など

 ・判示事項  裁判で扱われた事例の簡単な説明

 ・要旨  判例と推定される箇所を抽出

 ・参照・法条  その裁判に関連する法令の名前と該当箇所

 ・内容  件名,原審,主文,理由から構成

 内容を構成する件名,原審,主文,理由はそれぞれ以下の内容が記述される.

 ・件名  裁判の種類,裁判番号など

 ・原審  その裁判の下級審の名前とその裁判番号

 ・主文  その裁判の結論

 ・理由  主文に記してある結論が導かれるまでの過程

 図2から分かるように,理由には一定の基準に従った文書構造が形成されている. 理由は,段落単位で分割することができ,また,各段落には文書構造を表す番号が付与され, 表1に掲げられた項目のいずれかが記述される.

 理由の中には,htmlタグや標識を用いて他と区別している箇所 (以下,要旨箇所と記す)が存在する. 要旨箇所がその判決文における判例が記述されていると判例集に掲載されるときに 判断された箇所であり,判決文を理解するときにはこの箇所を理解する必要がある. 判例集で付加される要旨は,論旨箇所の内容をまとめたものである.

2.2 判例コーパスの仕様

 Web上で公開されている最高裁判所判例集の判決文は,人がブラウザ上で 参照することを前提に作成しており,その構造を機械が判断することは難しい. 各構造に対してタグを付与することにより,境界を明示化することになり, 計算機による処理が容易になる.


図1:最高裁判所判例集の判決文

 判決文の理由に付与される要旨情報は判例コーパスを構築する上で 重要な情報である. しかし,その情報は判決文が作成された年代によってその表示形式が異なる. 中には,その判決文の内容が明示化されていない表記の仕方もあるため, タグを付与することで明示化する.

 図3にタグ付けされた判決文を,図4にタグ付けされた判決文の理由の例を示す.

 本コーパスで付与されたタグは,文書構造に関するものと,要旨箇所に 関するものに大別される.

 文書構造情報に関するタグでは,2.1節で述べたとおり,最高裁判所判例集で 判決文に付与される判示事項,要旨といった項目や主文,理由といった 判決文を構成する項目に対して与えられる. 項目ごとにそれぞれタグを用意し,その内容に関しても, 情報が複数存在する場合はそれぞれを明確に区別できるようにしている. 判例を理解するときの中心となる理由に関しては,その中身が基本的に 文,段落単位で構成されていることから,これらにタグを付与するとともに, その文,段落が理由のどの位置にあるか判断するために属性を付与している.

 要旨箇所に関するタグでは,要旨で記されている各内容がその判決文中の どの位置にあるのか識別する必要がある. そのため本コーパスでは,要旨,要旨箇所にそれぞれ属性を与え, この属性の一致を検査することにより内容ごとの識別を行っている.

 このようにして構築したコーパスは,平成元年から平成16年度までの判決文, 全624ファイルを含み,約160万形態素に及ぶ規模となっている.

3. 判例コーパスを用いた要約手法

 判例コーパスを用いて要旨箇所とそれ以外の箇所に分類する. 分類器の学習では,使用する素性としていくつか考えられるが,本稿では, 簡単のため形態素情報のみの利用を考える.


図2:判決文の理由

 判例コーパスには各文タグが付与されている.また,要旨箇所の範囲を 示すタグを用いて,その文が正例か負例かを判断する. 次に,抽出した各文に対して茶筌[11]を用いて形態素単位に分割する. 分割された各形態素に対して素性として使用する形態素のみを取得する. 判決文に特徴的な表現が多く現れる形態素として名詞,動詞,形容詞,形容動詞, 接続詞を選んだ. 取得した形態素情報を元にSVM学習に用いる素性を決定する.

4. おわりに

 本稿では,日本語判決文に対する判例コーパスを用いた要約手法について述べた. Web上で公開されている最高裁判所判例集の判決文から判例コーパスを構築し,利用した. コーパスから判決文についての特徴を取得し, SVMを用いて学習モデルを作成することにより,判決文から要約を作成した.



図3:タグ付けされた判決文

 今後は,要約実験を行い,本手法の評価を実施する予定である.

参考文献

[1] 中野 次雄 編,『判例とその読み方〔改訂版〕』有斐閣 (2002).

[2] 最高裁判所判例集:http://courtdomino2.courts.go.jp/schanrei.nsf

[3] SUM project:http://www.ltg.ed.ac.uk/SUM/

[4] CanLII:http://www.canlii.org/

[5] Ben Hachey and Claire Grover. Sentence Classification Experiments for Legal Text Summarisation. In Proceedings of 17th Annual Conference on Legal Knowledge and Information Systems(Jurix 2004) (2004).

[6] Ben Hachey and Claire Grover. A Rhetorical Status Classifier for Legal Text Summarisation. In Proceedings of ACL-2004 Text Summarization Branches Out Workshop (2004).

[7] Claire Grover, Ben Hachey, and Ian Hughson. The HOLJ Corpus: supportingsummarisation of legal texts. 5th International Workshop on Linguistically International Corpora(LINC-04) (2004).

[8] Atefeh Farzindar and Guy Lapalme. Legal Texts Summarization by Exploration of the Thematic Structures and Argumentative Roles. In Proceedings of ACL-2004 Text Summarization Branches Out, pp 27-34 (2004).

[9] Atefeh Farzindar and Guy Lapalme. LetSum, an automatic Legal Text Summarizing system. In Proceedings of 17th Annual Conference on Legal Knowledge and Information Systems(Jurix 2004) (2004).


図4:タグ付けされた判決文の理由

[10] 阪野 慎司,松原 茂樹,吉川 正俊:手がかり表現に基づく判決文の自動要約. 言語処理学会第11回年次大会発表論文集,pp193-196,Mar.(2005).

[11] 日本語形態素解析システム「茶筌」:http://chasen.naist.jp/hiki/ChaSen/

[12] T. Joachims. Making large-Scale SVM Learning Practical. Advances in Kernel Methods - Support Vector Learning, B. Scholkopf and C. Burges and A. Smola (ed.), MIT-Press, (1999).