フルテキスト・デ−タ検索機能の検討

石川徹也
図書館情報大学
〒305 茨城県つくば市春日1-2
Tel:0298-52-0511, Fax:0298-52-4326, E-mail:ishikawa@ulis.ac.jp

抄録

 はじめに電子図書館システムの姿について概観し、次いでフルキスト・デ−タ を対象に必要と考える検索機能について考察を行い、筆者の研究システムの一部 ((1) 質問文による情報要求意図検索システム、(2) キ−ワ−ド翻訳システム、(3) 分 類番号自動組み合わせシステム)を紹介する。前者2件の研究システムは、「関 西文化学術研究都市を中核としたB-ISDN利用研究・実験計画」(通称:BBCC)内 の実験プロジェクトの一つ「電子図書館システム」に組み込まれ、実験システム として既に稼動している。そこで、最後に当実験システムを通し感じた電子図書 館システムの運用に係わり解決しなけらばないと考える問題点を提起する。

キ−ワ−ド

 電子図書館システム、検索インタ−フェイス、フルテキスト・デ−タ検索、情 報要求意図検索システム、キ−ワ−ド翻訳システム、分類番号自動組み合わせシ ステム

Discussion of Highly Functions for Information Retrieval System

Tetsuya Ishikawa
University of Library and Information Science
1-2 Kasuga, Tsukuba, Ibaraki, 305 Japan
Phone:+81 298 52 0511, Fax:+81 52 298 4326, E-mail:ishikawa@ulis.ac.jp

Abstracts

First, general functions of digital library system are discussed. Second, necessary functions for information retrieval system to full-text data are investigated. Third, three experimental systems: a system for information retrieval by query sentences, a system for keywords translation, and a system for automatic combination classification numbers are presented which are developed by the author. The first two systems are now operated as demonstration systems in the BBCC project which is the B-ISDN Business chance & Culture Creations project in Japan. Finally, some problems which must be solved to realize a digital library system are presented.

Keywords

Digital library system, Information retrieval system's interface, Full-text database, Information retrieval system by query sentences, Keywords translation system, Classification number automatic combination system

1.はじめに

 Internetの利用により、多様な情報伝達・情報入手が可能になってきた(1) 。 この結果、例えば原稿作成、原稿投稿、編集・出版業務(事業)、出版物の物流 (取り次ぎ)事業、図書館サ−ビス業務、出版物の入手(購買)方法および読書 形態(情報入手方法)も、大きく変化しつつある。その具体的な姿(運用形態) は、Text on-Demand System(TDS)であると言える。当機能を、現在、一般に電子 図書館システム(Digital Library System)、さらには仮想図書館システム(Virtual Library System)と呼称されているが、あくまでもTDS であると言える。決して そうはならないと言う考え(2) があるが、基本的には本とか雑誌等の物理的な冊 子(テキスト)は減少し、その代替物としてフルテキスト・デ−タベ−スを作成、 検索、利用する形態になるものと考えられる。

 しかし、実際の運用に至るまでに多くの課題解決が必要になるのは事実である。 B-ISDNをベ−スとするNII さらにはGII 整備問題を別にしても、解決しなけれ ばならない問題点として、以下の3点に大別できる。

 1)フルテキスト・デ−タベ−ス作成支援、検索等に係わるシステム機能問題

 2)情報流通上の標準仕様、著作権、遡及テキストのフルテキスト・デ−タベ− ス化等に係わる運用問題

 3)利用教育、経費等に係わる社会的問題

 本報において、はじめに電子図書館システムの姿について概観し、次いでフル キスト・デ−タを対象に必要と考える検索機能について考察を行い、筆者の研究 システムの一部((1) 質問文による情報要求意図検索システム、(2) キ−ワ−ド翻訳 システム、(3) 分類番号自動組み合わせシステム)を紹介する。前者2件の研究シ ステムは、「関西文化学術研究都市を中核としたB-ISDN利用研究・実験計画」 (通称:BBCC)内の実験プロジェクトの一つ「電子図書館システム」に組み込まれ、 実験システムとして既に稼動している。そこで、最後に当実験システムを通し 感じた電子図書館システムの運用に係わり解決しなけらばないと考える問題点を 提起する。

2.電子図書館システムの姿

 現行の技術を基にシステム機能およびその使い勝手を、また、我々情報要求者 の情報理解および情報利用行動から考えると、電子図書館システムの姿を、概念 的には以下のように描ける。

 1)一義的な姿として、従来の図書、論文、文書等テキストをB-ISDN(実際には Internet)を介し、個人の端末機で検索・見る(読む)ことができる仕組み。

 2)発展系の姿として、テキスト以外に、映像および音楽等音情報を検索・見聞 きできる仕組み。

 しかし、“鑑賞”という行動を別にすると、我々情報要求者の理想とする情報 要求は、決して1)のような姿ではない。我々の情報入手行動は、必要な時に、即 時、最適な“解”(情報そのもの)を期待する。この場合、テキストを読み(解 読し)、必要な情報をテキスト内容から発見するプロセス(行為)は、非常に繁 雑であり、実用的ではないことになる。現行の図書館を、読書および鑑賞を目的 に資料(テキスト)を利用する“場”と理解していることに対して、情報入手を 目的に考えた場合、絶対的必要性を感じない理由は、この点にあるものと考える (勿論、利用したいテキストが多くの場合、無い、と言うこともある)。そこで、 上記1)の機能に対し、情報入手を目的とする電子図書館システムへの期待は、 理想的な姿として下記の3番目の姿のようになろう。

 3)理想的な姿として、知りたいことのみを検索・知ることができる仕組み。 (このことのためには、テキスト内容から知識情報を抽出し、知識情報デ−タベ−ス として提供する必要がある(但し、筆者は、テキスト内容の真偽の“定かさ” の問題から、素材知識情報と読んでいる(3) ))。

3.フルテキスト・デ−タ検索機能の考察

 現行のフルテキスト・デ−タ検索システムは、検索指示語に対し、記述文内の 記述語との主に形態照合によって検索する方式のみとなっている。しかも、検索 語は情報要求者が情報要求内容をキ−ワ−ドにて表現し、主にキ−ボ−ド操作に よって指示する方式に限られている。

 図書、雑誌論文・記事等のフルテキストが記述文および図表、写真等によって 構成されていることを考えると、図表および写真の、特にその内容を対象に検索 する機能が必要になる。また、検索指示を受理するインタ−フェイス機能として、 特に非健常者をも考慮する必要があり、キ−ボ−ドからの指示方式に限らず、 音声指示を受理する機能が必要になる。また、我々情報要求者は、情報要求内容 を文脈にて想起していることを考えると、検索指示を受理する機能として、キ− ワ−ド受理に限らず、質問文を受理する機能が必要になる。

 以上、フルテキスト・デ−タを対象とする検索機能に限っても、そのための研 究課題は多々ある(表1)。

4.筆者の研究システム

 以下で、フルテキスト・デ−タを対象とする筆者の研究システムの一部((1) 質 問文による情報要求意図検索システム、(2) キ−ワ−ド翻訳システム、(3) 分類番号 自動組み合わせシステム)を紹介する。但し、当研究システムについては、それ ぞれ既に発表しているので(下記文献)、本報では主にシステムの目的とその機 能概要を示す。

●既発表文献

(1) 岸本行生、須之内美幸、塚田康博、千葉滋、石川徹也:テキストの構造化に基 づく検索システム、情報処理学会論文誌、35巻 5号、pp.908-916(1994,5).

(2) 三日市紀子、石川徹也:電子図書館における専門用語の課題−検索インタ−フ ェイスとしての複合語生成・翻訳システム−、第8回専門用語研究会シンポジウ ム発表資料、7p.(1994,11)(専門用語研究会機関誌「専門用語研究」,No.9(1995,3 月発行予定) に再録予定)(3) 電子図書館研究会: 電子図書館 Ariadne,12p.(1994,9).

(4) Ishikawa,T. Nakamura,H. & Nakamura,Y: UDC Number Automatic Combination System (UDC-AUTCS).Proceedings of the 3rd International ISKO (The International Society for Knowledge Organization) Conference, pp.328-333(1994,6).

 1)質問文による情報要求意図検索システムの研究開発

 情報検索要求には、例えば「Aについて知りたい」と言う情報要求に対して、 検索結果に対する期待として次の2種類があるものと考える。一つは、検索要求 事項「A」に“関連する情報”の検索結果を期待する場合と、もう一つは、例え ば「Aを購入したいので」と言った“隠された願望・目的”と「但し、Aは1,000 円以下」と言った“検索条件”に見合う検索結果を期待する場合がある。前者を 関連情報検索と呼び、後者を知識情報検索と呼ぶことができる。

 知識情報検索については、例えば「購入したい」と言う“隠された願望・目的” に対し、「既に販売されている」ことの検索結果でなければ意味をなさないし、 「A」が「1,000 円以下」の検索結果でなければ意味をなさない。

 このことに対して、現行のキ−ワ−ド指示型検索システムでは、この区別は出 来ず、「全てのA」に関するテキストを検索結果とし、後は検索者の判断に任せ る方式になっている。

 そこで、“隠された願望・目的”と“検索条件”を情報要求意図ととらえ、当 情報検索意図は質問文にて表現する以外にないことから、質問文を受理しフルテ キスト・デ−タに対し検索する情報要求意図検索システムの開発研究を行ってい る(図1)(上記文献(1))。

 2)キ−ワ−ド翻訳システムの研究開発

 Internetを介し種々のデ−タベ−スを検索することが可能になったが、また現 行の情報検索システムにおいても同様であるが、日英それぞれのデ−タベ−スに 対し、日英同義の検索語指示を行う場合、日英それぞれの検索語を独立に指示し なければ検索できないし、また専門用語に代表される複合語の一括検索は充分で はないことから、絞り込み検索を行う必要があり、検索指示は依然繁雑さを極め ている。

 そこで、日英独立の検索語の二重指示回避および複合語一括検索を可能にする ことを目的に、複合語生成・翻訳規則をベ−スとする複合語生成・翻訳システム の開発研究を行っている(図5)(上記文献(2))。当複合語生成・翻訳規則を収 集するために、情報処理分野の日英・英日対訳用語集(総語数8,144 語)を基に 複合語の構造分析を行い、現在までに、日英・英日複合語生成・翻訳規則2,268 規則を収集し、2,281 語基対訳辞書を構築している。

 上記2件の研究システムについて、「新世代通信網実験」(略称:BBCC)内の 実験プロジェクトの一つ「電子図書館システム」(Ariadne)に組み込まれ、実 験システムとして既に稼動している(図6)(上記文献(3))。

 3)分類番号自動組み合わせシステムの研究開発

 Internet上に提供されているデ−タは、日英記述のみのデ−タとは限らず、多 言語に及ぶ。しかし、日英以外の他(多)言語デ−タに対する検索は、検索語で はまず不可能である。このことに対し、従来から、universal な検索語の1種と してUDC (分類番号、正式には標数と呼称)が利用されてきた。そこで、Internet 上に提供されるデ−タに必ずUDC による標数が付与されれば、日英以外の他(多 )言語デ−タに対し、キ−ワ−ドと同レベルでの検索が可能になる。しかし、UDC について、さらにはその利用(特に、分類番号の組み合わせ)の仕方となると、 一般の人は知る由がない。

 そこで、母国語の索引語あるいは検索指示語に対し、UDC の標数を検索し、必 要な分類番号を自動的に組み合わせる分類番号自動組み合わせシステムの開発研 究を行っている(図7)(上記文献(4))。

5.電子図書館システム運用向けての課題

 筆者は、現在進行中の「新世代通信網実験」(略称:BBCC)内の「電子図書館 システム」プロジェクトに研究参画してきた。当経験から、技術的課題もさるこ とながら、下記2点の問題解決の必要性を痛感させられた。

5.1. 遡及テキストDB化のための「デ−タ入力工場」設置の必要性

 益々盛んになってきたInternetの利便性に関する解説および電子図書館システ ムの構想は、現時点において作成され、流通している電子化テキストのみを対象 に、その夢を語っているに過ぎない。電子図書館システムが現行の図書館サ−ビ スの代替になり、その有効性を誰しもが認め、利用するようになるには、最新の テキスト流通と合わせ遡及テキストの提供が必要になる。情報入手にしろ、読書 および鑑賞にしろ、テキストを対象にする場合、その対象として遡及テキストは 必須となる。すなわち、遡及テキストがフルテキスト・デ−タとして提供されな い限り、システム機能が技術的に確立しても、電子図書館システム自身は、いつ しか机上の空論と化することになる。

●現時点において、特にわが国においては、上記2.で示した1)のレベルでの実 現が検討されているが、運用に至るには、下記問題点の解決が必要になると考え る(4)。

 1)遡及テキストのフルテキスト・デ−タベ−ス(DB)化問題

 各テキストに対する知的所有権(著作権)問題から、フルテキストDB化は 所蔵図書館では行えない。例え行えたとしても、全国規模、あるは世界規模で考 えて重複入力回避管理が必要になる。このことに対して、どうしても、版元(例 えば、出版社)によるDB化・提供が必要になる。しかし、現行入力技術(スキャ ナ→OCR ソフト利用。但し、活字以前の手書き文字文書には対応できない)から 考え、その手間隙は大変なことになり、フルテキストDBを有償で提供するにして も、営業政策から、相当落ちこぼれ(非DB化テキスト)が出ることが想像できる 。そこで、非DB化テキストのDB化をどうしていくか、と言う問題が生じる。

 2)新規作成テキストのDB化

 現在、既に著者の段階でWP,DTP等により著作あるいは文書作成が行われてお り、また版元あるいは印刷会社において、ほとんどのテキストはDB化されている ことから、新規作成テキスト対応の運用は促進する。しかし、課金方式の確立、 著作権保護の制度化問題の解決が必要になる。

 3)非DB化テキストを含む著作権除外テキストのDB化問題

 所蔵図書館による実現・提供が必要になる。しかし、国内、あるいは世界規模 での重複入力回避管理体制の確立が必要になるし、何よりも経費問題が生じる。

 以上、遡及テキストのDB化問題は、(1) 経費問題、(2) 重複入力回避体制の確立問 題、(3) 課金方式の確立、(4) 著作権保護の制度化、(5) 手書き文字テキスト対応OCR ソフト開発等の問題解決が必要になる。

●「デ−タ入力工場」の機能概要

 電子図書館システムの成立可否問題、すなわち遡及テキストのフルテキストDB 化問題以前に、酸性紙問題からテキスト保存上、何等かの媒体変換を急ぐ必要が あり、その一例としてフルテキストDB化が考えられるだけに、産業育成策を目的 に電子図書館システム・プロジェクトを推進するだけでなく、文化保存に視点を 当てた国家レベルでの遡及テキストDB化対応策を推進する必要があると考える。 以下、このことを「テキスト・デ−タ入力工場(設置構想)」と称し、簡単にそ の機能を考察する。

 1)「テキスト・デ−タ入力工場」の位置付け

 各機関(例:出版社、図書館、公文書館、企業、大学等)の遡及テキストを入 力・DB化受託する全国規模の法人。但し、機密保護の観点から一種の公社的機関 とする。各地域に支所工場を置き、B-ISDNで結び、運用する。

 2)「テキスト・デ−タ入力工場」の運用

 各機関の、電子図書館システムに供しうる所蔵遡及テキストをDB化受託し、DB を各機関に納品する。但し、全国規模での重複入力管理を行う。各機関はDBを原 則として電子図書館システム上に供するものとする。経費は各機関において工面 する。

 但し、(1) わが国においては、納本制度により、出版物は国立国会図書館に版元 が納本する義務を負っていることから、版元においてDB化を放棄した出版物(著 作権放棄テキストと位置付ける)を国立国会図書館において、国の予算においてDB 化を実施する。

 (2) 手書き文字テキスト等、現行技術にてDB化できないテキスト等は、現行書誌 デ−タベ−スに少なくとも目次相当のデ−タおよび所蔵デ−タを付加し、提供す る。このことから、対象となる現物テキストは、既図書館において管理・閲覧に 供する。

 以上の「テキスト・デ−タ入力工場」を設置し、運用すれば、上記5.1.で述べ た少なくとも遡及テキストの入力・BD化に関する中心的問題点(経費問題および 重複回避問題)は多少なりとも解決でき、電子図書館システムの運用は促進され るものと考える。また、「テキスト・デ−タ入力工場」の設置を全国規模で考え るならば、時限立法的存続になることが想像できるが(しかし、短期ではないあ る期間存続する)ことから、特にOCR 変換結果修正等人材の必要性を考えると、 高齢者雇用機会が発生し、地域活性化等社会的利点にも結び付くものと考える。

 尚、当フルテキスト・デ−タベ−ス化問題に関して、アメリカ議会図書館(LC) の全米図書館蔵書のフルテキストDB化を目標においた「電子図書館」構想(5) に ついて、今後注目していく必要があると考える。

5.2. 電子図書館システム利用経費制度設定の必要性

 現行の図書館サ−ビスが、その理念から無償で行われていることに対して、電 子図書館システムにとって代わるようになると、現行のデ−タベ−ス検索システ ムが有料であるように、その利用、すなわちテキストDBの検索・利用は有料にな り、利用者における経済格差が、情報入手格差に直結してくる可能性がある、と いう新たな問題点に気付くのである。エンゲル係数は食費に対しているが、現代 社会において、新たな問題点として教育費係数(俗称:エンジェル係数)が進学 問題に対しているのと同様に、情報アクセス経費が、経済格差に直結する可能性 がある。情報アクセス権までが経済格差によって左右されることになると、過去 の幾つかの事例が示すように、将来社会の恐ろしさを感じる次第である。このこ とは、既にメディアの多様化によって始まっている。このことの是正に、以下の ような問題解決が必要になると考える。

 1)テキスト・デ−タ単価は、現行のメディア単価と同様、個別に設定されるの は当然である。この結果、検索・利用(いわゆる読書)料金は当然、重量性にな る。そこで、回線利用料金リスク回避の問題を含め、まず、テキストの要約(抄 録)を見て、フルテキストを利用できる様、要約デ−タの提供を義務付ける必要 がある、と考える。現行において、我々は、例えば出版案内(一種の広告)を見 て、あるいは書店にて“立ち読み”をして購入判断をしている。出版案内は版元 の自主努力によるが、電子図書館システムへのフルテキスト・デ−タの提供に当 たっては、まず、要約デ−タの提供を義務付ける必要があると考える。

 2)既に、検討が開始されていると聞くが、回線使用料については、重量性でな く定料性導入がどうしても必要になると考える。

6.おわりに

 以上見てきたように、電子図書館システムの成立には、まず、遡及テキストのDB 化およびその提供が必須である。一方、新規テキスト・デ−タについては、Internet の利用により、個人においてテキストを受発信可能となった。しかも、そのテキ スト形態は、従来の静的な文字型テキストだけでなく、動的な映像・音声情報( テキスト)の受発信をも可能となった。このことは、電子図書館システムの成立 が、現行の図書館、出版社および報道機関の形態変化に直結することを想像させ る。しかし報道機関については、例え個人において、身近な出来事を取材・提供 できたとしても、世界規模の取材は不可能なことを考えると、その基本的な役割 は変わらないと想像するが、新聞の出版形態だけは、図書・雑誌等出版物と同様 に大きく変化せざるを得ないものと想像する。その変化の方向は、放送の方向に 向かうものと想像する。

 この様に、近い将来において、新規情報のための情報伝達メディアは、統廃合 を伴い多様化して行くであろう。しかし、人類の過去の遺産を将来に渡って継承 できるのは、電子図書館メディアに尽きる。そこで、今、“仕掛け”作りのみの 議論、財投資に集中することのないよう、本報での提案について行動をとってい ただきたいと考える。

参考文献

1)Hafner, K: Making sense of the Internet, Newsweek, pp.44-46(1994. Oct.).

2)Bailey, C.W.Jr.: Network-Based Electronic Serials, Information Technology and Libraries, 11(1), pp.29-35(1992).

3)石川徹也:知識デ−タベ−スの構築と提供について、日本電子化辞書研究所ワ −クショップ論文集(TR-034), pp.94-100(1992).

4)石川徹也:電子図書館システムとデ−タ構築−デ−タ入力工場設置の必要性− 、情報文化学会・第2回マルチメディア研究発表会資料、5p.(1994,11).

5)Library of Congress: Draft-Strategic Directions towards a Digital Library, 12p.(1994).