Dublin Core Metadata Element Set による複数メタデータの検索

齋藤ひとみ、宇陀則彦、石塚英弘
図書館情報大学
〒 305-8550 つくば市春日 1-2

概要

本論文はDublin Coreのデータ項目を用いて複数のメタデータを検索する システムについて述べる。本研究は経済学のデータベースであるWoPEcの メタデータと政府情報へのアクセス手段を提供するWAGILSプロジェクトで用い られているメタデータを対象にし、それぞれのデータ項目とDublin Coreの データ項目の対応づけを行なった。本システムの利用者は、WWWブラウザから Dublin Coreのデータ項目でWoPEcとWAGILSのメタデータを検索できる。 本システムによって、データ項目の違いを意識することなく様々なメタデータ を検索できるようになった。

キーワード

メタデータ、Dublin Core Metadata Element Set、WoPEc、WAGILS

A Retrieval of Different Types of Metadata by Using Dublin Core Metadata Element Set

Hitomi Saito, Norihiko Uda, Hidehiro Ishizuka
University of Library and Information Science
1-2, Kasuga, Tsukuba, Ibaraki, 305-8550, Japan

Abstract

This paper describes a metadata retrieval system by using the Dublin Core Metadata Element Set. The system has two kinds of metadata which have different structures. One is metadata of WoPEc which has 27 elements, the other is metadata in WAGILS which has 19 elements. WoPEc is a database of economics provided by NetEc. WAGILS is a project which provides access to government information by Washington State Library. The system has the correspondence between elements of the Dublin Core and of two metadata. Users input words with the element name of the Dublin Core on a Web browser to retrieve metadata of WoPEc and in WAGILS. Users of the system can retrieve different types of metadata if only they know the Dublin Core.

Keywords

Metadata、Dublin Core Metadata Element Set、WoPEc、WAGILS

1 はじめに

近年、ネットワーク上の電子資料を効率的に利用する目的で、 メタデータの記述が様々な組織で盛んに行なわれている。 このように、各組織が独自にメタデータを記述している状況の下、 メタデータの記述に関するワークショップが1995年に開かれた。 このワークショップで提案されたメタデータはDublin Core Metadata Element Set(略称:Dublin Core)と呼ばれ、ネットワーク上の情報資源 に関するメタデータに最低限必要なデータ項目として提案された。 本研究ではDublin Coreと複数のメタデータのデータ項目の対応づけを 行なうことによって、Dublin Coreのデータ項目で複数メタデータを 検索するシステムを構築した。 現在は、NetEcのWoPEcとワシントン州立図書館のWashington State's Government Information Locator Service(略称:WAGILS)のメタデータを Dublin Coreのデータ項目で検索できる。

2 データ項目の対応づけ

2.1 Dublin Core Metadata Element Set

Dublin Coreはネットワーク上の電子資料のメタデータに最低限必要な データ項目として提案された。 Dublin Core という名前は、最初の会議の開催地であるDublin という地名と、いろいろなメタデータのコア(基)となるということからつけられた。 Dublin Coreではデータ項目のことをエレメントと呼び、現在は15のエレメントをもつ。

        1. Title:CreatorやPublisherによって与えられた情報資源の名前。
        2. Author or Creator:情報資源の内容に第一の責任をもつ人または組織。
        3. Subject and Keywords:情報資源の主題とキーワード。
        4. Description:文章による情報資源の内容説明。
        5. Publisher:情報資源をその現在の形にした組織。
        6. Other Contributor:情報資源に対して間接的ではあるが重要な貢献をした人や組織。
        7. Date:情報資源が現在の形で利用できるようになった日づけ。
        8. Resource Type:情報資源の内容区分。
        9. Format:情報資源のデータ形式。
        10. Resource Identifier:情報資源を一意に識別するための文字や番号。
        11. Source:情報資源の出典を一意に識別するための文字や番号。
        12. Language:情報資源を記述した言語。
        13. Relation:他の情報資源との関係。
        14. Coverage:情報資源の空間的、時間的特性。
        15. Rights Management:情報資源のアクセス制限に関する情報へのリンク。

2.2 WoPEc

WoPEcはNetEcが提供しているデータベースの1つである。 NetEcは電子的なメディアによって研究者間のコミュニケーションを図る目的で複数の組織がボランティアで行なっているプロジェクトである。 NetEcが提供している7つのデータベースのうち、WoPEcのメタデータを利用した。 WoPEcは経済学関連の電子的なワーキングペーパーを対象にしたデータベースであり、 現在は6627のワーキングペーパーのメタデータを331の雑誌から収集している。

WoPEcの27のデータ項目は、Internet Engineering Taskforce(IETF)のInternet Anonymous Ftp Archive(IAFA)ワーキンググループによって作成されたIAFA templatesを採用している[5]。

1. Template-Type:IAFAのワーキンググループによって定義された"document"の形式を利用しているので、この値はいつも"document"である。

2. Author-Name:一次情報の作成と内容に責任を持つ人。

3. Author-Email:著者の電子メールアドレス。

4. Author-Homepage:著者のホームページのURL。

5. Author-WorkPlace-Name:著者の所属する組織の名前。

6. Author-WorkPlace-Postal:著者の所属する組織の住所。

7. Author-WorkPlace-Phone:著者の所属する組織の電話番号。

8. Author-WorkPlace-Fax:著者の所属する組織のFAX番号。

9. Title:文書のタイトルでサブタイトルも含む。

10. Abstract:文書の抄録。

11. Classification-Number:文書の分類規則に基づく分類番号。

12. Related papers by JEL classification:JELの分類番号による関連論文。

13. Keywords:文書の内容を表すキーワード。

14. Description:他の文書との関係や文書の時間的な情報など文書に関する情報。

15. Length:ドキュメントの長さ。通常ページ数。

16. Publication-Status:文書の最新バージョン。

17. Paper provided by:文書を出版、管理している組織の情報やシリーズに関する情報。

18. Creation-Date:文書の最終更新日。

19. Category:シリーズに関する情報。

20. Citation:文書の引用関係に関連する情報。

21. Price:文書を入手するための費用。

22. File-Format:文書ののファイルの形式。

23. File-URL:文書のURL。

24. File-Size:ファイルのサイズ。

25. Handle:管理記号。

26. Note:一次情報のファイルの形式やページ数や一次情報の入手方法などに関する情報。

27. Number:数字。

2.3 WAGILS

GILS(Government Information Locator Service)は、政府刊行物に対する 公的アクセス手段を提供するプロジェクトである。 WAGILSはワシントン州で行なわれているGILSプロジェクトであり、 Washington State Libraryで運営管理されている。

1. Title:一次資料のタイトル。

2. Author:一次資料の著者。

3. Edition:版。

4. Publisher:資料を発行した政府機関名。

5. Description:一次資料のページ数、あるいは冊数、挿図、大きさなどの形態情報。

6. Subject:主題情報。

7. Collaboration:共著者および協力機関。

8. Added Title:サブタイトル。

9. Related Title:関連する一次資料のタイトル。

10. Uniform Title:統一タイトル。

11. Series:シリーズに関する記述。

12. Notes:形態的記述や他の著作との関係、内容などに関する情報。

13. Summary:一次資料の要約。

14. Contents:一次資料の目次。

15. ISBN:International Standard Book Number: 国際標準図書番号。

16. ISSN:International Standard Serial Number: 国際標準逐次刊行物番号。

17. Record Id:メタデータ識別番号。

18. State Document No.:文書識別番号。

19. Holdings:所蔵情報。

2.4 Dublin CoreとWoPEcおよびWAGILSのデータ項目の対応づけ

WoPEcのデータ項目はTitleとAuthorとAbstractの記述を重視し、 その中でも特にAuthorに関するデータを詳細に記述している。 また、6640のうち1426の論文には、 Journal of Economic Literature(JEL)classificationという分類記号を付与し、 同じ分類に属している論文の情報を参照できるようになっている。 一方、WAGILSは政府刊行物情報へのアクセスを提供するプロジェクトであるため、 政府刊行物を網羅的に収集し、入手のためのデータ項目を中心に記述している。 特に、Title, Publisher, Holdingsは 入手のための重要な情報として必ず記述されている。

WoPEcとWAGILSのようにそれぞれの目的に応じて記述されているメタデータを 最低限の記述を目的とするDublin Coreと対応づける際には様々な問題が生じる。 まず、同じ意味をもつデータ項目でも名前が全く異なっていたり、 逆に名前が同じでも内容が異なる場合がある。 また、記述の詳細さが異なっていて、単純に一対一に対応づけられない。 そこで、名前が同じでも内容が異なる場合には内容を基準にして対応づけを行い、 一対一に対応づけられない場合にはDublin Coreの一つのデータ項目に 詳細に記述してある複数のデータ項目を対応づけた。

対応づけた結果を表1に示す。

表1:Dublin CoreとWoPEcおよびWAGILSのデータ項目の比較

3. メタデータ検索システム

メタデータ検索システムは、データ格納部分とデータ検索部分から構成される。 データ格納部分では、収集したWoPEcとWAGILSのメタデータを それぞれ元のデータ項目を持たせたままリレーショナルデータベースに格納してある。 したがって、必要に応じて元のデータ項目から検索し、参照することも可能である。 データ検索部分では、検索時に利用者が指定したDublin Coreのデータ項目を WoPEcとWAGILSの元のデータ項目に変換した後、検索を行なう。

システム全体図

4. 考察

本研究では、WoPEcとWAGILSのデータ項目が意味的にDublin Coreのどのデータ項目に 相当するかを考慮して対応づけを行なった。 これら対応表を比較すると、以下の結果となった。

以上から、Dublin Coreの15項目のうち12項目がWoPEcまたはWAGILSの項目に 対応づけられていることがわかる。 これは名前の違いや記述の詳細さなどデータ項目の違いを吸収できる ということであり、したがって、複数のメタデータを同時に検索する際には 共通のデータ項目であるDublin Coreを用いることが有効であるといえる。

Dublin Coreのデータ項目のうち、 WoPEcとWAGILSのデータ項目に対応づけられなかった Resource Type, Language, Coverageの3つデータ項目については、 その情報資源全てに共通なので特に記述されなかったと考えられる。 しかしながら、メタデータを相互に流通させ利用するという場合は、 他のメタデータとの違いを明確にするためにこれらの項目も記述されるべきである。

5. おわりに

本論文はDublin Coreのデータ項目を用いて複数のメタデータを検索する システムについて述べ、Dublin Coreについて考察した。 その結果、Dublin Coreは必要最低限の項目として妥当であり、 データ項目名や記述の詳細さが異なるメタデータを検索する場合には、 Dublin Coreのデータ項目で検索するのが有効であることを示した。 今後、さらに多くのメタデータとの対応づけを行ない、比較検討することによって、 より詳細に評価できると思われる。

謝辞

本研究のためにメタデータを快く提供してくれた NetEcとWAGILSの両機関に感謝の意を表する。

参考文献

[1] Weibel,Stuart.et al. Dublin Core Metadata Element Set:Reference Description(online). last update 1997-11-02,(参照1998-1-29). http://purl.org/metadata/dublin_core_element

[2] Krichel,Thomas. NetEc Documentation(online).(参照1998-1-29). http://netec.mcc.ac.uk/doc/NetEc.doc.html

[3] Krichel,Thomas. WoPEc main page(online).(参照1998-1-29). http://netec.mcc.ac.uk/WoPEc.html

[4] WoPEc fields(online).(参照1998-1-29). http://netec.mcc.ac.uk/doc/fields.html

[5] Heery,Rachel. Review of Metadata Formats(online).(参照1998-1-29). http://netec.mcc.ac.uk/local/WoPEc_Input.html

[6] About the WAGILS Project(online).(参照1998-1-30) http://www.wa.gov/library/gils.htm/

[7] WAGILS: Virturl Govermment Documents Catalog(online).(参照1998-1-19) http://ntserver.wln.com/wagils/

[8] Weibel,Stuart. Metadata: The Foundations of Resource Description.D-Lib Magazine(online). July(1995).(参考1997-4-17). http://www.cnri.reston.va.us/homr/dlib/July95/07weibel.html

[9] Caplan,Priscilla. You Call It Corn,We Call It Syntax-Independent Metadata for Document-Like-Objects.The Public-Access Computer Systems Review(online). Col.6,No.4,(1995). http://info.lib.uh.edu/pr/v6/n4/capl6m4.html

[10] 杉本重雄.電子図書館に関する調査報告(online).国立国会図書館, 1997-8-7.(参照1998-1-29). http://www.ndl.go.jp/ndlelp/ELmain.html

[11] 永田治樹. "6. 目録とメタデータ".学術情報と図書館.東京,丸善株式会社,1997,p.79-134