2017-03-07

引言:後設資料(metadata)作為研究資料庫的資料連結(Linked Data)








=====================================================================
愛因斯坦說:「每個人都有自己的世界觀,也都說自己的理論是對的。」同樣的道理,當我們嘗試理解資料語意(data semantics)時,不同的資料創造者、策展人以及資料再次使用者,都有自己的資料詮釋觀點(data interpretation),並認為自己的解釋才是正確。

那麼在此前提下,我們如何才能建立一個好的研究資料庫?

我們試著從Willis,C.(2012)等人提出的觀點開始,主要論點在於後設資料/詮釋資(metadata)促進資料的取用和重用(access and reuse)。另一方面,史丹佛、哈佛和康奈爾大學也相信,使用資料連結技術(the use of linked data technologies)是收集研究資源脈絡(context)資訊的有效方法

有鑑於此,我們的研究著重在尋找能滿足協助資料發佈、提供豐富服務功能等滿足創新需求的工具。例如 Assante 等人(2016)指出,研究資料庫必須滿足不同應用需求中對視覺化、驗證和重用的要求(visualization, validation & reuse ) 。 也因此,CKAN(The Comprehensive Knowledge Archive Network)資料集管理系統作為使連結後設資料可使用、可引用和可驗證的主要工具成為我們的首選。


PDF / PNG
簡言之,我們目前在data.odw.tw上的階段性研究結果包括:

1. 策展、發佈和重用(Curation, Publication & Reuse)後設資料作為資料連結(Linked Data)的研究案例。


  • 再次使用典藏台灣聯合目錄中14個主題領域的84萬筆(843,309)CC授權後設資料。
  • 基礎都柏林核心集的描述版本(D版資料/DC datasets): 產出4千萬筆(44,806,400)三元組/資料連結(triples/linked data)基於使用都柏林核心集的15個欄位 (Dublin Core 15 Elements)以及W3C 的資料溯源(Provenance)推薦標準。
  • 精鍊語意版的資料集(R 版/ Refined datasets):產出豐富時空語意的2千5百萬筆(25,913,304)三元組/資料連結(triples/linked data)。主要基於清理資料後的83萬筆(832,803)原始CC授權後設資料,透過進行針對時間和空間正規化、資料比對、以及連結外部知識領域(外部語彙表,基礎知識本體(ontology)和國際通用知識庫(knowledge base))。
  • 14個主題領域包括考古學,建築學,檔案館,器物,生物學,地質學,手稿,多媒體,新聞媒體。
  • 與後設資料記錄相關的80個計畫和74個組織,藉由資料連結格式和維基資料ID(wikidata ID)進行策展:組織類別包括非政府組織(2),博物館(5),圖書館(2),政府(9),檔案館(1)和學術單位(55)。


2.管理通用和專業資料庫資料的新方法。


  • 開放科學(Open Science):使用CKAN資料集管理系統作為主要解決方案,使連結的後設資料可使用、可引用和可驗證。
  • 可使用性:提供人和機器可理解與處理的多種共享資料格式,包括CSV,XML,Turtle,RDF / XML與JSON-LD。
  • 可驗證和可再製性:每個資料都以詳細資訊編碼,同時設計和實現了發佈文章、資料和程式的完整機制。
  • 提供了靈活且適應性強的知識本體(ontology),因此可描述不同資料脈絡(data context)(常識或知識領域),事件概念(人時地)和具備語意的不同語彙表所收集的對象。
  • 資料可視覺化藉由空間和時間比對、篩選和連結系統的設計來增強應用層面。


3.設計彈性多重機制(資料多重清理、知識多重連結、語意多重架構)進而精鍊資料語意(Data Semantically Enriched),主要藉由國際語彙(Vocabularies)與知識庫(Knowledge Bases)豐富語意的多元化與知識再現(knowledge representation)。


  • 資料多重清理機制:我們將資料清理視為一種資料清理者對資料語意的解釋。不同的語意精煉版本(R版本,即r1,r2,r3 ......)為使用者的不同需求提供不同的資料脈絡。
  • 知識多重連結機制:使用18個常用國際語彙表描述常識性資料語意,以及5個適用於地點、時間、藝術和人文或生物學的特定領域語彙表。比對和連接 3個知識庫如GeoNames,Wikidata和Encyclopedia of Life。並使用SPARQL查詢語言介面提供本地端點和外部端資料分析語意查詢。此外,RDF triplestore中的資料可輕鬆用於第三方應用程式。
  • 語意多重架構機制:不同的解釋源於使用不同的語彙表。通過SPARQL共存多個具有不同語彙表的R版本或轉換語彙表是解決方案。將來可通過不同的R版本連結更多知識庫,如DBpedia,WordCat或LinkedGeoData,而由於D版與不同R版可共存,因此不會犧牲使用DC 15編碼的原始版本(D版)的完整性。
=====================================================================

參考書目:
  • Douglas, A. Vibert. "Forty minutes with Einstein." Journal of the Royal Astronomical Society of Canada 50 (1956): 99. P.100
  • Assante, M., Candela, L., Castelli, D., & Tani, A. (2016). Are scientific data repositories coping with research data publishing?. Data Science Journal, 15.. DOI: http://doi.org/10.5334/dsj-2016-006
  • Willis, C., Greenberg, J., & White, H. (2012). Analysis and synthesis of metadata goals for scientific data. Journal of the American Society for Information Science and Technology, 63(8), 1505-1520.
  • 黃韋菁, 李承錱, 莊庭瑞 (2017) 結構資料的再次使用:語意、連結與實作, 圖書館學與資訊科學, 第 43 卷 第 1 期 2017 年 4月

Citation Information: 黃韋菁 (2017) 引言:後設資料(metadata)作為研究資料庫的資料連結(Linked Data). URL: https://andrea-index.blogspot.com/2017/03/metadata-as-linked-data-for-research.html
(中文翻譯: https://andrea-huang.blogspot.com/2017/03/introduction-metadata-as-linked-data.html)