-- Andrea : Wei-Ching : Huang ---: 引言：後設資料(metadata)作為研究資料庫的資料連結(Linked Data)

中文翻譯: 2018/07/22
英文版本: 2017/03/08
(Introduction: Metadata as Linked Data for Research Data Repositories)

=====================================================================
愛因斯坦說：「每個人都有自己的世界觀，也都說自己的理論是對的。」同樣的道理，當我們嘗試理解資料語意(data semantics)時，不同的資料創造者、策展人以及資料再次使用者，都有自己的資料詮釋觀點(data interpretation)，並認為自己的解釋才是正確。

那麼在此前提下，我們如何才能建立一個好的研究資料庫？

我們試著從Willis，C.(2012)等人提出的觀點開始，主要論點在於後設資料/詮釋資(metadata)促進資料的取用和重用(access and reuse)。另一方面，史丹佛、哈佛和康奈爾大學也相信，使用資料連結技術(the use of linked data technologies)是收集研究資源脈絡 (context)資訊的有效方法。

有鑑於此，我們的研究著重在尋找能滿足協助資料發佈、提供豐富服務功能等滿足創新需求的工具。例如 Assante 等人(2016)指出，研究資料庫必須滿足不同應用需求中對視覺化、驗證和重用的要求(visualization, validation & reuse ) 。也因此，CKAN（The Comprehensive Knowledge Archive Network）資料集管理系統作為使連結後設資料可使用、可引用和可驗證的主要工具成為我們的首選。

PDF / PNG

簡言之，我們目前在data.odw.tw上的階段性研究結果包括：

1. 策展、發佈和重用(Curation, Publication & Reuse)後設資料作為資料連結(Linked Data)的研究案例。

再次使用典藏台灣聯合目錄中14個主題領域的84萬筆(843,309)CC授權後設資料。
基礎都柏林核心集的描述版本（D版資料/DC datasets): 產出4千萬筆(44,806,400)三元組/資料連結(triples/linked data)基於使用都柏林核心集的15個欄位 (Dublin Core 15 Elements)以及W3C 的資料溯源（Provenance）推薦標準。
精鍊語意版的資料集（R 版/ Refined datasets）:產出豐富時空語意的2千5百萬筆(25,913,304)三元組/資料連結(triples/linked data)。主要基於清理資料後的83萬筆(832,803)原始CC授權後設資料，透過進行針對時間和空間正規化、資料比對、以及連結外部知識領域（外部語彙表，基礎知識本體(ontology)和國際通用知識庫(knowledge base)）。
14個主題領域包括考古學，建築學，檔案館，器物，生物學，地質學，手稿，多媒體，新聞媒體。
與後設資料記錄相關的80個計畫和74個組織，藉由資料連結格式和維基資料ID(wikidata ID)進行策展：組織類別包括非政府組織（2），博物館（5），圖書館（2），政府（9），檔案館（1）和學術單位（55）。

2.管理通用和專業資料庫資料的新方法。

開放科學(Open Science)：使用CKAN資料集管理系統作為主要解決方案，使連結的後設資料可使用、可引用和可驗證。
可使用性：提供人和機器可理解與處理的多種共享資料格式，包括CSV,XML,Turtle,RDF / XML與JSON-LD。
可驗證和可再製性：每個資料都以詳細資訊編碼，同時設計和實現了發佈文章、資料和程式的完整機制。
提供了靈活且適應性強的知識本體(ontology)，因此可描述不同資料脈絡(data context)（常識或知識領域），事件概念（人時地）和具備語意的不同語彙表所收集的對象。
資料可視覺化藉由空間和時間比對、篩選和連結系統的設計來增強應用層面。

3.設計彈性多重機制（資料多重清理、知識多重連結、語意多重架構）進而精鍊資料語意(Data Semantically Enriched)，主要藉由國際語彙(Vocabularies)與知識庫(Knowledge Bases)豐富語意的多元化與知識再現(knowledge representation)。

資料多重清理機制：我們將資料清理視為一種資料清理者對資料語意的解釋。不同的語意精煉版本（R版本，即r1，r2，r3 ......）為使用者的不同需求提供不同的資料脈絡。

知識多重連結機制：使用18個常用國際語彙表描述常識性資料語意，以及5個適用於地點、時間、藝術和人文或生物學的特定領域語彙表。比對和連接 3個知識庫如GeoNames,Wikidata和Encyclopedia of Life。並使用SPARQL查詢語言介面提供本地端點和外部端資料分析語意查詢。此外，RDF triplestore中的資料可輕鬆用於第三方應用程式。

語意多重架構機制：不同的解釋源於使用不同的語彙表。通過SPARQL共存多個具有不同語彙表的R版本或轉換語彙表是解決方案。將來可通過不同的R版本連結更多知識庫，如DBpedia,WordCat或LinkedGeoData，而由於D版與不同R版可共存，因此不會犧牲使用DC 15編碼的原始版本(D版)的完整性。

=====================================================================

參考書目:

Douglas, A. Vibert. "Forty minutes with Einstein." Journal of the Royal Astronomical Society of Canada 50 (1956): 99. P.100
Assante, M., Candela, L., Castelli, D., & Tani, A. (2016). Are scientific data repositories coping with research data publishing?. Data Science Journal, 15.. DOI: http://doi.org/10.5334/dsj-2016-006
Willis, C., Greenberg, J., & White, H. (2012). Analysis and synthesis of metadata goals for scientific data. Journal of the American Society for Information Science and Technology, 63(8), 1505-1520.
黃韋菁，李承錱，莊庭瑞 (2017) 結構資料的再次使用：語意、連結與實作, 圖書館學與資訊科學, 第 43 卷第 1 期 2017 年 4月

Citation Information: 黃韋菁 (2017) 引言：後設資料(metadata)作為研究資料庫的資料連結(Linked Data). URL: https://andrea-index.blogspot.com/2017/03/metadata-as-linked-data-for-research.html
(中文翻譯: https://andrea-huang.blogspot.com/2017/03/introduction-metadata-as-linked-data.html)

2017-03-07

引言：後設資料(metadata)作為研究資料庫的資料連結(Linked Data)

訂閱