Page 1 of 1

然而,LOD 的五星

Posted: Sat Feb 08, 2025 4:00 am
by Bappy11
图 2:语义网技术堆栈。来源:[网络]
图2:语义网技术堆栈。来源:[网络]
所谓“语义网堆栈”的基础由标识符 URI/IRI、网络协议和字符编码的 Unicode 规范构成。 ›国际资源标识符‹或其泛化›统一资源定位符‹构成了基于 XML 序列化的 RDF 数据模型、›资源描述框架‹的基础。在此基础上,XML 等数据格式或 Turtle 等 RDF 序列化发挥了作用。 RDF 概念及其基于自然语言的主语、谓语和宾语 (SPO) 形式构成了语义网的核心,因为它可以以机器可以理解的形式将某些属性归因于资源 (URI),并允许任意扩展有关资源的陈述。主语和宾语就是所谓的节点,它们通过边(谓语)连接。这些边现在可以更精确地确定节点之间的关系类型。这一概念的存亡取决于资源识别的唯一性。万维网的寻址基于唯一地址和标准化,为至少在那里明确定位资源提供了一个坚实的起点。不幸的是,WWW的根本问题,即资源的稳定性以及可持续的可寻址性,尚未解决。万维网的另一个根本设计缺陷无法通过语义网消除,但可以得到缓解。不仅地址,而且语句也具有时间方面。它们是在特定时间制定的,通常只在一定时期内有效,至少就人文领域的知识而言。语义网也继承了万维网的这种时间“盲性”,但至少在理论上,可以通过其 SPO 模型对资源做出任意的时间陈述。但不幸的是,在实践中这一点常常被忽视。

除了 RDF 模型之外,Web 本体语言 (OWL) 和 RDF Schema 允许对有关本体或标准化模式的语句和知识进行进一步建模,这已经允许对语句的逻辑一致性和有效性得出简单的结论。一旦您根据这种模式存储了数据,您就可以将各个三元组(也称为 SPO 模型的实现)相互关联或链接,例如通过通用标识符(如人员的 GND 编号或书籍的 ISBN 编号)。这会创建存储在所谓“三重存储”中的链接数据集,并且可以使用特殊查询语言(S PARQL 协议和RDF查询语言,简称SPARQL)进行搜索和读取。 [7] SPARQL 基于著名的关系数据库查询语言 SQL,但由于图的数据结构与关系表的数据结构不同,因此工作方式略有不同。 SPARQL 将三元组语句与知识库中存储的节点和边进行比较。例如,例如,为了制定有意义且有效的查询,提前知道哪些数据和概念存储在“三重存储”中总是有利的。

LOD 建立在语义网的标准之上,是在 WWW 上提供机器可读数据的技术的实际实现。现在,良好的 LOD 实践有五条简单的规则:[8] ★ 在开放许可下在 WWW 上提供你的数据; ★★ 以结构化、机器可读的格式提供数据; ★★★ 使用开放、非专有的格式; ★★★★使用 URI 来命名事物和 RDF 标准,以便您的数据可以链接; ★★★★★ 将您的数据与其他数据链接以创建上下文。
,[9]因为它是一种数据和知识管理的开放愿景,通常需要知识共享许可。[10]因此链接›开放‹数据!

这项技术与数字版主题有何关系?显然,WWW 上有数字版本,其中许多是免费许可的,因此 阿尔巴尼亚电报数据 已经满足了 LOD 的第一颗星。如果它们是 XML TEI 或者仅仅是 Unicode 文本,那么也会获得第二和第三颗星。因此,它‘仅仅’涉及第 4 级和第 5 级、RDF 标准以及将数据链接到 LOD 云。数字版已经是语义网的一部分了吗?不幸的是,真正的挑战在于最后两个层次。

2. ›语义布鲁门巴赫‹
为了更清楚地说明这些挑战,我将借鉴哥廷根 GCDH 下萨克森州数字人文研究协会框架内的一个项目,该项目测试了语义网技术,以建立 XML/TEI P5 文本与哥廷根大学收藏品之间的链接。[11]对于文本的数字版而言,所使用的技术和标准尤其有趣。此外,通用数据格式 RDF 带来了以新方式自动链接信息并揭示新联系的可能性。具体来说,它是关于建立哥廷根学者约翰·弗里德里希·布鲁门巴赫 (1852-1840) 的著作的文本或数字版本与他收集的自然历史物品之间的关系的模型。[12]

该项目的挑战是基于 RDF 框架建立文本和对象之间的语义关系,这些关系通常由人文学科内不同的学科和科学界进行研究。这需要一个足够全面的本体来表示文本和对象的结构特征,从而在不同层次上建立这两个类别之间的语义关系。最初,我们倾向于使用 EDM(Europeana 数据模型)[13]作为参考本体,但在工作开始后,我们很快发现,该模型的当前版本不允许访问单个单词或标记等单位,而这些单位本应是文本和对象之间语义链接的基础。博物馆领域广泛使用的概念参考模型(CIDOC CRM)更加灵活。[14]在语义网框架›科学通信基础设施‹(简称 WissKI)的框架内,[15]开发了埃尔朗根 CRM(ECRM),它基于 CIDOC CRM,是 CIDOC CRM 本体的 OWL 描述逻辑版本,与 CIDOC 本身一样,它是专门为博物馆开发的。[16]该本体是“面向事件的”,也就是说,它试图以面向过程的方式对诸如手稿的制作或接收等事件进行建模。