语义网の基本概念

blue.ocean

语义网=有意义的网络。

“如果说 HTML 和 WEB 将整个在线文档变成了一本巨大的书,那么 RDF, schema, 和 inference languages 将会使世界上所有的数据变成一个巨大的数据库。”

— Tim Berners-Lee, Weaving the Web, 1999

什么是语义网?

semantic(语义的)这个词指有意思的或与之相关的。

语义网是一种使用可以被计算机理解的方式描述事物的网络。

  • 甲壳虫乐队是来自利物浦的著名乐队。
  • 约翰.列农是甲壳虫乐队的成员之一。
  • 唱片 “Hey Jude” 是由甲壳虫乐队录制的。

象这样的句子可以被人类理解。但是如何能够被计算机理解呢?

陈述是由语法规则构建的。一门语言的语法定义了构建该语言的陈述所需的规则。

这就是语义网的本质所在 – 以计算机应用程序可以理解的方式描述事物。

语义网和网页之间的链接没有关系。

语义网描述的是事物之间的关系(比方说 A 是 B 的一部分,而 Y 是 Z 的成员)以及事物的属性(例如尺寸、重量、使用期限和价格等等)。

资源描述框架

RDF(资源描述框架,Resource Description Framework)是一种用于描述网络上的信息和资源的的标记语言。

将信息至于 RDF 文件之中,这样的话,这些信息就有可能被计算机程序(”web spiders”)从网络中搜索、发现、摄取、筛选、分析和处理。

语义网使用 RDF 来描述网络资源。

如果您希望学习更多关于 RDF 的知识,请阅读我们的《RDF 教程

如何使用语义网?

假如有关音乐、汽车、入场券(或者任何别的东西)的信息被存储于 RDF 文件,智能网络应用程序就会将信息从不同的源中进行摄取,并将其整合,然后以一个有意义的方式将信息提交给用户们。

类似如下内容的信息:

  • 不同经销商的汽车价格
  • 药品信息
  • 航班时刻表
  • 工业备件
  • 书籍信息(价格、页数、编辑、年份)
  • 某人是谁
  • 事件的日期
  • 软件更新

语义网技术容易被理解吗?

语义网不是快速发展的技术。

其学习曲线是原因之一。RDF 是由那些拥有逻辑学和人工智能方面的学院背景的人们发展起来的。对于一般的开发人员的来说,它并不是特别容易被理解。

语义网的体系结构正在建设中,当前国际范围内对此体系结构的研究还没有形成一个令人满意的严密的逻辑描述与理论体系,中国学者对该体系结构也只是在国外研究的基础上做简要的介绍,还没有形成系统的阐述。

语义网通过怎样的技术实现呢?

语义网的实现需要三大关键技术的支持:XML、RDF和Ontology。XML(eXtensible Marked Language,即可扩展标记语言)可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制,使其成为语义网的关键技术之一。目前关于语义网关键技术的讨论主要集中在RDF和Ontology身上。
RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点。值得注意的是,RDF 只定义了资源的描述方式,却没有定义用哪些数据描述资源。RDF由三个部分组成:RDF Data Model、RDF Schema和RDF Syntax。

Berners-Lee于2000年提出了语义网的体系结构,并对此做了简单的介绍。该体系结构共有七层,自下而上其各层功能逐渐增强:

第一层:Unicode和URI。Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。

第二层:XML+NS+xmlschema。XML是一个精简的SGML,它综合了SGML的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义网体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。

第三层:RDF+rdfschema。RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。

第四层:Ontology vocabulary。该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。

第五至七层:Logic、Proof、Trust。Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义网输出的可靠性以及其是否符合用户的要求。

语义网的前景如何?

语义网的体系结构正在建设中,当前国际范围内对此体系结构的研究还没有形成一个令人满意的严密的逻辑描述与理论体系,中国学者对该体系结构也只是在国外研究的基础上做简要的介绍,还没有形成系统的阐述。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注