‘壹’ 语义网是什么有什么好处
文/thomas claburn
一些公司联手致力于语义网开发环境和数据库的研发。
有人把语义网(semantic web)称为web3.0,现在它就要粉墨登场了。编程工具开发商topquadrant公司和franz公司日前表示,他们将把前者的topbraid composer和franz的allegrograph 64位rdf存储数据库结合起来,形成一个语义网开发环境和数据库,提高计算机的“智力”。
语义技术可增强计算机对数据的理解,在整合大型数据集时用处特别显着。它对于搜索应用的用处也很大,因为语义技术让计算机推断出未有明确定义的数据元素之间的关系。一个关键词搜索通常仅仅返回包含查询关键字的文档,而语义搜索则能返回与搜索词汇的含义有关的结果(例如:tank一词,有坦克、水容器等两种含义,语义技术能予以辨别),或者是与搜索词汇的同义字有关的结果(例如:tank意为坦克时,同义字有armored vehicle,装甲车)。
目前,还没有出现真正意义上的语义网,这在很大程度上是因为现有工具还无法承担这样的任务。topquadrant的联合创始人和执行合伙人拉尔夫·霍奇森(ralph hodgson)说:“我们必须要创建出合适的工具,来支持语义网的实现。”他说,包括protege和swoop等在内的公共领域许可软件都还无法商用。
使用标准数据库和开发环境的语义程序似乎不能很好地拓展。“你可以用自己的方式进行编程,”霍奇森说,“就是费点劲。”
语义网有许多的标准、协议以及包括rdf、owl(web ontology language,web本体语言)、sparql等在内的多种语言,此外还有可让开发者在语义框架下组织数据的xml相关技术。上述两家公司的产品组合,提供了一个基于eclipse的图形开发环境和一个能与大量rdf数据同比扩大的数据库。
葛兰素史克公司(glaxosmithkline,下称gsk)正在对allegrograph进行测试,以提供一个更为灵活的it基础设施并通过自动化提高生产力。这家制药公司正在利用一个语义数据提取层进行试验。这项生物实验室工作有很多制药公司参与其中,因而产生了许多数据,gsk的一位主管罗宾·麦克伊泰(robin mcentire)说:“因此我们希望把它聚合起来,并在更高的一个层级上把它呈现出来,语义技术大有用处。”
该公司的目标是应用基于计算机的推理,从而对大量实验数据进行评估和过滤。“低层级的推理是很好的开端,我们的科学家从事的任务并非‘高科技’,但是特别耗时的任务就可以利用这项技术实现自动化。”麦克伊泰说。
伊士曼-柯达公司(eastman kodak,下称柯达)也在使用allegrograph软件,它从可视化数据中进行含义推断,从而来帮助客户更好地维护他们日渐庞大、难以管理的数字影像。
“语义理解技术将帮助消费者更好地管理自己的的图片,”柯达主席兼首席执行官(ceo)彭安东(antonio perez)去年在一场演讲中表示,“照片之间也能相互‘认识’了—不用人们指点,利用元数据(metadata),一张照片便可寻找到具有相关元数据的另一张照片,因此,所有的照片便能以新的类别进行重新组合,无非取决于它们之间不同的关联方式而已。”
‘贰’ 什么是web语义化,百度了一下讲的都不是很好,太凌乱了 ,求高手支招啊,另外web语义化有什么好处
你是说语义Web吧?
学术届将其称为Web3.0的核心,目标是将当前的网页提升为计算机能够“理解”和处理的网页。
核心思想是标注网页对象使其对应本体中的实体,并通过逻辑等手段进行自动推理。
作用在于更好整合网络上的资源,使计算机能够处理分布于不同位置的信息,自动产生问题的解决方案。
‘叁’ 语义网的基本特征
类似于Web 2.0以AJAX概念为契机,如果说Web 3.0以语义网概念为契机的话,同样会有近似于AJAX的一种技术,成为网络的标准、置标语言或者相关的处理工具,用来扩展万维网,开创语义网时代。拥有这一技术的企业将是网络时代的弄潮儿。 语义网不同于现在WWW,现有的WWW是面向文档而语义网则面向文档所表示的数据,而语义网更重视于计算机“理解与处理”,并且具有一定的判断、推理能力。 语义网的实现意味着当时会存在一大批与语义网相互依赖的智能个体(程序),广泛的存在于计算机、通讯工具、电器等等物品上,他们组合形成环绕人类生存的初级智能网络。 语义网是WWW的扩展与延伸,它展示了WWW的美好前景以及由此而带来的互联网的革命,但语义网的实现仍面临着巨大的挑战: 内容的可获取性,即基于Ontology(本体,下同) 而构建的语义网网页目前还很少; 本体的开发和演化,包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题; 内容的可扩展性,即有了语义网的内容以后,如何以可扩展的方式来管理它,包括如何组织、存储和查找等; 多语种支持; 本体语言的标准化。
‘肆’ 语义网的概念
语义网的概念是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,实际上是基于很多现有技术的,也依赖于后来和text-and-markup与知识表现的综合。其渊源甚至可以追溯到20世纪60年代末期的Collins、Quillian、Loftus等人的研究,还有之后70年代初Simon、Schamk、Minsky等人陆续提出的一些理论上的成果。其中Simon在进行自然语言理解的应用研究时提出了语义网络(Semantic Network,不是现在的Semantic Web)的概念。当时人们甚至发明了以逻辑为基础的程序设计语言Prolog。
蒂姆·伯纳斯-李在2006年普林斯顿大学演讲和后期接受媒体采访时公开表示,他最初将这种智能网络命名为语义网或许不够贴切,也许更准确的名称应该是数据网(外语:Data Web)。
语义网就是能够根据语义进行判断的智能网络,实现人与电脑之间的无障碍沟通。它好比一个巨型的大脑,智能化程度极高,协调能力非常强大。在语义网上连接的每一部电脑不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以干人所从事的工作。它将使人类从搜索相关网页的繁重劳动中解放出来,把用户变成全能的上帝。语义网中的计算机能利用自己的智能软件,在万维网上的海量资源中找到你所需要的信息,从而将一个个现存的信息孤岛发展成一个巨大的数据库。
语义网的建立极大地涉及了人工智能领域的部分,与Web 3.0智能网络的理念不谋而合,因此语义网的初步实现也作为Web 3.0的重要特征之一,但是想要实现成为网络上的超级大脑,需要长期的研究,这意味着语义网的相关实现会占据网络发展进程的重要部分,并且延续于数个网络时代,逐渐转化成“智能网”。
‘伍’ 如何理解 web 语义化
语义化的HTML结构怎么理解
关于html结构的面试题,语义化的html占据了很大一部分。那么为什么要使用语义化的HTML?语义化的HTML到底有什么好处呢?
HTML是提供网页文档内容的上下文结构和含义;html本身是没有表现的,我们看到例如<h1>是粗体,字体大小2em,加粗;<strong>是加粗的,不要认为这是html的表现,这些其实html默认的css样式在起作用,所以首先我们要知道html和页面的表现是没有关系的,这些是css的事情。HTML在页面中的作用就是结构和含义,通俗点说就是划分内容,这里放什么,我们放的是什么。
语义化的HTML结构首先要强调HTML结构
HTML结构是页面的骨架,一个页面就好像一幢房子,HTML结构就是钢精钢筋混泥土的墙,一幢房子如果没有钢精钢筋混泥土的墙那就是一堆费砖头,不能住人,不能办公。css是装饰材料,是原木地板,是大理石,是油漆,是用来装饰房子的,CSS的强大就不用多说了,css如果没有html结构那就是一堆木板,一同油漆,没有了实际使用价值。CSS完全依靠引用它的(X)HTML文档。如果你想使CSS的能力充分发挥到极致,提供一个用既干净又有结构的内容的html是非常必要的,“HTML是在互联网上发布超文本的通用语,HTML使用标签来对文本结构化”。
语义化的HTML结构怎么写?
HTML是一种对文本内容进行结构和意义(或者说“语义”)进行补充的方法。它会告诉我们说:“这行是一个标题,这几行组成了一个段落。这些文字是项目列表,这些文字是链接到互联网上另一个文件的超链接。”值得注意的是,不应该让HTML来告诉我们:“这些文字是蓝色的,这些文字又是红色的。这部分内容是最最靠右的一栏,这行内容是斜体字。”这些和表现相关的信息是CSS的工作。在做前端开发的时候要记住:HTML告诉我们一块内容是什么(或其意义),而不是它长的什么样子。当我们提到“语义标记”的时候,我们所说的HTML应该是完全脱离表现信息的,其中的标签应该都是语义化地定义了文档的结构。
语义化的HTML结构其实很简单,首先掌握html中各个标签的语义,<div>是一个容器;<strong>是表示强调;<ul><li>是一个无序列表等等…在看到内容的时候想想用什么标签能更好的描述它,是什么就用什么标签。
语义化的HTML结构到底有什么好处?
我们知道HTML5新增的标签,比如<header>和<footer>,html正在朝着更加健壮的语义化的HTML结构发展,xhtml2在这点上没html5先进,这也是xhtml2死亡的一个原因,这一点也说明语义化的HTML结构是html的发展趋势。
1.去掉或样式丢失的时候能让页面呈现清晰的结构:
html本身是没有表现的,我们看到例如<h1>是粗体,字体大小2em,加粗;<strong>是加粗的,不要认为这是html的表现,这些其实html默认的css样式在起作用,所以去掉或样式丢失的时候能让页面呈现清晰的结构不是语义化的HTML结构的优点,但是浏览器都有有默认样式,默认样式的目的也是为了更好的表达html的语义,可以说浏览器的默认样式和语义化的HTML结构是不可分割的。
2.屏幕阅读器(如果访客有视障)会完全根据你的标记来“读”你的网页.
例如,如果你使用的含语义的标记,屏幕阅读器就会“逐个拼出”你的单词,而不是试着去对它完整发音.
3.PDA、手机等设备可能无法像普通电脑的浏览器一样来渲染网页(通常是因为这些设备对CSS的支持较弱).
使用语义标记可以确保这些设备以一种有意义的方式来渲染网页.理想情况下,观看设备的任务是符合设备本身的条件来渲染网页.
语义标记为设备提供了所需的相关信息,就省去了你自己去考虑所有可能的显示情况(包括现有的或者将来新的设备).例如,一部手机可以选择使一段标记了标题的文字以粗体显示.而掌上电脑可能会以比较大的字体来显示.无论哪种方式一旦你对文本标记为标题,您就可以确信读取设备将根据其自身的条件来合适地显示页面.
4.搜索引擎的爬虫也依赖于标记来确定上下文和各个关键字的权重.
过去你可能还没有考虑搜索引擎的爬虫也是网站的“访客”,但现在它们他们实际上是极其宝贵的用户.没有他们的话,搜索引擎将无法索引你的网站,然后一般用户将很难过来访问.
5.你的页面是否对爬虫容易理解非常重要,因为爬虫很大程度上会忽略用于表现的标记,而只注重语义标记.
因此,如果页面文件的标题被标记,而不是,那么这个页面在搜索结果的位置可能会比较靠后.除了提升易用性外,语义标记有利于正确使用CSS和JavaScript,因为其本身提供了许多“钩钩”来应用页面的样式与行为.SEO主要还是靠你网站的内容和外部链接的。
6.便于团队开发和维护
W3C给我们定了一个很好的标准,在团队中大家都遵循这个标准,可以减少很多差异化的东西,方便开发和维护,提高开发效率,甚至 实现模块化开发。
如有不同观点,补充,欢迎留言讨论。
‘陆’ 什么语义网
语义网的概念:
语义网是Semantic Web的中文名称。
语义网就是能够根据语义进行判断的网络。
简单地说,语义网是一种能理解人类语言的智能网络,它不但能够理解人类的语言,而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。
语义网是对未来网络的一个设想,在这样的网络中,信息都被赋予了明确的含义,机器能够自动地处理和集成网上可用的信息.语义网使用XML来定义定制的标签格式以及用RDF的灵活性来表达数据,下一步需要的就是一种Ontology的网络语言(比如OWL)来描述网络文档中的术语的明确含义和它们之间的关系.
添加了更多的用于描述属性和类型的词汇,例如类型之间的不相交性(disjointness),基数(cardinality),等价性,属性的更丰富的类型,属性特征(例如对称性,symmetry),以及枚举类型(enumerated classes).
语义网的一些基本特征:
(1)语义网不同于现在WWW,它是现有WWW的扩展与延伸;
(2) 现有的WWW是面向文档而语义网则面向文档所表示的数据;
(3) 语义网将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。
‘柒’ web是什么
web,全称为World Wide Web,是全球广域网的简称,也称为万维网,是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。
表现形式
1、超文本(Hyper text)
超文本是一种用户接口方式,用以显示文本及与文本相关的内容。现时超文本普遍以电子文档的方式存在,其中的文字包含有可以链接到其他字段或者文档的超文本链接,允许从当前阅读位置直接切换到超文本链接所指向的文字。
2、超媒体(hypermedia)
超媒体是超级媒体的简称。是超文本(hypertext)和多媒体在信息浏览环境下的结合。用户不仅能从一个文本跳到另一个文本,而且可以激活一段声音,显示一个图形,甚至可以播放一段动画。
3、超文本传输协议(HTTP,HyperText Transfer Protocol)
超文本传输协议是互联网上应用最为广泛的一种网络协议。
(7)语义web基本思想扩展阅读:
万维网使得全世界的人们以史无前例的巨大规模相互交流。相距遥远的人们,甚至是不同年代的人们可以通过网络来发展亲密的关系或者使彼此思想境界得到升华,甚至改变他们对待小事的态度以及精神。情感经历、政治观点、文化习惯、表达方式、商业建议、艺术、摄影、文学都可以以人类历史上从来没有过的低投入实现数据共享。
尽管使用万维网仍然要依靠于存在自身缺陷的物化的工具,但至少它的信息保存方式不是使用人们熟悉的方式如图书馆、出版物那样实在的东西。因此信息传播是经由万维网和英特网来实现,而无须被搬运具体的书卷,或者手工的或实物的复制而限制。而且数字储存方式的优点是,你可以比查阅图书馆或者实在的书籍更容易有效率地查询网络上的信息资源。
‘捌’ 语义web的含义
现有的互联网网络是网页的集合,而谷歌及其他搜索引擎正是通过网页互相之间的链接来帮助用户上网进行搜索。与此不同的是,“语义Web”将在更加微小的信息之间建立直接的连接,例如一条街道的地址与一份地图等等。
‘玖’ 语义web的体系结构
下图描述了语义Web的七层体系结构: 自描述
文档 数据 数据 规则 信任 证明 数
字
签
名 逻辑 本体 RDF+RDF Schema XML+NS+XML Schema 名称空间 Unicode URI 第一层:Unicode和URI。
Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform ResourceIdentifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义Web体系结构中,该层是整个语义Web的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。
第二层:XML+NS+xmlschema。
XML是一个精简的标准通用标记语言,它综合了标准通用标记语言的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(NameSpace)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是文档类型定义(外语缩写:DTD)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XMLSchema所提供的多种数据类型及检验机制,使其成为语义Web体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。
第三层:RDF+rdfschema。
资源描述框架(外语缩写:RDF)是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。
第四层:“本体词汇”(Ontology vocabulary)。
该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。
第五至七层:Logic、Proof、Trust。
Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义Web输出的可靠性以及其是否符合用户的要求。
‘拾’ web到底是啥意思
World Wide Web,简称WWW,是英国人TimBerners-Lee 1989年在欧洲共同体的一个大型科研机构任职时发明的。通过WEB,互联网上的资源,可以在一个网页里比较直观的表示出来;而且资源之间,在网页上可以链来链去。在WEB1.0上做出巨大贡献的公司有Netscape,Yahoo和Google。 Netscape研发出第一个大规模商用的浏览器,Yahoo的杨致远提出了互联网黄页, 而Google后来居上,推出了大受欢迎的搜索服务。
搜索最大的贡献是,把互联网上海量的信息,用机器初步分了个线索。但是,光知道网页里有哪些关键字,只解决了人浏览网页的需求。所以,Tim-Berners-Lee在提出WWW不久,即开始推崇语义网(Semantic Web)的概念。为什么呢?因为互联网上的内容,机器不能理解。他的理想是,网页制作时和架构数据库时,大家都用一种语义的方式,将网页里的内容表述成机器可以理解的格式。这样,整个互联网就成了一个结构严谨的知识库。从理想的角度,这是很诱人的,因为科学家和机器都喜欢有次序的东西。Berners-Lee关心的是,互联网上数据,及能否被其它的互联网应用所重复引用。举一个例子说明标准数据库的魅力。有个产品叫LiberyLink。装了它后,到Amazon上去浏览时,会自动告诉你某一本书在用户当地的图书馆能否找到,书号是多少等。因为一本书有统一的书号和书名,两个不同的互联网服务(Amazon 和当地图书馆数据库检索)可以公享数据,给用户提供全新服务。
但是,语义网提出之后,曲高和寡,响应的人不多。为什么?因为指望要网页的制作者提供这么多额外的信息去让机器理解一个网页,太难;简直就是人给机器打工。这违反了人们能偷懒就偷懒的本性。看看Google的成功就知道。 Google有个Page Rank技术,将网页之间互相链接的关系,用来做结果排序的一个依据,变相利用了网页制作人的判断力。想一想网页的制作者们,从数量来说,比纯浏览者的数量小得多。但Google就这一个革新,用上了网页的制作者的一部份力量,已将其推上了互联网的顶峰。
所以互联网下一步,是要让所有的人都忙起来,全民织网,然后用软件,机器的力量使这些信息更容易被需要的人找到和浏览。如果说WEB1.0是以数据为核心的网,那我觉得WEB2.0是以人为出发点的互联网。 我们看一看最近的一些WEB2.0产品,就可以理解以上观点。
Blog: 用户织网,发表新知识,和其他用户内容链接,进而非常自然的组织这些内容。
RSS: 用户产生内容自动分发,定阅
Podcasting: 个人视频/声频的发布/定阅
SNS: blog+人和人之间的链接
WIKI: 用户共同建设一个大网络全书
从知识生产的角度看,WEB1.0的任务,是将以前没有放在网上的人类知识,通过商业的力量,放到网上去。WEB2.0的任务是,将这些知识,通过每个用户的浏览求知的力量,协作工作,把知识有机的组织起来,在这个过程中继续将知识深化,并产生新的思想火花;
从内容产生者角度看,WEB1.0是商业公司为主体把内容往网上搬,而WEB2.0则是以用户为主,以简便随意方式,通过blog/podcasting 方式把新内容往网上搬;
从交互性看,WEB1.0是网站对用户为主;WEB2.0是以P2P为主。
从技术上看,WEB客户端化,工作效率越来越高。比如像Ajax技术, GoogleMAP/Gmail里面用得出神入化。
我们看到,用户在互联网上的作用越来越大;他们贡献内容,传播内容,而且提供了这些内容之间的链接关系和浏览路径。在SNS里面,内容是以用户为核心来组织的。WEB2.0是以用户为核心的互联网。
那么,这种意义上的WEB2.0,和Tim Berners-Lee的语义网,有什么不同呢?语义网的出发点是数据的规整及可重复被机器调用,提出使用语义化的内容发布工具, 试图从规则和技术标准上使互联网更加有序。 Google等搜索引擎,在没有语义网的情况下,尽可能的给互联网提供了线索。 WEB2.0则是鼓励用户用最方便的办法发布内容(blog/podcasting),但是通过用户自发的(blog)或者系统自动以人为核心(SNS)的互相链接给这些看似凌乱的内容提供索引。 因为这些线索是用户自己提供,更加符合用户使用感受。互联网逐渐从以关键字为核心的组织方式和阅读方式,到以互联网用户的个人portal(SNS)为线索,或者以个人的思想脉络(blog/rss)为线索的阅读方式。WEB2.0强调用户之间的协作。WIKI是个典型例子。从这个角度看,互联网是在变得更有序,每个用户都在贡献:要么贡献内容,要么贡献内容的次序.
对下一代互联网的看法,还会有很多的讨论。有一点可以肯定,WEB2.0是以人为核心线索的网。提供更方便用户织网的工具,鼓励提供内容。根据用户在互联网上留下的痕迹,组织浏览的线索,提供相关的服务,给用户创造新的价值,给整个互联网产生新的价值,才是WEB2.0商业之道。