⑴ oracle数据库怎么将起动文件和数据文件分开安装
启动文件?也行你想说的是安装的software.
数据文件可以在运行dbca 起来的界面里面指定存储类型。如文件系统,raw,ASM等。
oraclefreebase 交流群/社区
⑵ freebase数据库的结构组织方式谢谢
好好看书,没事去图书馆或者GOOGLE,o(╯□╰)o
⑶ 知识有什么用
“知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。”基于信息、知识和智能形成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。
如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨,那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑。
“目前,还不能做到让机器理解人的语言。”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri,还是会做诗的小冰,亦或是会“悬丝诊脉”的沃森,它们并不真正明白自己在做什么、为什么这么做。
让机器学会思考,要靠“谱”。这个“谱”被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成能够支撑类脑推理的知识库。
为了在国内构建一个关于知识图谱的全新产学合作模式,知识图谱研讨会日前召开,来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系,建立世界领先的人工智能基础设施的开拓性工作。
技术原理:把文本转化成知识
“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。”孙乐举例说。比如说到“姚明”,人会想到他是前美职篮球员、“小巨人”、中锋等,而“上海”会让人想到东方明珠、繁华都市等含义。但对于机器来说,仅仅说“姚明是上海人”,它不能和人类一样明白其背后的含义。机器理解文本,首先就需要了解背景知识。
那如何将文本转化成知识呢?
“借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技术。”孙乐说,目前比较流行的是使用“三元组”的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以和上海构成出生地的关系,可以和美职篮构成效力关系,还可以和2.26米构成身高关系。
“如果这些关系足够完善,机器就具备了理解语言的基础。”孙乐说。那么如何让机器拥有这样的“理解力”呢?
“上世纪六十年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用Semantic Network来建模世界知识,这些都可被看作是知识图谱的前身。”孙乐说。
随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作。
“这里包括主观知识,比如社交网站上人们对某个产品的态度是喜欢还是不喜欢;场景知识,比如在某个特定场景中应该怎么做;语言知识,例如各种语言语法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让计算机明白。”孙乐解释,从这些初步的分类中就能感受到知识的海量,更别说那些高层次的科学知识了。
构建方式:从手工劳动到自动抽取
“2010年之后,维基网络开始尝试‘众包’的方式,每个人都能够贡献知识。”孙乐说,这让知识图谱的积累速度大大增加,后续网络、互动网络等也采取了类似的知识搜集方式,发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加,无数的知识从四面八方赶来,迅速集聚,只待“成塔”。
面对如此大量的数据,或者说“文本”,知识图谱的构建工作自然不能再手工劳动,“让机器自动抽取结构化的知识,自动生成‘三元组’。”孙乐说,学术界和产业界开发出了不同的构架、体系,能够自动或半自动地从文本中生成机器可识别的知识。
孙乐的演示课件中,有一张生动的图画,一大摞文件纸吃进去,电脑马上转化为“知识”,但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“网络知识图谱”的介绍中这样写道:对提交至知识图谱的数据转换为遵循Schema的实体对象,并进行统一的数据清洗、对齐、融合、关联等知识计算,完成图谱的构建。“但是大家发现,基于维基网络,结构化半结构化数据挖掘出来的知识图谱还是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说,例如谷歌的Knowledge Vault,以及美国国家标准与技术研究院主办的TAC-KBP评测,也都在推进从文本中抽取知识的技术。
在权威的“知识库自动构建国际评测”中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所—搜狗联合团队获得综合性能指标第3名,事件抽取单项指标第1名的好成绩。
“我国在这一领域可以和国际水平比肩。”孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获取算法,基于多源知识监督的关系抽取算法等,大幅度降低了文本知识抽取工具构建模型的成本,并提升了性能。
终极目标:将人类知识全部结构化
《圣经·旧约》记载,人类联合起来兴建希望能通往天堂的高塔——“巴别塔”,而今,创造AI的人类正在建造这样一座“巴别塔”,帮助人工智能企及人类智能。
自动的做法让知识量开始形成规模,达到了能够支持实际应用的量级。“但是这种转化,还远远未达到人类的知识水平。”孙乐说,何况人类的知识一直在增加、更新,一直在动态变化,理解也应该与时俱进地体现在机器“脑”中。
“因此知识图谱不会是一个静止的状态,而是要形成一个循环,这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念。”孙乐说。
资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;网络记录词条数1000万个,网络搜索中应用了联想搜索功能。
“在医学领域、人物关系等特定领域,也有专门的知识图谱。”孙乐介绍,Kinships描述人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学领域描述了医学概念之间的联系,135个实体,49种关系,6800个事实。
“这是一幅充满美好前景的宏伟蓝图。”孙乐说,知识图谱的最终目标是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。
尽管令业内满意的“真正理解语言的系统”还远未出现,目前的“巴别塔”还只是在基础层面,但相关的应用已经显示出广阔的前景。例如,在网络输入“冷冻电镜”,右竖条的关联将出现“施一公”,输入“撒币”,将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。
⑷ 知识图谱有什么用处
知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头网络和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?
目录
1. 什么是知识图谱?
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语
1. 什么是知识图谱?
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识推理
推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。
大数据、小样本、构建有效的生态闭环是关键
虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。
在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。
6. 结语
知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。
参考文献
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
⑸ 人工智能理解自然语言的原理是什么
Siri,是一个复杂的系统,是由语音识别,语义分析,知识库,搜索等不同的模块构成的。涉及到很多方面的知识。英文中它叫做Natural Language Understanding. 斯坦福大学的这门课是关于这个的,比较全面的介绍了不同的知识。自然语言理解中还有一个比较重要的就是语义的理解,可以研究Computational semantics相关的内容。TFIDF是信息检索中常用的基于统计的方法,虽然在文档检索中有很好的表现,但是在语义分析中并不是很有效。相比之下,LSA也是基于统计的,可能更好一点。也有用topic model来做语义分析的,比如LDA算法。个人比较看好结合知识库和统计的方法,Watson就结合了知识库,谷歌的Knowledge Graph就是一个知识库,它是以freebase为基础的,有一个不错的免费的知识库叫DBpedia,它是基于wikipedia的。
⑹ 计算机网络 什么是web代理它的作用是什么
Web 3.0是否会引发新一轮革命?与Web 2.0时代使用互联网是为了把人与人联系起来不同,在Web 3.0时代使用互联网是为了把信息与信息联系起来,并且能够利用这些信息结合你的个人偏好来回答你提出的各种问题。
你准备去看场电影,然后吃点东西填填肚子。你偏爱喜剧电影和辛辣的墨西哥菜,于是你启动计算机,打开网络浏览器,进入到谷歌搜索引擎,搜索影院、电影和餐馆等方面的信息。
你需要知道附近的影院正在上映哪些电影并了解这个电影的主要内容,于是快速浏览了一下每部影片的简介以选择究竟要看哪部电影。你还要看看这些影院附近各自有哪些墨西哥菜餐馆,以及其他顾客对这些餐馆的评价。这样下来,为了这次出行你出门之前总共要访问五六个网站。
在互联网日益普及的今天,这些上网行为都是再普通不过的。但是,随着互联网进入Web 2.0以及未来的Web 3.0时代,同样都是访问网站,个人体验却完全不同,特别是在Web 3.0时代。
一些互联网专家认为,下一代互联网Web 3.0可以让你更快速、更轻松地完成诸如搜索电影和餐馆这些任务。你不再需要搜索好多次,也不要往Web 3.0浏览器中输入很多关键字,只要一两句较复杂的语句,网络就会自动帮你完成其余工作。
比如,你可以输入“我想看一部有趣的电影,然后到一家不赖的墨西哥菜餐馆吃饭。我有哪些选择?”接下来Web 3.0浏览器会分析你输入的问题,在网上搜索所有可能合适的答案,然后整理好结果提供给你。
当然,这并不是Web 3.0的全部本领。许多互联网专家认为,Web 3.0浏览器可充当私人助理。当你在网上搜索时,浏览器会逐渐了解你对什么感兴趣。你越是能经常使用互联网,浏览器就越了解你,那样即使你提出的问题很笼统,网络也可以给你很满意的答复。
你甚至可以向浏览器提出这样的开放性问题:“我该上哪里吃午饭?”浏览器会查阅你喜欢什么、不喜欢什么的记录,并结合你目前所在位置,然后推荐一系列餐馆。尽管人们对Web 2.0的认识还处于众说纷纭状态,但性急的互联网专家已经提出了Web 3.0。实际上,继Web 2.0之后,Web3.0成为互联网专家们热议的新话题。
从Web 2.0到Web 3.0
在普通大众所熟悉的众多关于互联网的时髦词汇和专业术语之中,最有名的恐怕非“Web 2.0”莫属。然而,尽管许多人听说过Web 2.0,但真正了解其含义的人并不多。有的人认为,这个术语本身只是一种推销手段而已,目的在于吸引风险投资者,好让他们往网站投入巨资。
没错,从着名计算机图书出版公司O'Reilly Media的Dale Dougherty首次提出这个术语以来,何谓Web2.0其实一直没有明确的定义,甚至连Web 1.0至今也没有一致意见。而另一些人认为,Web 2.0是实际存在的,Web 2.0的特点,包括:
1. 访客能够对网页进行修改。比如,亚马逊网站允许访客发布产品评述,访客可以使用网上表单把信息添加到亚马逊的网页上,以便将来的访客能够阅读。
2. 可使用网页把你与其他用户联系起来。Facebook和MySpace等社交网络网站之所以大受欢迎,就是因为它们便于用户找到对方、保持联络。
3. 提供了快速、高效地共享内容的方法。YouTube就是一个典例例子,YouTube会员制作好视频后,即可上传到网站上,供别人观看,整个过程不到一个小时。
4. 提供了获得信息的新方法。如今,广大网民可以订阅网页的真正简单聚合(RSS)新闻源,只要保持互联网连接,就能收到关于该网页上所有最新信息的通知。
5. 访问互联网的设备不局限于计算机。现在许多人通过手机或电子游戏机来访问互联网。一些专家预计,不久之后,消费者通过电视机及其他设备来访问互联网也将成为一件很普通的事。
通俗地说,Web 1.0就好比是图书馆。你可以把它当做信息来源来使用,但是无法以任何方式来添加或改动信息;Web 2.0则像是一个庞大的朋友和熟人圈子。虽然你仍可以用它来获得信息,而更重要的是可以参与到会话中,让会话变成一种更丰富的体验。
尽管到目前为止,还有很多人不太清楚Web 2.0到底是什么,但另一些人却已经在开始考虑接下来会出现什么:Web 3.0会是什么样?它与我们今天的互联网有何不同?它到底会是革命性的剧变,还是潜移默化的量变以至于我们甚至注意不到什么区别?
认识Web 3.0
互联网专家们认为,对于普通用户而言,Web 3.0带来的最大好处就是让你拥有了一个贴身的私人助理。根据专家们的观点,Web3.0时代网络对你无所不知,能够自主地查询互联网上的所有信息来回答任何问题。许多专家把Web 3.0比做是庞大的数据库。Web2.0使用互联网是为了把人与人联系起来,而Web 3.0使用互联网是为了把信息与信息联系起来。一些专家认为Web3.0会取代目前的互联网,另一些专家则认为它将作为独立的网络而存在。
还是用一个例子来说明Web 2.0与Web3.0的异同。假设你正考虑去休假,想去热带地区,为这趟旅行你准备了3000美元的预算。你想住在好的酒店,又不想太花钱,还想要一张便宜的机票。借助目前可以使用的互联网技术,你不得不多次搜索以便找到最佳的休假选择:你需要研究潜在的目的地,然后确定哪个适合自己;你还可能要访问若干个折扣旅游网站,然后比较机票和酒店客房的价格;最后,你还要把很多时间花在查阅各个搜索引擎结果网页的结果上,整个过程可能要花好几个小时。
而在一些互联网专家看来,在Web3.0时代你只要发出一个很简单的指令,剩下的事情则交给互联网,互联网完全可以替你做所有工作:它会根据你的偏好确定搜索参数,以缩小搜索服务的范围。然后,浏览器程序会收集并分析数据并提供给你,便于你进行比较。浏览器之所以有这个本领,是因为Web 3.0能够理解网上的信息。
今天,你使用互联网搜索引擎时,搜索引擎其实并不真正理解你要搜索的东西。它只是简单地查找出现搜索框中的关键字的众多网页,而无法告诉某网页是不是真与你搜索的东西相关。换句话说,它只能告诉你,关键字出现在该网页上。比如,搜索的是“土星”这个词,最后会得到有关土星的网页搜索结果和有关汽车生产商土星公司的其他搜索结果。
而Web3.0搜索引擎不但能找到出现搜索词中的关键字的网页,还能理解你搜索请求的具体语境。它会返回相关结果,并建议关注与搜索词有关的其他内容。在本文的休假例子中,如果你输入“热带休假目的地,预算不到3000美元”这个搜索请求,Web3.0浏览器可能会提供一份与搜索结果有关的趣味活动或美味餐馆列表。它会把整个互联网视做一个庞大的信息数据库,可以满足任何查询要求。
Web 3.0的主要技术
事实上,今天的人们根本不知道将来技术最终会发展成什么样。以Web 3.0为例,大多数互联网专家对于它的特点比较一致的看法是,Web3.0会为用户带来更丰富、相关度更高的体验。许多专家还认为,借助Web3.0,每个用户会有一个独有的互联网配置文件,该配置文件基于该用户的浏览历史记录。Web3.0会使用该配置文件为每个用户提供独特的浏览体验。这意味着,如果两个不同的人使用相同的服务,用相同的关键字在网上搜索,他们会得到由各自配置文件决定的不同结果。
这种应用所需的技术和软件还没有成熟。美国的TiVO和Pandora等服务提供了基于用户输入的个性化内容,但它们都依赖一种反复试验的方法,这种方法不如专家们所说的Web 3.0高效。更重要的是,TiVO和Pandora的服务范围都很有限:分别是电视节目和音乐,而Web3.0将动用互联网上的所有信息。
一些专家认为,Web3.0的基础将是应用编程接口(API)。API是一种接口,是一组让开发人员可以开发能充分利用某一组资源的应用程序。许多Web2.0网站含有的API让编程人员可以访问网站的独特数据和独特功能。比如,Facebook的API让开发人员开发出以Facebook为平台的程序,提供游戏、智力竞赛、产品评价及更多内容。
有望帮助Web 3.0进入实际应用的一个技术(实际上在Web2.0时代已经出现)是聚合(Mashup)。聚合是指把两个或更多个应用合并成一个应用。比如,开发人员可以把允许用户评价餐馆的程序与谷歌地图(GoogleMaps)组合起来。这个新的聚合应用不但可以显示餐馆信息评价,还能在地图上把餐馆标出来,那样用户就能查看餐馆位置。一些互联网专家认为,开发聚合应用在Web 3.0时代会轻而易举,谁都能开发。
也有一些专家认为,Web3.0会以崭新的面貌出现。它甚至可能不会使用HTML作为基本的编码语言,而是会依赖某种不知其名的新语言。这些专家表示,从头开始可能比试图改变当今的互联网更容易。不过,全新版本的Web 3.0纯属理论阶段,实际上目前还无法知道它会怎样工作。在有互联网之父之称的TimBerners-Lee看来,互联网的未来是语义网(Semantic Web),而许多互联网专家在谈论Web 3.0时也大量借鉴了他的理论。
关联数据(Linked Data): 结构化数据,但不一定是语义数据
关联数据这个概念来自W3C,该组织有一个关联开放数据(LOD)项目。以下图表列出了参与该项目的数据集。其中包括着名的ThomsonReuters的Open Calais项目 , Freebase,和DBpedia。这些数据集是在现有本体论(ontologies)基础之上建立的,如WordNet,FOAF,和SKOS,然后在它们之间建立关联。
构建语义网
TimBerners-Lee于1989年发明了互联网。他发明的互联网其最主要用途是作为统一的界面实现信息的彼此共享。不过,Berners-Lee对Web2.0到底是否存在表示怀疑,认为它只是毫无意义的专业术语。Berners-Lee坚持认为,他发明互联网就是为了能够让这一网络架构能处理Web2.0所能处理的所有任务。Berners-Lee设想未来的互联网与今天的Web 3.0概念很相似。它被称为语义网(Semantic Web)。
简单地说,今天的互联网架构是为方便人使用而设计的。它让我们容易访问网页,理解网页所呈现的一切,而计算机却不能理解。搜索引擎也许能查找关键字,但它理解不了这些关键字在网页语境下是如何使用的。
有了语义网,计算机将使用软件代理来搜索及理解网页上的信息。这些软件代理将是在互联网上搜索相关信息的程序。它们之所以有这种功能,就是因为语义网拥有信息的集合体,这种集合体就叫本体(ontology)。在互联网上,本体其实是一个文件,它定义了一组词语之间的关系。比如,“cousin(堂兄弟、堂姐妹、表兄弟或表姐妹)”这个词语是指有着同一对祖父母或外祖父母的两个人之间的家族关系。语义网本体有可能这样来定义每个家族角色:
◆ 祖父母或外祖父母:主体上两代的直系祖先;
◆ 父母:主体上一代的直系祖先;
◆ 兄弟或姐妹:与主体有着同一对父母的人;
◆ 侄子、外甥或侄女、外甥女:主体的兄弟或姐妹的子女;
◆ 阿姨、姑姑或叔叔、伯伯:主体的父母的姐妹或兄弟;
◆ 堂兄弟、堂姐妹或表兄弟、表姐妹:主体的阿姨、姑姑或叔叔、伯伯的子女。
语义网要发挥应有的功效,本体内容就必须详细而全面。按照Berners-Lee的概念,本体会以元数据(元数据是指网页代码中所含的人类看不见而计算机能读取的信息)的形式而存在。
构建本体需要大量的工作。实际上,这是语义网面临的重大障碍之一。人们是否愿意投入精力为自己的网站构建全面完整的本体?网站变化后,他们会维护本体吗?这些都是语义网构建时需要考虑的问题。批评人士认为,创建及维护语义网这种复杂的任务对大多数人来说工作量太大了。
另一方面,一些人很喜欢给互联网对象和信息做标签或做标记。互联网可以对做了标记的对象或信息进行分类。如果博客含有一个标记选项,这样很容易按特定主题对日志内容进行分类。Flickr等照片共享网站让用户可以对照片做标记。
谷歌甚至把它变成了一款游戏:“Google ImageLabeler”让两个人在做标签比赛中相互较量,看哪个玩家为一系列图像所做的相关标记数量最多。据一些专家声称,Web3.0将来能够搜索标记和标签,并将相关度最高的结果返回给用户。也许Web 3.0会将Berners-Lee的语义网概念与Web2.0的标记文化结合起来。
关于互联网未来的几个猜想
总体来说,Web 3.0还只是处于理论研究阶段,而少有明确的技术出现,但是,这没有阻止人们猜测接下来互联网的未来会走向何方。实际上,在这方面既有保守的预测也有激进的预言,还有听上去更像是科幻电影的大胆猜想。
1. 技术专家NovaSpivack认为,互联网的发展以十年为一个周期。在互联网的头十年,发展重心放在了互联网的后端即基础架构上。编程人员开发出我们用来生成网页的协议和代码语言;在第二个十年,重心转移到了前端,Web2.0时代就此拉开帷幕。现在,人们使用网页作为创建其他应用的平台。他们还开发聚合应用,并且尝试让互联网体验更具互动性的诸多方法。目前我们正处于Web 2.0周期的末端;下一个周期将是Web 3.0,重心会重新转移到后端。编程人员会完善互联网的基础架构,以支持Web3.0浏览器的高级功能。一旦这个阶段告一段落,我们将迈入Web 4.0时代。重心又将回到前端,我们会看到成千上万的新程序使用Web3.0作为基础。
2. 互联网将发展成为一个三维环境。我们将来看到的是Web 3D,而不是Web3.0。互联网把虚拟现实元素与大型多人在线角色扮演游戏的在线世界结合起来,最后可能会变成融入了立体效果的一种数字环境。你可以以第一人的视角或通过你本人的数字化呈现(即化身),徜徉于互联网中。
3. 互联网会立足于分布式计算领域的最新进展,从而实现真正的人工智能。在分布式计算中,几台计算机共同处理一项庞大的处理任务,其中每台计算机负责处理整项任务的一小部分。一些人认为,互联网会拥有思考能力,因为它能把任务分配到成千上万台计算机上,还能查询深层本体。这样互联网实际上会变成一个巨大的大脑组织,能够分析数据,并根据这些信息得出新想法。
4. 访问互联网的设备绝不仅限于计算机和手机。从手表、电视机到衣服,将来一切东西都能连接至互联网。用户将与互联网保持持续不断的连接,反过来也是这样。每个用户的软件代理会以电子方式观察用户的活动,从而了解该用户的更多信息。这可能会引发争论:如何兼顾个人隐私与拥有个性化的互联网浏览体验带来的好处。
5. 互联网会与其他形式的媒体融合,直至各种形式的媒体之间的所有区别都消失。广播节目、电视节目和故事片都将依赖互联网这种内容分发系统。
当然,现在判断这些未来的互联网当中哪些会变成现实还为时过早,也许未来真正的互联网比今天最大胆的预测还来得出人意料。不过,希望等到未来的互联网变成现实时,大家能就它的名称达成一致意见。
⑺ 如何评价季逸超,Peak Labs 和 Magi 搜索引擎
正面评价:
@季逸超 团队的工程能力非常强,少数几个人在一年里可以搭起来可用的demo,水准不输于我见过的任何一个优秀的工程师。有这样高效的团队,相信往后会越来越顺利。
知识图谱的构建和应用也会是文本相关的各种任务上下一个增长点。Google花了很大力气在做,M$也是,学术界对这方面的关注和投入也在持续增长。我相信往后的几年,即使是这块没能出现类似Uber, Airbnb这样的颠覆型产品,起码能把我们日常使用到的各种工具,例如搜索,siri等,的效果提升到一个新的级别。
最后,Maji找准了国内这块市场的空白,抓到了很好的切入点,原先团队的积累也让Magi在资本市场上一帆风顺,最后这个问题和36氪的PR(宣传)也做得很好。例如和PR成功案例,watson,的联系,以及各种超出科研基金申请报告中描绘的科幻远景。这些都是每一个有志创业的年轻人需要思考和学习的。
总之,我觉得magi能成功,以后如果没有被Bai抄了去,就会被Bai买了去。我猜会倾向于买了去,毕竟Bai自己从头开始做,要花的人力成本也不低了。国内也很难找到对应的人才。
同时也有很多怀疑:
疑惑1:
是demo里的那些长query(搜索词条)。长query得理解是非常非常难的问题。更不提理解中文的这种毫无固定格式的问句了。demo中出对几个复杂长query出一些好结果很简单,真正应用做的好么?去试了插件的demo后,我觉得做不好。从demo的效果反推的技术来说,离真的做好demo中提到的那类长query,我个人感觉不是量的差距,是质的差距。
为什么?类比的话,Watson无数工程师,不差钱的IBM毫无业绩要求的完全当做一个PR项目来做,目的就是为了Jeopardy。才能对英语这种,有W和H的显示问句意图表达的语言,且是Jeopardy固定格式的问题,能够做到比较好的效果。这个过程大概花了5年。除了有很多QA领域的专家以外,还有很多工程师的hard code提效果。
而Watson至今离真正商用遥遥无期。我甚至不觉得watson可以真的商用。(我个人对QA的感觉是往后这个东西会真的商用,做到满足大多数日常问答需求。但这个过程可能要5年起步。而且这件事情可能发生在Google,可能在Apple的Siri,也可能是MSR先有paper,但是如果是IBM,我会很吃惊。)
如果Magi能够做到demo中显示的长query的分析效果,甚至不需要做其他的任何事情,就可以有大概让两位创始人一起高科技人才引进的Eb1A类绿卡这种级别的论文,然后也可以被Google,IBM或者Bai二话不说的收购。
所以我觉得要么是Magi的团队是不世出的天才,一年时间,没有用户训练数据,几个人,还是中文,可以做到demo里长query的效果,要么这个就是为了PR目的的夸大。
疑惑2:
Magi所谓的自动从非结构化信息中抽取知识图谱。Magi主页上写的是:
Magi 日益增长的结构化数据库中目前拥有950个大类3300个子类的2100万个对象, 囊括从电子游戏到天体物理、从AV女优到美国总统的方方面面信息, 并抽象出了超过1亿6000万条事实的知识网络
这个效果非常惊人。
非常惊人。
非常惊人。
(重复表示强调)
惊人到什么程度呢?如果这是真的,这950个大类,3399个子类,2100万个对象都是真的可用级别的话,那么:
1,创始人把这个写出来可以拿任何一个相关领域顶会的Best Paper,会成为Information Extraction领域的新的明星。
类比:Open Information Extraction和我们学校的NELL是比较有名的自动从非结构化信息抽取知识图谱的工作。前者是University of Washington at Seattle的,后者是CMU的。两个组光做这两个系统,都做了超过5年。CMU的直接是机器学习系的系主任领头,抓取和分析程序几年来没有停止过,但是还是做不到Magi的1/10的级别,噪声也特别多,尚未达到可用级别。数量和质量都不如直接用Wikipedia的mp。而Wikipedia的对象大概有多少呢?500万左右。
2,Google或者MS会直接愿意买,别的什么都不要,就只是这个系统。
类比:Freebase Freebase (需翻墙...) 是知识图谱里最好用的。2010年Google花了大价钱买了下来。花了多少钱没有公布,但是Freebase之前已经拿了$57M的融资,Google花的钱应该是这个的两倍起,那就是一亿美金往上。
Google买了下来之后花了很多人力去提升Freebase的质量和数量,还有社区的贡献,自动和非自动的方法都上了。4年之后,Freebase的量级是多少呢?
3700万个对象,5亿的事实,77个大类
和几百个小类(具体没有数了)。
而这3700万个对象里面,可用的部分,即信息全面,有名称,文本描述的有多少呢?
还是500万。这是Google和我们组合作发布的网页实体标注里用到的对象集的大小。
而且,这些统计都是英语。
所以如果Magi主页上宣传的是真的,那么几个人,一年时间,通过在已有的Wiki,网络之类的地方之外,在中文这个比英文更难得语言上,做出了超过Google花了$57M以上收购,并作为下一个核心增长点耕耘了4年的Freebase的效果。
同时,甚至可以说Magi凭借几个人的力量,解决了中文分词剩下5%的问题里的一大半,从此中文分词甚至可以说是一个solved problem。众所周知现在分词95%的情况下已经可以做到非常好了,剩下的5%是罕见词的问题。而这里面绝大部分是命名实体,也就是所谓的对象。
而2100万的命名实体是什么概念呢?一般中文分词能够切分出来的词的数量,大概在几十万的量级。在这几十万的基础上,一下子加了2100万的命名实体,想必从此之后:
任何一家中文信息处理公司都基本不用再为分词担心,
所有在线广告可以直接通过这2100万的命名实体效果提升一个量级,
所有中文输入法不会再出现需要一个个选单字的问题,不需要再选择download神马行业词库,只靠这2100万,似乎就够了。
如果这些都是真的话:
跪求公布数据... 跪求深度合作... 跪求不要卖给不开源的黑心大企业。
同时真心为我的怀疑道歉,并求Magi给面试机会......
为了人类文明的进步,前进!前进!前进!
⑻ 什么是知识图谱
知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。