知识图谱存储研究_知识图谱主要是做什么的

Ⅰ 知识图谱是什么有哪些应用价值

知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来，它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内，互联网巨头网络和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比，对处于当今风口浪尖上的行业 - 互联网金融，知识图谱可以有哪方面的应用呢？

目录
1. 什么是知识图谱？
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语

1. 什么是知识图谱？

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识推理

推理能力是人类智能的重要特征，使得我们可以从已有的知识中发现隐含的知识，一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”，可以推理出“朋友”关系，“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友，那我们可以推测张三和李四也很有可能是朋友关系。当然，这里会涉及到概率的问题。当信息量特别多的时候，怎么把这些信息（side information）有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑（Logic）的推理和基于分布式表示方法（Distributed Representation）的推理。随着深度学习在人工智能领域的地位变得越来越重要，基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

虽然现在能获取的数据量非常庞大，我们仍然面临着小样本问题，也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统，我们首先需要一些欺诈样本。但实际上，我们能拿到的欺诈样本数量不多，即便有几百万个贷款申请，最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移，我们必然会收集到更多的样本，但样本的增长空间还是有局限的。这有区别于传统的机器学习系统，比如图像识别，不难拿到好几十万甚至几百万的样本。

在这种小样本条件下，构建有效的生态闭环尤其的重要。所谓的生态闭环，指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型，并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统，我们不仅要完善已有的数据流系统，而且要深入到各个业务线，并对相应的流程进行优化。这也是整个反欺诈环节必要的过程，我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

6. 结语

知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用，知识图谱还可以应用在权限管理，人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】刘知远知识图谱——机器大脑中的知识库第二章知识图谱——机器大脑中的知识库

【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

Ⅱ 北大邹磊：知识图谱原理与应用概述（第一讲）

这篇笔记来自于北大邹磊教授的知识图谱讲座

主要内容：

2012年5月16日，Google发布了“知识图谱”的新一代“智能”搜索功能，第一次提出了“知识图谱”的概念。

知识图谱（Knowledge Graph）：本质上是基于图的语义网络，表示实体和实体之间的关系！构建知识图谱的目的，就是让机器具备认知能力，理解这个世界。

知识图谱是Web和大数据时代的知识工程新的发展形态。
知识工程的核心： 知识库 和 推理引擎

RDF（Resource Description Framework），目前是描述本体的事实标准
RDF定义了一个简单的模型，用于描述资源，属性和值之间的关系。资源是可以用URI标识的所有事物，属性是资源的一个特定的方面或特征，值可以是另外一个资源，也可以是字符串。总的来说，一个RDF描述就是一个三元组：<主语、谓词、宾语>

进一步扩展RDFs的词汇，可声明 类间互斥关系、属性的传递性等复杂语义 ，支持基于本体的自动推理，提供了一组合适web传播的描述逻辑的语法，对机器友好，但认知复杂性限制了工程应用。

实体对齐必然涉及到 实体相似度的计算 ，假设两个实体的记录x和y，x和y在第i个属性上的值是xi，yi，那么需要通过两步计算：

自然语言处理和知识图谱研究是双向互动的关系。

RDF概念很早提出了，但是发展比较缓慢，是因为自然语言处理技术发展较慢，手工建立的数据集比较少，从而影响力较少。随着机器学习等自然语言处理技术的快速发展提高了信息抽取的效率和准确度，通过技术可以快速建立大规模知识图谱。

智能问答的方法：

知识图谱本质上是多关系图，通常用“ 实体 ”来表达图里的结点、用“ 关系 ”来表达图里的边。

基于关系的知识图谱存储管理

原生知识图谱存储管理--RDF
回答RDF数据上SPARQL查询==子图查询匹配

原生知识图谱存储管理--属性图

分布式知识图谱存储管理：

图表示学习用于“自然语言问答”：

1956年达特茅斯会议，提出“人工智能（Artificial Intelligence, AI）”概念。
“用机器来模仿人类学习以及其他方面的智能”
“上古”流派：符号主义（Symbolism）和连接主义（Connectionism）

符号主义发展历史：

语义网络（Semantic Network）：1970年，Herbert A.Simon正式提出，通过有向图来表示知识，作为知识表示的一种通用手段。
知识工程（Knowledge Engineering）：1977年美国斯坦福大学计算机科学家Edward Albert Feigenbaum教授在第五届国际人工智能会议上提出，确立了知识工程在人工智能中的核心地位。

人工智能需要机器智能，特别是认知智能，认知智能依赖知识图谱

知识图谱脱胎于符号主义；但是和连接主义的结合是目前的重要研究方向（例如知识图谱的表示学习等）

大数据的特点：多样化（variety）、规模大（volume）和速度化（velocity）
“世界是普遍联系的整体，任何事物之间都是相互联系的” ---- 马克思《辩证唯物主义》
“知识图谱”是面向关联分析的大数据模型

Ⅲ 知识图谱概念是什么

知识图谱的概念是：知识图谱是自顶向下(top-down)的构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式，再将实体加入到知识库。

该构建方式需要利用一些现有的结构化知识库作为其基础知识库，例如 Freebase 项目就是采用这种方式，它的绝大部分数据是从维基网络中得到的。

然而目前，大多数知识图谱都采用自底向上(bottom-up)的构建方式。自底向上指的是从一些开放连接数据（也就是 “信息”）中提取出实体，选择其中置信度较高的加入到知识库，再构建实体与实体之间的联系。

知识图谱的体系架构是：

知识图谱的架构主要包括自身的逻辑结构以及体系架构。

知识图谱在逻辑结构上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。

如果用（实体1，关系，实体2）、（实体、属性，属性值）这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。

模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

大规模知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术，可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合，可消除实体、关系、属性等指称项与事实对象之间的歧义，形成高质量的知识库。

知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

Ⅳ 知识图谱主要是做什么的

知识图谱是以框图的形式按一定的逻辑关系把相关知识点联系起来，一方面看现有知识图谱，更好复习知识内容，另一方面自己画知识图谱，整理自己的知识。

Ⅳ 知识图谱基础（一）-什么是知识图谱

笔者是一只已经离职的AI产品经理，主要擅长的方向是知识图谱与自然语言处理，写这些文章是为了总结归纳目前已经搭建的知识体系，也在于科普。如有不对，请指正。

知识图谱在国内属于一个比较新兴的概念，国内目前paper都比较少，应用方主要集中在BAT这类手握海量数据的企业，这个概念是google在2012年提出的，当时主要是为了将传统的keyword-base搜索模型向基于语义的搜索升级。知识图谱可以用来更好的查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。

个人认为，知识图谱最大的优势是在于对数据的描述能力非常强大，各种机器学习算法虽然在预测能力上很不错，但是在描述能力上非常弱，知识图谱刚好填补了这部分空缺。

知识图谱的定义非常多，我这里提供一部分我自己的理解：

1.知识图谱主要目标是用来描述真实世界中存在的各种实体和概念，以及他们之间的强关系，我们用关系去描述两个实体之间的关联，例如姚明和火箭队之间的关系，他们的属性，我们就用“属性--值对“来刻画它的内在特性，比如说我们的人物，他有年龄、身高、体重属性。

2.知识图谱可以通过人为构建与定义，去描述各种概念之间的弱关系，例如：“忘了订单号”和“找回订单号”之间的关系

知识库目前可以分为两种类型：Curated KBs 和 Extracted KBs

Curated KBs ：以yago2和freebase为代表，他们从维基网络和WordNet等知识库抽取了大量的实体及实体关系，可以把它理解城一种结构化的维基网络。

Extracted KBs ：主要是以Open Information Extraction (Open IE), Never-Ending Language Learning (NELL)为代表，他们直接从上亿个网页中抽取实体关系三元组。与freebase相比，这样得到的实体知识更具有多样性，而它们的实体关系和实体更多的则是自然语言的形式，如“姚明出生于上海。” 可以被表示为(“Yao Ming”, “was also born in”, “Shanghai”)。直接从网页中抽取出来的知识，也会存在一定的噪声，其精确度低于Curated KBs。

a)“姚明出生于上海”

b)“姚明是篮球运动员”

c)“姚明是现任中国篮协主席”

以上就是一条条知识，把大量的知识汇聚起来就成为了知识库（Knowledge Base）。我们可以从wikipedia，网络等网络全书获取到大量的知识。但是，这些网络全书的知识是由非结构化的自然语言组建而成的，这样的组织方式很适合人们阅读但并不适合计算机处理。

为了方便计算机的处理和理解，我们需要更加形式化、简洁化的方式去表示知识，那就是三元组（triple）。

“姚明出生于中国上海” 可以用三元组表示为(Yao Ming, PlaceOfBirth, Shanghai)[1]。这里我们可以简单的把三元组理解为(实体entity,实体关系relation,实体entity)。如果我们把实体看作是结点，把实体关系（包括属性，类别等等）看作是一条边，那么包含了大量三元组的知识库就成为了一个庞大的知识图。

有些时候会将实体称为topic，如Justin Bieber。实体关系也可分为两种，一种是属性property，一种是关系relation。如下图所示，属性和关系的最大区别在于，属性所在的三元组对应的两个实体，常常是一个topic和一个字符串，如属性Type/Gender，对应的三元组（Justin Bieber, Type, Person），而关系所在的三元组所对应的两个实体，常常是两个topic。如关系PlaceOfBrith，对应的三元组（Justin Bieber, PlaceOfBrith, London）。

（图中蓝色方块表示topic，橙色椭圆包括属性值，它们都属于知识库的实体；蓝色直线表示关系，橙色直线表示属性，它们都统称为知识库的实体关系，都可以用三元组刻画实体和实体关系）

这里只是简单介绍一下数据结构，知识表达这一块会在《知识图谱基础（二）-知识图谱的知识表达系统》中详细讲解。

读者只要记住，freebase的基础知识表达形式：(实体)-[关系]-(实体)，(实体)-[关系]-(值)即可，参考图3，姚明和叶莉的关系。

通过知识图谱，不仅可以将互联网的信息表达成更接近人类认知世界的形式，而且提供了一种更好的组织、管理和利用海量信息的方式。下图是笔者整理的知识图谱有关的应用，接下来的一些文章笔者会对下面的应用进行剖析。

从图4上看，知识图谱的应用主要集中在搜索与推荐领域，robot（客服机器人，私人助理）是问答系统，本质上也是搜索与推荐的延伸。可能是因为知识图谱这项技术（特指freebase）诞生之初就是为了解决搜索问题的。知识存储这一块可能是企查查和启信宝这些企业发现使用图结构的数据比较好清洗加工。

在语义搜索这一块，知识图谱的搜索不同于常规的搜索，常规的搜索是根据keyword找到对应的网页集合，然后通过page rank等算法去给网页集合内的网页进行排名，然后展示给用户；基于知识图谱的搜索是在已有的图谱知识库中遍历知识，然后将查询到的知识返回给用户，通常如果路径正确，查询出来的知识只有1个或几个，相当精准。

问答系统这一块，系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析，进而将其转化成结构化形式的查询语句，然后在知识图谱中查询答案。

知识图谱存储研究

与知识图谱存储研究相关的内容