Ⅰ 知識圖譜是什麼有哪些應用價值
知識圖譜 (Knowledge Graph) 是當前的研究熱點。自從2012年Google推出自己第一版知識圖譜以來,它在學術界和工業界掀起了一股熱潮。各大互聯網企業在之後的短短一年內紛紛推出了自己的知識圖譜產品以作為回應。比如在國內,互聯網巨頭網路和搜狗分別推出」知心「和」知立方」來改進其搜索質量。那麼與這些傳統的互聯網公司相比,對處於當今風口浪尖上的行業 - 互聯網金融, 知識圖譜可以有哪方面的應用呢?
目錄
1. 什麼是知識圖譜?
2. 知識圖譜的表示
3. 知識圖譜的存儲
4. 應用
5. 挑戰
6. 結語
1. 什麼是知識圖譜?
知識圖譜本質上是語義網路,是一種基於圖的數據結構,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的「實體」,每條邊為實體與實體之間的「關系」。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網路。知識圖譜提供了從「關系」的角度去分析問題的能力。
知識推理
推理能力是人類智能的重要特徵,使得我們可以從已有的知識中發現隱含的知識, 一般的推理往往需要一些規則的支持【3】。例如「朋友」的「朋友」,可以推理出「朋友」關系,「父親」的「父親」可以推理出「祖父」的關系。再比如張三的朋友很多也是李四的朋友,那我們可以推測張三和李四也很有可能是朋友關系。當然,這里會涉及到概率的問題。當信息量特別多的時候,怎麼把這些信息(side information)有效地與推理演算法結合在一起才是最關鍵的。常用的推理演算法包括基於邏輯(Logic) 的推理和基於分布式表示方法(Distributed Representation)的推理。隨著深度學習在人工智慧領域的地位變得越來越重要,基於分布式表示方法的推理也成為目前研究的熱點。如果有興趣可以參考一下這方面目前的工作進展【4,5,6,7】。
大數據、小樣本、構建有效的生態閉環是關鍵
雖然現在能獲取的數據量非常龐大,我們仍然面臨著小樣本問題,也就是樣本數量少。假設我們需要搭建一個基於機器學習的反欺詐評分系統,我們首先需要一些欺詐樣本。但實際上,我們能拿到的欺詐樣本數量不多,即便有幾百萬個貸款申請,最後被我們標記為欺詐的樣本很可能也就幾萬個而已。這對機器學習的建模提出了更高的挑戰。每一個欺詐樣本我們都是以很高昂的「代價」得到的。隨著時間的推移,我們必然會收集到更多的樣本,但樣本的增長空間還是有局限的。這有區別於傳統的機器學習系統,比如圖像識別,不難拿到好幾十萬甚至幾百萬的樣本。
在這種小樣本條件下,構建有效的生態閉環尤其的重要。所謂的生態閉環,指的是構建有效的自反饋系統使其能夠實時地反饋給我們的模型,並使得模型不斷地自優化從而提升准確率。為了搭建這種自學習系統,我們不僅要完善已有的數據流系統,而且要深入到各個業務線,並對相應的流程進行優化。這也是整個反欺詐環節必要的過程,我們要知道整個過程都充滿著博弈。所以我們需要不斷地通過反饋信號來調整我們的策略。
6. 結語
知識圖譜在學術界和工業界受到越來越多的關注。除了本文中所提到的應用,知識圖譜還可以應用在許可權管理,人力資源管理等不同的領域。在後續的文章中會詳細地講到這方面的應用。
參考文獻
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】劉知遠 知識圖譜——機器大腦中的知識庫 第二章 知識圖譜——機器大腦中的知識庫
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
Ⅱ 北大鄒磊:知識圖譜原理與應用概述(第一講)
這篇筆記來自於北大鄒磊教授的知識圖譜講座
主要內容:
2012年5月16日,Google發布了「知識圖譜」的新一代「智能」搜索功能,第一次提出了「知識圖譜」的概念。
知識圖譜(Knowledge Graph):本質上是基於圖的語義網路,表示實體和實體之間的關系!構建知識圖譜的目的,就是讓機器具備認知能力,理解這個世界。
知識圖譜是Web和大數據時代的知識工程新的發展形態。
知識工程的核心: 知識庫 和 推理引擎
RDF(Resource Description Framework),目前是描述本體的事實標准
RDF定義了一個簡單的模型,用於描述資源,屬性和值之間的關系。資源是可以用URI標識的所有事物,屬性是資源的一個特定的方面或特徵,值可以是另外一個資源,也可以是字元串。總的來說,一個RDF描述就是一個三元組:<主語、謂詞、賓語>
進一步擴展RDFs的詞彙,可聲明 類間互斥關系、屬性的傳遞性等復雜語義 ,支持基於本體的自動推理,提供了一組合適web傳播的描述邏輯的語法,對機器友好,但認知復雜性限制了工程應用。
實體對齊必然涉及到 實體相似度的計算 ,假設兩個實體的記錄x和y,x和y在第i個屬性上的值是xi,yi,那麼需要通過兩步計算:
自然語言處理和知識圖譜研究是雙向互動的關系。
RDF概念很早提出了,但是發展比較緩慢,是因為自然語言處理技術發展較慢,手工建立的數據集比較少,從而影響力較少。隨著機器學習等自然語言處理技術的快速發展提高了信息抽取的效率和准確度,通過技術可以快速建立大規模知識圖譜。
智能問答的方法:
知識圖譜本質上是多關系圖,通常用「 實體 」來表達圖里的結點、用「 關系 」來表達圖里的邊。
基於關系的知識圖譜存儲管理
原生知識圖譜存儲管理--RDF
回答RDF數據上SPARQL查詢==子圖查詢匹配
原生知識圖譜存儲管理--屬性圖
分布式知識圖譜存儲管理:
圖表示學慣用於「自然語言問答」:
1956年達特茅斯會議,提出「人工智慧(Artificial Intelligence, AI)」概念。
「用機器來模仿人類學習以及其他方面的智能」
「上古」流派:符號主義(Symbolism)和連接主義(Connectionism)
符號主義發展歷史:
語義網路(Semantic Network):1970年,Herbert A.Simon正式提出,通過有向圖來表示知識,作為知識表示的一種通用手段。
知識工程(Knowledge Engineering):1977年美國斯坦福大學計算機科學家Edward Albert Feigenbaum教授在第五屆國際人工智慧會議上提出,確立了知識工程在人工智慧中的核心地位。
人工智慧需要機器智能,特別是認知智能,認知智能依賴知識圖譜
知識圖譜脫胎於符號主義;但是和連接主義的結合是目前的重要研究方向(例如知識圖譜的表示學習等)
大數據的特點:多樣化(variety)、規模大(volume)和速度化(velocity)
「世界是普遍聯系的整體,任何事物之間都是相互聯系的」 ---- 馬克思《辯證唯物主義》
「知識圖譜」是面向關聯分析的大數據模型
Ⅲ 知識圖譜概念是什麼
知識圖譜的概念是:知識圖譜是自頂向下(top-down)的構建方式。自頂向下指的是先為知識圖譜定義好本體與數據模式,再將實體加入到知識庫。
該構建方式需要利用一些現有的結構化知識庫作為其基礎知識庫,例如 Freebase 項目就是採用這種方式,它的絕大部分數據是從維基網路中得到的。
然而目前,大多數知識圖譜都採用自底向上(bottom-up)的構建方式。自底向上指的是從一些開放連接數據(也就是 「信息」)中提取出實體,選擇其中置信度較高的加入到知識庫,再構建實體與實體之間的聯系。
知識圖譜的體系架構是:
知識圖譜的架構主要包括自身的邏輯結構以及體系架構。
知識圖譜在邏輯結構上可分為模式層與數據層兩個層次,數據層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。
如果用(實體1,關系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖資料庫作為存儲介質,例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層構建在數據層之上,主要是通過本體庫來規范數據層的一系列事實表達。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強,並且冗餘程度較小。
大規模知識庫的構建與應用需要多種智能信息處理技術的支持。通過知識抽取技術,可以從一些公開的半結構化、非結構化的數據中提取出實體、關系、屬性等知識要素。通過知識融合,可消除實體、關系、屬性等指稱項與事實對象之間的歧義,形成高質量的知識庫。
知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴展知識庫。分布式的知識表示形成的綜合向量對知識庫的構建、推理、融合以及應用均具有重要的意義。
Ⅳ 知識圖譜主要是做什麼的
知識圖譜是以框圖的形式按一定的邏輯關系把相關知識點聯系起來,一方面看現有知識圖譜,更好復習知識內容,另一方面自己畫知識圖譜,整理自己的知識。
Ⅳ 知識圖譜基礎(一)-什麼是知識圖譜
筆者是一隻已經離職的AI產品經理,主要擅長的方向是知識圖譜與自然語言處理,寫這些文章是為了總結歸納目前已經搭建的知識體系,也在於科普。如有不對,請指正。
知識圖譜在國內屬於一個比較新興的概念,國內目前paper都比較少,應用方主要集中在BAT這類手握海量數據的企業,這個概念是google在2012年提出的,當時主要是為了將傳統的keyword-base搜索模型向基於語義的搜索升級。知識圖譜可以用來更好的查詢復雜的關聯信息,從語義層面理解用戶意圖,改進搜索質量。
個人認為,知識圖譜最大的優勢是在於對數據的描述能力非常強大,各種機器學習演算法雖然在預測能力上很不錯,但是在描述能力上非常弱,知識圖譜剛好填補了這部分空缺。
知識圖譜的定義非常多,我這里提供一部分我自己的理解:
1.知識圖譜主要目標是用來描述真實世界中存在的各種實體和概念,以及他們之間的強關系,我們用關系去描述兩個實體之間的關聯,例如姚明和火箭隊之間的關系,他們的屬性,我們就用「屬性--值對「來刻畫它的內在特性,比如說我們的人物,他有年齡、身高、體重屬性。
2.知識圖譜可以通過人為構建與定義,去描述各種概念之間的弱關系,例如:「忘了訂單號」和「找回訂單號」之間的關系
知識庫目前可以分為兩種類型:Curated KBs 和 Extracted KBs
Curated KBs :以yago2和freebase為代表,他們從維基網路和WordNet等知識庫抽取了大量的實體及實體關系,可以把它理解城一種結構化的維基網路。
Extracted KBs :主要是以Open Information Extraction (Open IE), Never-Ending Language Learning (NELL)為代表,他們直接從上億個網頁中抽取實體關系三元組。與freebase相比,這樣得到的實體知識更具有多樣性,而它們的實體關系和實體更多的則是自然語言的形式,如「姚明出生於上海。」 可以被表示為(「Yao Ming」, 「was also born in」, 「Shanghai」)。直接從網頁中抽取出來的知識,也會存在一定的雜訊,其精確度低於Curated KBs。
a)「姚明出生於上海」
b)「姚明是籃球運動員」
c)「姚明是現任中國籃協主席」
以上就是一條條知識,把大量的知識匯聚起來就成為了知識庫(Knowledge Base)。我們可以從wikipedia,網路等網路全書獲取到大量的知識。但是,這些網路全書的知識是由非結構化的自然語言組建而成的,這樣的組織方式很適合人們閱讀但並不適合計算機處理。
為了方便計算機的處理和理解,我們需要更加形式化、簡潔化的方式去表示知識,那就是三元組(triple)。
「姚明出生於中國上海」 可以用三元組表示為(Yao Ming, PlaceOfBirth, Shanghai)[1]。這里我們可以簡單的把三元組理解為(實體entity,實體關系relation,實體entity)。如果我們把實體看作是結點,把實體關系(包括屬性,類別等等)看作是一條邊,那麼包含了大量三元組的知識庫就成為了一個龐大的知識圖。
有些時候會將實體稱為topic,如Justin Bieber。實體關系也可分為兩種,一種是屬性property,一種是關系relation。如下圖所示,屬性和關系的最大區別在於,屬性所在的三元組對應的兩個實體,常常是一個topic和一個字元串,如屬性Type/Gender,對應的三元組(Justin Bieber, Type, Person),而關系所在的三元組所對應的兩個實體,常常是兩個topic。如關系PlaceOfBrith,對應的三元組(Justin Bieber, PlaceOfBrith, London)。
(圖中藍色方塊表示topic,橙色橢圓包括屬性值,它們都屬於知識庫的實體;藍色直線表示關系,橙色直線表示屬性,它們都統稱為知識庫的實體關系,都可以用三元組刻畫實體和實體關系)
這里只是簡單介紹一下數據結構,知識表達這一塊會在《知識圖譜基礎(二)-知識圖譜的知識表達系統》中詳細講解。
讀者只要記住,freebase的基礎知識表達形式:(實體)-[關系]-(實體),(實體)-[關系]-(值)即可,參考圖3,姚明和葉莉的關系。
通過知識圖譜,不僅可以將互聯網的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式。下圖是筆者整理的知識圖譜有關的應用,接下來的一些文章筆者會對下面的應用進行剖析。
從圖4上看,知識圖譜的應用主要集中在搜索與推薦領域,robot(客服機器人,私人助理)是問答系統,本質上也是搜索與推薦的延伸。可能是因為知識圖譜這項技術(特指freebase)誕生之初就是為了解決搜索問題的。知識存儲這一塊可能是企查查和啟信寶這些企業發現使用圖結構的數據比較好清洗加工。
在語義搜索這一塊,知識圖譜的搜索不同於常規的搜索,常規的搜索是根據keyword找到對應的網頁集合,然後通過page rank等演算法去給網頁集合內的網頁進行排名,然後展示給用戶;基於知識圖譜的搜索是在已有的圖譜知識庫中遍歷知識,然後將查詢到的知識返回給用戶,通常如果路徑正確,查詢出來的知識只有1個或幾個,相當精準。
問答系統這一塊,系統同樣會首先在知識圖譜的幫助下對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉化成結構化形式的查詢語句,然後在知識圖譜中查詢答案。