⑴ oracle資料庫怎麼將起動文件和數據文件分開安裝
啟動文件?也行你想說的是安裝的software.
數據文件可以在運行dbca 起來的界面裡面指定存儲類型。如文件系統,raw,ASM等。
oraclefreebase 交流群/社區
⑵ freebase資料庫的結構組織方式謝謝
好好看書,沒事去圖書館或者GOOGLE,o(╯□╰)o
⑶ 知識有什麼用
「知識圖譜的應用涉及到眾多行業,尤其是知識密集型行業,目前關注度比較高的領域:醫療、金融、法律、電商、智能家電等。」基於信息、知識和智能形成的閉環,從信息中獲取知識,基於知識開發智能應用,智能應用產生新的信息,從新的信息中再獲取新的知識,不斷迭代,就可以不斷產生更加豐富的知識圖譜,更加智能的應用。
如果說波士頓動力的翻跟頭是在幫機器人鍛煉筋骨,那麼知識圖譜的「繪制」則是在試圖「創造」一個能運轉的機器人大腦。
「目前,還不能做到讓機器理解人的語言。」中國科學院軟體所研究員、中國中文信息學會副理事長孫樂說。無論是能逗你一樂的Siri,還是會做詩的小冰,亦或是會「懸絲診脈」的沃森,它們並不真正明白自己在做什麼、為什麼這么做。
讓機器學會思考,要靠「譜」。這個「譜」被稱為知識圖譜,意在將人類世界中產生的知識,構建在機器世界中,進而形成能夠支撐類腦推理的知識庫。
為了在國內構建一個關於知識圖譜的全新產學合作模式,知識圖譜研討會日前召開,來自高校院所的研究人員與產業團隊共商打造全球化的知識圖譜體系,建立世界領先的人工智慧基礎設施的開拓性工作。
技術原理:把文本轉化成知識
「對於『姚明是上海人』這樣一個句子,存儲在機器里只是一串字元。而這串字元在人腦中卻是『活』起來的。」孫樂舉例說。比如說到「姚明」,人會想到他是前美職籃球員、「小巨人」、中鋒等,而「上海」會讓人想到東方明珠、繁華都市等含義。但對於機器來說,僅僅說「姚明是上海人」,它不能和人類一樣明白其背後的含義。機器理解文本,首先就需要了解背景知識。
那如何將文本轉化成知識呢?
「藉助信息抽取技術,人們可以從文本中抽取知識,這也正是知識圖譜構建的核心技術。」孫樂說,目前比較流行的是使用「三元組」的存儲方式。三元組由兩個點、一條邊構成,點代表實體或者概念,邊代表實體與概念之間的各種語義關系。一個點可以延伸出多個邊,構成很多關系。例如姚明這個點,可以和上海構成出生地的關系,可以和美職籃構成效力關系,還可以和2.26米構成身高關系。
「如果這些關系足夠完善,機器就具備了理解語言的基礎。」孫樂說。那麼如何讓機器擁有這樣的「理解力」呢?
「上世紀六十年代,人工智慧先驅麻省理工學院的馬文·明斯基在一個問答系統項目SIR中,使用了實體間語義關系來表示問句和答案的語義,劍橋語言研究部門的瑪格麗特·瑪斯特曼在1961年使用Semantic Network來建模世界知識,這些都可被看作是知識圖譜的前身。」孫樂說。
隨後的Wordnet、中國的知網(Hownet)也進行了人工構建知識庫的工作。
「這里包括主觀知識,比如社交網站上人們對某個產品的態度是喜歡還是不喜歡;場景知識,比如在某個特定場景中應該怎麼做;語言知識,例如各種語言語法;常識知識,例如水、貓、狗,教人認的時候可以直接指著教,卻很難讓計算機明白。」孫樂解釋,從這些初步的分類中就能感受到知識的海量,更別說那些高層次的科學知識了。
構建方式:從手工勞動到自動抽取
「2010年之後,維基網路開始嘗試『眾包』的方式,每個人都能夠貢獻知識。」孫樂說,這讓知識圖譜的積累速度大大增加,後續網路、互動網路等也採取了類似的知識搜集方式,發動公眾使得「積沙」這個環節的時間大大縮短、效率大大增加,無數的知識從四面八方趕來,迅速集聚,只待「成塔」。
面對如此大量的數據,或者說「文本」,知識圖譜的構建工作自然不能再手工勞動,「讓機器自動抽取結構化的知識,自動生成『三元組』。」孫樂說,學術界和產業界開發出了不同的構架、體系,能夠自動或半自動地從文本中生成機器可識別的知識。
孫樂的演示課件中,有一張生動的圖畫,一大摞文件紙吃進去,電腦馬上轉化為「知識」,但事實遠沒有那麼簡單。自動抽取結構化數據在不同行業還沒有統一的方案。在「網路知識圖譜」的介紹中這樣寫道:對提交至知識圖譜的數據轉換為遵循Schema的實體對象,並進行統一的數據清洗、對齊、融合、關聯等知識計算,完成圖譜的構建。「但是大家發現,基於維基網路,結構化半結構化數據挖掘出來的知識圖譜還是不夠,因此目前所有的工作都集中在研究如何從海量文本中抽取知識。」孫樂說,例如谷歌的Knowledge Vault,以及美國國家標准與技術研究院主辦的TAC-KBP評測,也都在推進從文本中抽取知識的技術。
在權威的「知識庫自動構建國際評測」中,從文本中抽取知識被分解為實體發現、關系抽取、事件抽取、情感抽取等4部分。在美國NIST組織的TAC-KBP中文評測中,中科院軟體所—搜狗聯合團隊獲得綜合性能指標第3名,事件抽取單項指標第1名的好成績。
「我國在這一領域可以和國際水平比肩。」孫樂介紹,中科院軟體所提出了基於Co-Bootstrapping的實體獲取演算法,基於多源知識監督的關系抽取演算法等,大幅度降低了文本知識抽取工具構建模型的成本,並提升了性能。
終極目標:將人類知識全部結構化
《聖經·舊約》記載,人類聯合起來興建希望能通往天堂的高塔——「巴別塔」,而今,創造AI的人類正在建造這樣一座「巴別塔」,幫助人工智慧企及人類智能。
自動的做法讓知識量開始形成規模,達到了能夠支持實際應用的量級。「但是這種轉化,還遠遠未達到人類的知識水平。」孫樂說,何況人類的知識一直在增加、更新,一直在動態變化,理解也應該與時俱進地體現在機器「腦」中。
「因此知識圖譜不會是一個靜止的狀態,而是要形成一個循環,這也是美國卡耐基梅隆大學等地方提出來的Never Ending Learning(學無止境)的概念。」孫樂說。
資料顯示,目前谷歌知識圖譜中記載了超過35億事實;Freebase中記載了4000多萬實體,上萬個屬性關系,24億多個事實;網路記錄詞條數1000萬個,網路搜索中應用了聯想搜索功能。
「在醫學領域、人物關系等特定領域,也有專門的知識圖譜。」孫樂介紹,Kinships描述人物之間的親屬關系,104個實體,26種關系,10800個事實;UMLS在醫學領域描述了醫學概念之間的聯系,135個實體,49種關系,6800個事實。
「這是一幅充滿美好前景的宏偉藍圖。」孫樂說,知識圖譜的最終目標是將人類的知識全部形式化、結構化,並用於構建基於知識的自然語言理解系統。
盡管令業內滿意的「真正理解語言的系統」還遠未出現,目前的「巴別塔」還只是在基礎層面,但相關的應用已經顯示出廣闊的前景。例如,在網路輸入「冷凍電鏡」,右豎條的關聯將出現「施一公」,輸入「撒幣」,將直接在搜索項中出現「王思聰」等相關項。其中蘊含著機器對人類意圖的理解。
⑷ 知識圖譜有什麼用處
知識圖譜 (Knowledge Graph) 是當前的研究熱點。自從2012年Google推出自己第一版知識圖譜以來,它在學術界和工業界掀起了一股熱潮。各大互聯網企業在之後的短短一年內紛紛推出了自己的知識圖譜產品以作為回應。比如在國內,互聯網巨頭網路和搜狗分別推出」知心「和」知立方」來改進其搜索質量。那麼與這些傳統的互聯網公司相比,對處於當今風口浪尖上的行業 - 互聯網金融, 知識圖譜可以有哪方面的應用呢?
目錄
1. 什麼是知識圖譜?
2. 知識圖譜的表示
3. 知識圖譜的存儲
4. 應用
5. 挑戰
6. 結語
1. 什麼是知識圖譜?
知識圖譜本質上是語義網路,是一種基於圖的數據結構,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的「實體」,每條邊為實體與實體之間的「關系」。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網路。知識圖譜提供了從「關系」的角度去分析問題的能力。
知識推理
推理能力是人類智能的重要特徵,使得我們可以從已有的知識中發現隱含的知識, 一般的推理往往需要一些規則的支持【3】。例如「朋友」的「朋友」,可以推理出「朋友」關系,「父親」的「父親」可以推理出「祖父」的關系。再比如張三的朋友很多也是李四的朋友,那我們可以推測張三和李四也很有可能是朋友關系。當然,這里會涉及到概率的問題。當信息量特別多的時候,怎麼把這些信息(side information)有效地與推理演算法結合在一起才是最關鍵的。常用的推理演算法包括基於邏輯(Logic) 的推理和基於分布式表示方法(Distributed Representation)的推理。隨著深度學習在人工智慧領域的地位變得越來越重要,基於分布式表示方法的推理也成為目前研究的熱點。如果有興趣可以參考一下這方面目前的工作進展【4,5,6,7】。
大數據、小樣本、構建有效的生態閉環是關鍵
雖然現在能獲取的數據量非常龐大,我們仍然面臨著小樣本問題,也就是樣本數量少。假設我們需要搭建一個基於機器學習的反欺詐評分系統,我們首先需要一些欺詐樣本。但實際上,我們能拿到的欺詐樣本數量不多,即便有幾百萬個貸款申請,最後被我們標記為欺詐的樣本很可能也就幾萬個而已。這對機器學習的建模提出了更高的挑戰。每一個欺詐樣本我們都是以很高昂的「代價」得到的。隨著時間的推移,我們必然會收集到更多的樣本,但樣本的增長空間還是有局限的。這有區別於傳統的機器學習系統,比如圖像識別,不難拿到好幾十萬甚至幾百萬的樣本。
在這種小樣本條件下,構建有效的生態閉環尤其的重要。所謂的生態閉環,指的是構建有效的自反饋系統使其能夠實時地反饋給我們的模型,並使得模型不斷地自優化從而提升准確率。為了搭建這種自學習系統,我們不僅要完善已有的數據流系統,而且要深入到各個業務線,並對相應的流程進行優化。這也是整個反欺詐環節必要的過程,我們要知道整個過程都充滿著博弈。所以我們需要不斷地通過反饋信號來調整我們的策略。
6. 結語
知識圖譜在學術界和工業界受到越來越多的關注。除了本文中所提到的應用,知識圖譜還可以應用在許可權管理,人力資源管理等不同的領域。在後續的文章中會詳細地講到這方面的應用。
參考文獻
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】劉知遠 知識圖譜——機器大腦中的知識庫 第二章 知識圖譜——機器大腦中的知識庫
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
⑸ 人工智慧理解自然語言的原理是什麼
Siri,是一個復雜的系統,是由語音識別,語義分析,知識庫,搜索等不同的模塊構成的。涉及到很多方面的知識。英文中它叫做Natural Language Understanding. 斯坦福大學的這門課是關於這個的,比較全面的介紹了不同的知識。自然語言理解中還有一個比較重要的就是語義的理解,可以研究Computational semantics相關的內容。TFIDF是信息檢索中常用的基於統計的方法,雖然在文檔檢索中有很好的表現,但是在語義分析中並不是很有效。相比之下,LSA也是基於統計的,可能更好一點。也有用topic model來做語義分析的,比如LDA演算法。個人比較看好結合知識庫和統計的方法,Watson就結合了知識庫,谷歌的Knowledge Graph就是一個知識庫,它是以freebase為基礎的,有一個不錯的免費的知識庫叫DBpedia,它是基於wikipedia的。
⑹ 計算機網路 什麼是web代理它的作用是什麼
Web 3.0是否會引發新一輪革命?與Web 2.0時代使用互聯網是為了把人與人聯系起來不同,在Web 3.0時代使用互聯網是為了把信息與信息聯系起來,並且能夠利用這些信息結合你的個人偏好來回答你提出的各種問題。
你准備去看場電影,然後吃點東西填填肚子。你偏愛喜劇電影和辛辣的墨西哥菜,於是你啟動計算機,打開網路瀏覽器,進入到谷歌搜索引擎,搜索影院、電影和餐館等方面的信息。
你需要知道附近的影院正在上映哪些電影並了解這個電影的主要內容,於是快速瀏覽了一下每部影片的簡介以選擇究竟要看哪部電影。你還要看看這些影院附近各自有哪些墨西哥菜餐館,以及其他顧客對這些餐館的評價。這樣下來,為了這次出行你出門之前總共要訪問五六個網站。
在互聯網日益普及的今天,這些上網行為都是再普通不過的。但是,隨著互聯網進入Web 2.0以及未來的Web 3.0時代,同樣都是訪問網站,個人體驗卻完全不同,特別是在Web 3.0時代。
一些互聯網專家認為,下一代互聯網Web 3.0可以讓你更快速、更輕松地完成諸如搜索電影和餐館這些任務。你不再需要搜索好多次,也不要往Web 3.0瀏覽器中輸入很多關鍵字,只要一兩句較復雜的語句,網路就會自動幫你完成其餘工作。
比如,你可以輸入「我想看一部有趣的電影,然後到一家不賴的墨西哥菜餐館吃飯。我有哪些選擇?」接下來Web 3.0瀏覽器會分析你輸入的問題,在網上搜索所有可能合適的答案,然後整理好結果提供給你。
當然,這並不是Web 3.0的全部本領。許多互聯網專家認為,Web 3.0瀏覽器可充當私人助理。當你在網上搜索時,瀏覽器會逐漸了解你對什麼感興趣。你越是能經常使用互聯網,瀏覽器就越了解你,那樣即使你提出的問題很籠統,網路也可以給你很滿意的答復。
你甚至可以向瀏覽器提出這樣的開放性問題:「我該上哪裡吃午飯?」瀏覽器會查閱你喜歡什麼、不喜歡什麼的記錄,並結合你目前所在位置,然後推薦一系列餐館。盡管人們對Web 2.0的認識還處於眾說紛紜狀態,但性急的互聯網專家已經提出了Web 3.0。實際上,繼Web 2.0之後,Web3.0成為互聯網專家們熱議的新話題。
從Web 2.0到Web 3.0
在普通大眾所熟悉的眾多關於互聯網的時髦詞彙和專業術語之中,最有名的恐怕非「Web 2.0」莫屬。然而,盡管許多人聽說過Web 2.0,但真正了解其含義的人並不多。有的人認為,這個術語本身只是一種推銷手段而已,目的在於吸引風險投資者,好讓他們往網站投入巨資。
沒錯,從著名計算機圖書出版公司O'Reilly Media的Dale Dougherty首次提出這個術語以來,何謂Web2.0其實一直沒有明確的定義,甚至連Web 1.0至今也沒有一致意見。而另一些人認為,Web 2.0是實際存在的,Web 2.0的特點,包括:
1. 訪客能夠對網頁進行修改。比如,亞馬遜網站允許訪客發布產品評述,訪客可以使用網上表單把信息添加到亞馬遜的網頁上,以便將來的訪客能夠閱讀。
2. 可使用網頁把你與其他用戶聯系起來。Facebook和MySpace等社交網路網站之所以大受歡迎,就是因為它們便於用戶找到對方、保持聯絡。
3. 提供了快速、高效地共享內容的方法。YouTube就是一個典例例子,YouTube會員製作好視頻後,即可上傳到網站上,供別人觀看,整個過程不到一個小時。
4. 提供了獲得信息的新方法。如今,廣大網民可以訂閱網頁的真正簡單聚合(RSS)新聞源,只要保持互聯網連接,就能收到關於該網頁上所有最新信息的通知。
5. 訪問互聯網的設備不局限於計算機。現在許多人通過手機或電子游戲機來訪問互聯網。一些專家預計,不久之後,消費者通過電視機及其他設備來訪問互聯網也將成為一件很普通的事。
通俗地說,Web 1.0就好比是圖書館。你可以把它當做信息來源來使用,但是無法以任何方式來添加或改動信息;Web 2.0則像是一個龐大的朋友和熟人圈子。雖然你仍可以用它來獲得信息,而更重要的是可以參與到會話中,讓會話變成一種更豐富的體驗。
盡管到目前為止,還有很多人不太清楚Web 2.0到底是什麼,但另一些人卻已經在開始考慮接下來會出現什麼:Web 3.0會是什麼樣?它與我們今天的互聯網有何不同?它到底會是革命性的劇變,還是潛移默化的量變以至於我們甚至注意不到什麼區別?
認識Web 3.0
互聯網專家們認為,對於普通用戶而言,Web 3.0帶來的最大好處就是讓你擁有了一個貼身的私人助理。根據專家們的觀點,Web3.0時代網路對你無所不知,能夠自主地查詢互聯網上的所有信息來回答任何問題。許多專家把Web 3.0比做是龐大的資料庫。Web2.0使用互聯網是為了把人與人聯系起來,而Web 3.0使用互聯網是為了把信息與信息聯系起來。一些專家認為Web3.0會取代目前的互聯網,另一些專家則認為它將作為獨立的網路而存在。
還是用一個例子來說明Web 2.0與Web3.0的異同。假設你正考慮去休假,想去熱帶地區,為這趟旅行你准備了3000美元的預算。你想住在好的酒店,又不想太花錢,還想要一張便宜的機票。藉助目前可以使用的互聯網技術,你不得不多次搜索以便找到最佳的休假選擇:你需要研究潛在的目的地,然後確定哪個適合自己;你還可能要訪問若干個折扣旅遊網站,然後比較機票和酒店客房的價格;最後,你還要把很多時間花在查閱各個搜索引擎結果網頁的結果上,整個過程可能要花好幾個小時。
而在一些互聯網專家看來,在Web3.0時代你只要發出一個很簡單的指令,剩下的事情則交給互聯網,互聯網完全可以替你做所有工作:它會根據你的偏好確定搜索參數,以縮小搜索服務的范圍。然後,瀏覽器程序會收集並分析數據並提供給你,便於你進行比較。瀏覽器之所以有這個本領,是因為Web 3.0能夠理解網上的信息。
今天,你使用互聯網搜索引擎時,搜索引擎其實並不真正理解你要搜索的東西。它只是簡單地查找出現搜索框中的關鍵字的眾多網頁,而無法告訴某網頁是不是真與你搜索的東西相關。換句話說,它只能告訴你,關鍵字出現在該網頁上。比如,搜索的是「土星」這個詞,最後會得到有關土星的網頁搜索結果和有關汽車生產商土星公司的其他搜索結果。
而Web3.0搜索引擎不但能找到出現搜索詞中的關鍵字的網頁,還能理解你搜索請求的具體語境。它會返回相關結果,並建議關注與搜索詞有關的其他內容。在本文的休假例子中,如果你輸入「熱帶休假目的地,預算不到3000美元」這個搜索請求,Web3.0瀏覽器可能會提供一份與搜索結果有關的趣味活動或美味餐館列表。它會把整個互聯網視做一個龐大的信息資料庫,可以滿足任何查詢要求。
Web 3.0的主要技術
事實上,今天的人們根本不知道將來技術最終會發展成什麼樣。以Web 3.0為例,大多數互聯網專家對於它的特點比較一致的看法是,Web3.0會為用戶帶來更豐富、相關度更高的體驗。許多專家還認為,藉助Web3.0,每個用戶會有一個獨有的互聯網配置文件,該配置文件基於該用戶的瀏覽歷史記錄。Web3.0會使用該配置文件為每個用戶提供獨特的瀏覽體驗。這意味著,如果兩個不同的人使用相同的服務,用相同的關鍵字在網上搜索,他們會得到由各自配置文件決定的不同結果。
這種應用所需的技術和軟體還沒有成熟。美國的TiVO和Pandora等服務提供了基於用戶輸入的個性化內容,但它們都依賴一種反復試驗的方法,這種方法不如專家們所說的Web 3.0高效。更重要的是,TiVO和Pandora的服務范圍都很有限:分別是電視節目和音樂,而Web3.0將動用互聯網上的所有信息。
一些專家認為,Web3.0的基礎將是應用編程介面(API)。API是一種介面,是一組讓開發人員可以開發能充分利用某一組資源的應用程序。許多Web2.0網站含有的API讓編程人員可以訪問網站的獨特數據和獨特功能。比如,Facebook的API讓開發人員開發出以Facebook為平台的程序,提供游戲、智力競賽、產品評價及更多內容。
有望幫助Web 3.0進入實際應用的一個技術(實際上在Web2.0時代已經出現)是聚合(Mashup)。聚合是指把兩個或更多個應用合並成一個應用。比如,開發人員可以把允許用戶評價餐館的程序與谷歌地圖(GoogleMaps)組合起來。這個新的聚合應用不但可以顯示餐館信息評價,還能在地圖上把餐館標出來,那樣用戶就能查看餐館位置。一些互聯網專家認為,開發聚合應用在Web 3.0時代會輕而易舉,誰都能開發。
也有一些專家認為,Web3.0會以嶄新的面貌出現。它甚至可能不會使用HTML作為基本的編碼語言,而是會依賴某種不知其名的新語言。這些專家表示,從頭開始可能比試圖改變當今的互聯網更容易。不過,全新版本的Web 3.0純屬理論階段,實際上目前還無法知道它會怎樣工作。在有互聯網之父之稱的TimBerners-Lee看來,互聯網的未來是語義網(Semantic Web),而許多互聯網專家在談論Web 3.0時也大量借鑒了他的理論。
關聯數據(Linked Data): 結構化數據,但不一定是語義數據
關聯數據這個概念來自W3C,該組織有一個關聯開放數據(LOD)項目。以下圖表列出了參與該項目的數據集。其中包括著名的ThomsonReuters的Open Calais項目 , Freebase,和DBpedia。這些數據集是在現有本體論(ontologies)基礎之上建立的,如WordNet,FOAF,和SKOS,然後在它們之間建立關聯。
構建語義網
TimBerners-Lee於1989年發明了互聯網。他發明的互聯網其最主要用途是作為統一的界面實現信息的彼此共享。不過,Berners-Lee對Web2.0到底是否存在表示懷疑,認為它只是毫無意義的專業術語。Berners-Lee堅持認為,他發明互聯網就是為了能夠讓這一網路架構能處理Web2.0所能處理的所有任務。Berners-Lee設想未來的互聯網與今天的Web 3.0概念很相似。它被稱為語義網(Semantic Web)。
簡單地說,今天的互聯網架構是為方便人使用而設計的。它讓我們容易訪問網頁,理解網頁所呈現的一切,而計算機卻不能理解。搜索引擎也許能查找關鍵字,但它理解不了這些關鍵字在網頁語境下是如何使用的。
有了語義網,計算機將使用軟體代理來搜索及理解網頁上的信息。這些軟體代理將是在互聯網上搜索相關信息的程序。它們之所以有這種功能,就是因為語義網擁有信息的集合體,這種集合體就叫本體(ontology)。在互聯網上,本體其實是一個文件,它定義了一組詞語之間的關系。比如,「cousin(堂兄弟、堂姐妹、表兄弟或表姐妹)」這個詞語是指有著同一對祖父母或外祖父母的兩個人之間的家族關系。語義網本體有可能這樣來定義每個家族角色:
◆ 祖父母或外祖父母:主體上兩代的直系祖先;
◆ 父母:主體上一代的直系祖先;
◆ 兄弟或姐妹:與主體有著同一對父母的人;
◆ 侄子、外甥或侄女、外甥女:主體的兄弟或姐妹的子女;
◆ 阿姨、姑姑或叔叔、伯伯:主體的父母的姐妹或兄弟;
◆ 堂兄弟、堂姐妹或表兄弟、表姐妹:主體的阿姨、姑姑或叔叔、伯伯的子女。
語義網要發揮應有的功效,本體內容就必須詳細而全面。按照Berners-Lee的概念,本體會以元數據(元數據是指網頁代碼中所含的人類看不見而計算機能讀取的信息)的形式而存在。
構建本體需要大量的工作。實際上,這是語義網面臨的重大障礙之一。人們是否願意投入精力為自己的網站構建全面完整的本體?網站變化後,他們會維護本體嗎?這些都是語義網構建時需要考慮的問題。批評人士認為,創建及維護語義網這種復雜的任務對大多數人來說工作量太大了。
另一方面,一些人很喜歡給互聯網對象和信息做標簽或做標記。互聯網可以對做了標記的對象或信息進行分類。如果博客含有一個標記選項,這樣很容易按特定主題對日誌內容進行分類。Flickr等照片共享網站讓用戶可以對照片做標記。
谷歌甚至把它變成了一款游戲:「Google ImageLabeler」讓兩個人在做標簽比賽中相互較量,看哪個玩家為一系列圖像所做的相關標記數量最多。據一些專家聲稱,Web3.0將來能夠搜索標記和標簽,並將相關度最高的結果返回給用戶。也許Web 3.0會將Berners-Lee的語義網概念與Web2.0的標記文化結合起來。
關於互聯網未來的幾個猜想
總體來說,Web 3.0還只是處於理論研究階段,而少有明確的技術出現,但是,這沒有阻止人們猜測接下來互聯網的未來會走向何方。實際上,在這方面既有保守的預測也有激進的預言,還有聽上去更像是科幻電影的大膽猜想。
1. 技術專家NovaSpivack認為,互聯網的發展以十年為一個周期。在互聯網的頭十年,發展重心放在了互聯網的後端即基礎架構上。編程人員開發出我們用來生成網頁的協議和代碼語言;在第二個十年,重心轉移到了前端,Web2.0時代就此拉開帷幕。現在,人們使用網頁作為創建其他應用的平台。他們還開發聚合應用,並且嘗試讓互聯網體驗更具互動性的諸多方法。目前我們正處於Web 2.0周期的末端;下一個周期將是Web 3.0,重心會重新轉移到後端。編程人員會完善互聯網的基礎架構,以支持Web3.0瀏覽器的高級功能。一旦這個階段告一段落,我們將邁入Web 4.0時代。重心又將回到前端,我們會看到成千上萬的新程序使用Web3.0作為基礎。
2. 互聯網將發展成為一個三維環境。我們將來看到的是Web 3D,而不是Web3.0。互聯網把虛擬現實元素與大型多人在線角色扮演游戲的在線世界結合起來,最後可能會變成融入了立體效果的一種數字環境。你可以以第一人的視角或通過你本人的數字化呈現(即化身),徜徉於互聯網中。
3. 互聯網會立足於分布式計算領域的最新進展,從而實現真正的人工智慧。在分布式計算中,幾台計算機共同處理一項龐大的處理任務,其中每台計算機負責處理整項任務的一小部分。一些人認為,互聯網會擁有思考能力,因為它能把任務分配到成千上萬台計算機上,還能查詢深層本體。這樣互聯網實際上會變成一個巨大的大腦組織,能夠分析數據,並根據這些信息得出新想法。
4. 訪問互聯網的設備絕不僅限於計算機和手機。從手錶、電視機到衣服,將來一切東西都能連接至互聯網。用戶將與互聯網保持持續不斷的連接,反過來也是這樣。每個用戶的軟體代理會以電子方式觀察用戶的活動,從而了解該用戶的更多信息。這可能會引發爭論:如何兼顧個人隱私與擁有個性化的互聯網瀏覽體驗帶來的好處。
5. 互聯網會與其他形式的媒體融合,直至各種形式的媒體之間的所有區別都消失。廣播節目、電視節目和故事片都將依賴互聯網這種內容分發系統。
當然,現在判斷這些未來的互聯網當中哪些會變成現實還為時過早,也許未來真正的互聯網比今天最大膽的預測還來得出人意料。不過,希望等到未來的互聯網變成現實時,大家能就它的名稱達成一致意見。
⑺ 如何評價季逸超,Peak Labs 和 Magi 搜索引擎
正面評價:
@季逸超 團隊的工程能力非常強,少數幾個人在一年裡可以搭起來可用的demo,水準不輸於我見過的任何一個優秀的工程師。有這樣高效的團隊,相信往後會越來越順利。
知識圖譜的構建和應用也會是文本相關的各種任務上下一個增長點。Google花了很大力氣在做,M$也是,學術界對這方面的關注和投入也在持續增長。我相信往後的幾年,即使是這塊沒能出現類似Uber, Airbnb這樣的顛覆型產品,起碼能把我們日常使用到的各種工具,例如搜索,siri等,的效果提升到一個新的級別。
最後,Maji找准了國內這塊市場的空白,抓到了很好的切入點,原先團隊的積累也讓Magi在資本市場上一帆風順,最後這個問題和36氪的PR(宣傳)也做得很好。例如和PR成功案例,watson,的聯系,以及各種超出科研基金申請報告中描繪的科幻遠景。這些都是每一個有志創業的年輕人需要思考和學習的。
總之,我覺得magi能成功,以後如果沒有被Bai抄了去,就會被Bai買了去。我猜會傾向於買了去,畢竟Bai自己從頭開始做,要花的人力成本也不低了。國內也很難找到對應的人才。
同時也有很多懷疑:
疑惑1:
是demo里的那些長query(搜索詞條)。長query得理解是非常非常難的問題。更不提理解中文的這種毫無固定格式的問句了。demo中出對幾個復雜長query出一些好結果很簡單,真正應用做的好么?去試了插件的demo後,我覺得做不好。從demo的效果反推的技術來說,離真的做好demo中提到的那類長query,我個人感覺不是量的差距,是質的差距。
為什麼?類比的話,Watson無數工程師,不差錢的IBM毫無業績要求的完全當做一個PR項目來做,目的就是為了Jeopardy。才能對英語這種,有W和H的顯示問句意圖表達的語言,且是Jeopardy固定格式的問題,能夠做到比較好的效果。這個過程大概花了5年。除了有很多QA領域的專家以外,還有很多工程師的hard code提效果。
而Watson至今離真正商用遙遙無期。我甚至不覺得watson可以真的商用。(我個人對QA的感覺是往後這個東西會真的商用,做到滿足大多數日常問答需求。但這個過程可能要5年起步。而且這件事情可能發生在Google,可能在Apple的Siri,也可能是MSR先有paper,但是如果是IBM,我會很吃驚。)
如果Magi能夠做到demo中顯示的長query的分析效果,甚至不需要做其他的任何事情,就可以有大概讓兩位創始人一起高科技人才引進的Eb1A類綠卡這種級別的論文,然後也可以被Google,IBM或者Bai二話不說的收購。
所以我覺得要麼是Magi的團隊是不世出的天才,一年時間,沒有用戶訓練數據,幾個人,還是中文,可以做到demo里長query的效果,要麼這個就是為了PR目的的誇大。
疑惑2:
Magi所謂的自動從非結構化信息中抽取知識圖譜。Magi主頁上寫的是:
Magi 日益增長的結構化資料庫中目前擁有950個大類3300個子類的2100萬個對象, 囊括從電子游戲到天體物理、從AV女優到美國總統的方方面面信息, 並抽象出了超過1億6000萬條事實的知識網路
這個效果非常驚人。
非常驚人。
非常驚人。
(重復表示強調)
驚人到什麼程度呢?如果這是真的,這950個大類,3399個子類,2100萬個對象都是真的可用級別的話,那麼:
1,創始人把這個寫出來可以拿任何一個相關領域頂會的Best Paper,會成為Information Extraction領域的新的明星。
類比:Open Information Extraction和我們學校的NELL是比較有名的自動從非結構化信息抽取知識圖譜的工作。前者是University of Washington at Seattle的,後者是CMU的。兩個組光做這兩個系統,都做了超過5年。CMU的直接是機器學習系的系主任領頭,抓取和分析程序幾年來沒有停止過,但是還是做不到Magi的1/10的級別,雜訊也特別多,尚未達到可用級別。數量和質量都不如直接用Wikipedia的mp。而Wikipedia的對象大概有多少呢?500萬左右。
2,Google或者MS會直接願意買,別的什麼都不要,就只是這個系統。
類比:Freebase Freebase (需翻牆...) 是知識圖譜里最好用的。2010年Google花了大價錢買了下來。花了多少錢沒有公布,但是Freebase之前已經拿了$57M的融資,Google花的錢應該是這個的兩倍起,那就是一億美金往上。
Google買了下來之後花了很多人力去提升Freebase的質量和數量,還有社區的貢獻,自動和非自動的方法都上了。4年之後,Freebase的量級是多少呢?
3700萬個對象,5億的事實,77個大類
和幾百個小類(具體沒有數了)。
而這3700萬個對象裡面,可用的部分,即信息全面,有名稱,文本描述的有多少呢?
還是500萬。這是Google和我們組合作發布的網頁實體標注里用到的對象集的大小。
而且,這些統計都是英語。
所以如果Magi主頁上宣傳的是真的,那麼幾個人,一年時間,通過在已有的Wiki,網路之類的地方之外,在中文這個比英文更難得語言上,做出了超過Google花了$57M以上收購,並作為下一個核心增長點耕耘了4年的Freebase的效果。
同時,甚至可以說Magi憑借幾個人的力量,解決了中文分詞剩下5%的問題里的一大半,從此中文分詞甚至可以說是一個solved problem。眾所周知現在分詞95%的情況下已經可以做到非常好了,剩下的5%是罕見詞的問題。而這裡面絕大部分是命名實體,也就是所謂的對象。
而2100萬的命名實體是什麼概念呢?一般中文分詞能夠切分出來的詞的數量,大概在幾十萬的量級。在這幾十萬的基礎上,一下子加了2100萬的命名實體,想必從此之後:
任何一家中文信息處理公司都基本不用再為分詞擔心,
所有在線廣告可以直接通過這2100萬的命名實體效果提升一個量級,
所有中文輸入法不會再出現需要一個個選單字的問題,不需要再選擇download神馬行業詞庫,只靠這2100萬,似乎就夠了。
如果這些都是真的話:
跪求公布數據... 跪求深度合作... 跪求不要賣給不開源的黑心大企業。
同時真心為我的懷疑道歉,並求Magi給面試機會......
為了人類文明的進步,前進!前進!前進!
⑻ 什麼是知識圖譜
知識圖譜,是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,並利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。