“沒想幹掉百度搜索,但Magi正成為最大的通用知識圖譜系統”丨獨傢專訪 Peak Labs

11 月初,一個名為“magi.com”的 AI 搜索引擎出現。如同一顆石子墜入到中文互聯網世界這片怒海狂潮,新的產品或多或少總會有一些存在的反饋。

但現實情況是,基於知識圖譜+自然語言理解技術的 http://magi.com 掀起瞭不小的浪頭:上線第一周,0 投放達到 100 萬用戶周活;登上國內第七大搜索引擎的位置;有網友在體驗之後,甚至期待它將是一款能夠擺脫“搜索引擎原罪”、真正面向 AI 時代的產品,乃至撬動現有的搜索引擎競爭格局。

一個巨大的懸念是,如果有一款搜索引擎未來會替代掉百度,它會是 http://magi.com 嗎?

帶著這樣的疑問,我們最近拜訪瞭 Magi 的開發團隊 Peak Labs,從團隊兩位核心人物——季逸超、劉欣暘口中得到的信息是,上述所有的浪花和遙遠的想象,都非常戲劇性地不在團隊的規劃之內。

圖丨兩位受訪創始人(來源:Peak Labs)

“開發 http://magi.com,我們沒想過要幹掉百度搜索。百度已經占據瞭國內搜索引擎市場的 75%,形成瞭自己的護城河,我們起初並不是為瞭進入到 to C 的市場去與巨頭競爭……

http://magi.com 一開始不是設計給吃瓜群眾用的,我們根本沒想到會有這麼多人使用……

我們沒有投入這麼多資源在 http://magi.com 上,在公眾發現 http://magi.com 的當天就出現瞭服務器壓力預警,現在每天都有黑客在攻擊我們……這種情況已經打亂瞭團隊原有的前進節奏。”在采訪中,身為團隊創始人的季逸超道出 Peak Labs 目前面臨的一連串“甜蜜的煩惱”。

圖丨magi.com 似乎也在不經意之間學習到瞭互聯網的幽默感(來源:magi.com)

季逸超曾經在高中時期一人設計並開發出猛獁瀏覽器,並在之後獲得瞭 Macworld 2011 的特等獎,在開發者群體中小有名氣。他於 2012 年創辦 Peak Labs,專註於開發新形態互聯網產品。Peak Labs 曾經在成立初期獲得真格、紅杉的投資,團隊成員目前的平均年齡不到 27 歲。

http://magi.com 是什麼?

首先,如果你還沒有體驗過 http://magi.com,這裡有一個演示案例。

打開 http://magi.com,在搜索框中輸入“馬斯克”,你將收獲以下返回結果:

圖丨magi .com 返回的“馬斯克”檢索界面(來源:magi.com)

描述——特斯拉的創始人、特斯拉的靈魂人物、OpenAI的創始人之一、SpaceX的CEO、AI的懷疑者……;

屬性——包括公司成立、傢庭成員信息……;

標簽——公司、CEO、企業傢……;

近義項——矽谷鋼鐵俠、Twitter、Model E;

不難看出,這四個板塊中的信息對應用戶搜索“麻省理工科技評論”可能會出現的一些基本問題。而右側則為以上信息的“主要學習來源”。接下來才是常見的信息鏈接羅列。

紅黃綠三種不同顏色的色塊,則代表此處信息的可靠程度。上述展示中均沒有出現廣告。

在用戶體驗上,它比“經典搜索引擎”多做的事情是給出答案,而非列舉鏈接。

而且,magi .com 還有一個自學習的過程,當用戶停留在首頁超過 5 秒,你就能看到 http://magi.com 正在從哪個信源中又學習到瞭哪個知識點。

圖丨 Magi 展示的學習過程(來源:Magi.com)

據介紹,這種學習過程是在無人幹預的情況下 7 x 24 小時不間斷運行的,實時新聞事件中的知識一般隻需要 5 分鐘就會被掌握。隨著可交叉驗證的信息源不斷增加,先前學習到的知識的可信度會被重新評估,使結果中的錯誤被自動糾正。

2019 年,伴隨著互聯網誕生 50 周年,搜索引擎也在人類世界走過瞭近 30 年,成為僅次於即時通信的互聯網第二大應用,搜索引擎的全球市場格局進入到相對的穩定期,但也被詬病商業化程度過高,http://magi.com 此時橫空出世,意不在殺入這片江湖,盡管擁有一個搜索引擎的表皮,它為網友們提供瞭互聯網數據交互的新方式。

http://magi.com 不被直接感知到的,是它與經典搜索引擎最本質的不同:不僅收錄互聯網上的海量文本,還會去嘗試理解並學習這些文本中蘊含的知識。

Peak Labs 也在一份 Magi 的官方說明中寫到:“知識提取的重要性遠高於單純地回答問題,主動發現潛在知識並持續提煉修正,顯著強於被動地根據輸入的問題去匹配結果。”

這也是 Peak Labs 設想的企業版 Magi 系統身為一個收費 AI 的自覺:7 x 24 小時不間斷地從“最臟的互聯網文本中自主閱讀文本並持續糾錯”,理解並充分利用互聯網中無窮無盡的知識完成“通識教育”,先成長為最大的通用知識圖譜,然後帶著最基本的人類世界的“常識”殺入到行業中,成為行業知識圖譜服務成長起來的最底層土壤,進而提供定制化的服務。

用季逸超的話來說,Magi 系統將是“AI 背後的 AI”。

也就是說,被公眾認知為 AI 搜索引擎的 http://magi.com,其實隻是 Peak Labs 為 Magi 系統開發的一個必要組件兼功能展示界面。

圖丨面向公眾的 magi.com 和面向企業的 Magi 系統作為整個 Magi 項目的一體兩面(來源:Peak Labs)

“我們沒有使用任何開源或外部搜索解決方案,從零開始研發作為搜索引擎的 http://magi.com 的原因有二:

一則是希望它作為一個 Demo 展示,為企業用戶演示我們能力范圍內可以利用 NLP 技術構建怎樣的服務(例如行業知識圖譜),把企業用戶提出的天花亂墜的需求盡量合理化;

二則是我們利用 http://magi.com 通過互聯網進行遠程監督,積累出一個巨大的有標註數據集並持續自動優化 Magi 的開放信息提取模型,進而通過遷移學習為各行各業降低應用 NLP 的門檻。”季逸超說。

據介紹,Magi 這一名稱的靈感,一則來自於其“東方智者”的寓意,一則來自日本著名科幻動畫 EVA 中的名為“MAGI System”的超級電腦。

Magi 在最臟的互聯網世界中自我學習並成長為具備有時效性的“跨領域常識”的知識引擎的過程中,還將孵化出自然語言處理領域的類似“ImageNet”的大規模有標註數據集。熟悉計算機視覺領域的人都清楚,計算機視覺之所以成為全球范圍內最熱門的 AI 應用方向,進而誕生出這麼多獨角獸公司,ImageNet 的存在是起推動作用的必不可少的一環。

比起“新的 AI 搜索引擎幹掉百度”,這條故事線的難度並不見得會更小。

圖丨magi .com 稱 Magi 去除瞭商業化的元素遭到創始人否認 (來源:新浪微博)

現象級產品背後,兩大認知智能技術正處於漫長的爆發前夜

對於很多吃瓜群眾來說,http://magi.com 甫一上線便攪動互聯網世界一潭春水,也因為在長期被感知智能技術所支配的 AI 發展線中,他們第一次有機會得以一窺認知智能技術的神奇所在。

過去數十年的人工智能浪潮,主要基於深度學習的爆發,以語音識別、計算機視覺為代表的感知智能技術,享受“數據、算法、算力”三位一體的紅利得到充分發展,而以自然語言處理、知識圖譜等為代表的認知智能技術,目前形成的市場規模遠不及前兩者,尤其是相比於已經成長為龐然大物的計算機視覺。

(來源:麻省理工科技評論)

以自然語言處理為例,其技術準確率遠遠沒有達到計算機視覺和語音識別的水平,相應的應用產品(比如語音助手)經常被人諷刺隻能用來調戲,缺少實際價值。在創業公司方面,自然語言處理領域也沒有產生像商湯、曠視、依圖、雲從這樣的“小巨頭”。有業內人士曾表示,自然語言處理目前的發展大約落後於計算機視覺 3~5 年左右。

針對自然語言處理技術的商業化現狀,該方向的著名學者、賓夕法尼亞大學教授 Dan Roth 在接受《麻省理工科技評論》采訪時分析道:“在各種專業應用中,必須要選擇正確的自然語言模型,沒有任何單一模型可以解決自然語言領域中所遇到的所有問題,自然語言處理沒有一個可以解決所有問題的魔術盒子存在,你必須要把所有相關的知識庫放進盒子裡,選擇對的算法,並且針對性的處理特定問題,那麼這個盒子最後才有作用”。

這個過程中吊詭的地方還在於,有多少人工才能有多少認知智能。

沖在這個建設大潮中第一線的大量“數據標註民工”就印證著這一點。現階段,對於絕大多數行業來說,進行足夠好的數據采集和數據標註,是搭建供 AI 發揮價值的“基礎設施”的關鍵步驟。曾有業內人士直接斷言,在相當長的時間內,數據質量決定瞭 AI 算法在真實場景中提供體驗的天花板。

圖丨基於知識圖譜的認知智能(來源:復旦“知識工場”)

知識圖譜的行業應用也在遵循類似宿命。知識圖譜旨在用圖的形式模擬人的知識,而語言正是人類知識的載體,借助自然語言處理,知識圖譜技術可以幫助機器擁有真正的知識。但在這之前,重復性的數據標註同樣難以避開。尤其在諸如醫療這樣的高標註門檻領域,需要浪費極其寶貴的智力資源——醫生——投入到大量的重復性勞作中,才能有之後收獲 AI 降低工作效率的可能。

Peak Labs 團隊則認為,存在一種從純文本自動構建可信知識圖譜的技術能夠改變這種局面,“我們要給知識圖譜送彈藥”。

因此,區別於一般 AI 初創公司在成長初期優先聚焦特定行業的思路,2015 年,Peak Labs 啟動開發瞭一款“彈藥”生產線——紮根開放領域的互聯網文本進行知識提取的 Magi 項目,並選擇直面規模化和準確度這兩個知識工程中的核心矛盾點。

從“最臟的互聯網文本”中成長出來的通用知識系統

開放領域的互聯網文本。看到這幾個字,相信一些人的腦海中會出現這樣的認知:這裡面的信息該多臟啊。

對於這一事關 Magi 最終呈現的準確度問題,季逸超表示:“我們很難說 Magi 自動構建信息的質量一定好於人工整理的文本。但是,首先,它的質量不差,並且可以量化。

其次,它的信息覆蓋率遠非人工所及。現在知識圖譜的準確度已經不是問題,因為知識圖譜更多是基於本來就存在的結構化的內容來進一步描述實體之間的關系。知識圖譜現在主要的問題是不太堪用,經常出現的一種情形是,它對自己能力范圍之外的隻能回答 '對不起不知道',所以我們要做的是,讓知識圖譜原本不知道的這些內容也能被收錄,並達到一個較高的可信度。”

圖丨誕生於 1994 年第一代真正基於互聯網的搜索引擎 Lycos(來源:互聯網)

而要實現這樣的效果,擺在整個 Magi 項目面前的是以下 6 個重要技術挑戰:

1、從純文本自動構建可信的全領域知識圖譜。此前業內主要依賴於人工編輯的各類數據庫或百科等結構化或半結構化數據源進行整理,以構建可信的知識圖譜;

2、構造大規模的帶標註的跨領域數據集。類似於打造 NLP 領域的“ImageNet”,目前整個 NLP 領域都沒有一個可以達到類似 ImageNet 在計算機視覺領域地位的數據集;

3、通過互聯網進行終身學習持續優化。過去,機器學習存在的問題在於,數據訓練模型往往是靜態的,針對模型缺陷的每一次反饋和調整都需要手動介入;另一方面,很多信息是實時更新的:以一款新發佈的手機為例,發佈會信息出來之後,通過抓取文本,產品的價格屬性很快就能得到更新,如果是百度百科之類還需要等待人工進行編輯;

4、獲取常識並結構化。現實中,越基礎的知識越缺乏結構化的整理,Magi 則通過理解大量的純文本中的信息去掌握這些未被系統整理過的知識;

5、多任務遷移學習和跨領域遷移學習。即先通過整個互聯網文本進行寬泛的背景知識學習,然後遷移到某個具體領域中,為企業客戶減輕負擔。就像遷移能力幫助 CV 產生規模化的商業價值一樣,NLP 的商業化進程遷移學習能力將同樣重要;

6、面向遠期可解釋 AI 保證知識可溯源。這是為面向未來的人工智能發展所做的準備。盡管 Magi 仍然使用瞭深度學習技術,無法避開黑箱問題,但系統學習到的信息都留下瞭可溯源的痕跡。

據季逸超介紹,其中前兩個方向是目前學術領域也在攻堅的問題,同時兼顧這 6 個方向也要求相當的工程能力。

在質量參差不齊的海量互聯網文本中,為瞭提升信息的利用率,Magi 必須盡可能徹底地從每一段質量參差不齊且主題各異的文本中提取出全部知識。這也決定一切現有的技術方案都不可用:這不再是一個清晰的序列標註問題,交錯疊加的關系使得搜索空間爆炸式增長,不受限制的領域還意味著根本沒有可用的訓練數據。

因此,團隊用瞭近 4 年時間從零設計研發瞭整個技術堆棧:采用原創 succinct 索引結構的分佈式搜索引擎、使用專門設計的 Attention 網絡的神經提取系統、不依賴 Headless 瀏覽器的流式抓取系統、支持混合處理 170 餘種語言的自然語言處理管線……與此同時,在團隊裡語言學傢的幫助下,Magi 收獲瞭獨一無二的訓練/預訓練數據。

這個系統通過引入傳統搜索中的 query-independent 質量因素,使得優質可靠的消息源會更被重視;而在泛化能力上,其基於多級遷移學習的提取模型,則摒棄瞭人工規則、角色標註、依存分析等限制泛化能力的環節,並且可在 zero-resource 的前提下直接應用到各種外語文本上;隨著數據的積累以及來源多樣性的擴充,這個系統還能夠持續學習與調整,自動消除學習到的噪音和錯誤結果。

他認為,Magi 背後的技術既可以用來從零為行業構建知識圖譜,也可以和行業已有的專用知識圖譜結合,即知識圖譜填充。例如說人類專傢描述一個病癥把發病率之類的信息列舉出來,但是 Magi 基於一些病友在網上交流發佈的內容,能夠把更多病癥相關的信息結構化地填充進來。

“這個角度來說,我們是知識圖譜的好夥伴。”

(來源:新浪微博)

意外走紅徹底打亂前進節奏,潛在企業客戶正在排隊提需求

從 2015 年啟動到今年年初,Peak Labs 才終於完成整個 Magi 系統的基本開發。Magi 的部分數據與相關研究成果也將定期公開於 Zenodo 和 arXiv 等平臺。

按照團隊原本擬定的 Magi 商業進程,http://magi.com 上線之後將引入一些企業用戶,以驗證 Magi 的商業價值,即是否能夠真正幫助企業在應用 AI 上減少前期流程和投入的成本,幫助提高 AI 產品的交付等。

在驗證瞭 Magi 的商業價值、有瞭幾個代表性的 NLP 行業應用案例之後,預計大約是明年的三、四季度,Peak Labs 才會開始尋求新一輪融資。

盡管按照預想 Magi 本身的技術天然不挑行業,但基於商業運作的考量,Peak Labs 更傾向於以下兩種類型的客戶:

“一類是例如旅行、社區型的有大量 UGC、PGC 內容的客戶,他們希望能把用戶生產的文本中的價值利用起來更好地服務他們的用戶,確切來說即能替換掉一些原來由人力進行重復閱讀與整理的環節;另一類就是有大量結構化數據需求的客戶,例如金融、獵頭等行業,他們在工作流程中需要整理大量的外部或者內部積累的文本資料供自身下遊環節使用。”

沒想到,作為為潛在企業客戶展示 Demo 的 http://magi.com 引來大批吃瓜群眾圍觀,徹底打亂瞭團隊的節奏。

根據阿裡雲的數據顯示,在 http://magi.com 被公眾發現的第一天就有 19 萬以上的用戶;從 11 月 1 日至 18 日,共有 1080000+名用戶使用 http://magi.com,進行瞭超過 7000000 次的搜索;100000 多名用戶在其智能設備上將 http://magi.com 設為瞭 PWA(progressive web app)。值得一提的是,這些用戶中分享最為踴躍的是 95 後、00 後。

湧入的巨大流量一方面讓更多潛在企業客戶慕名而來,現覆蓋的行業領域已經包括金融、咨詢、旅遊甚至是醫療保險和人力資源,這些客戶正處於排隊提需求的狀態,另一方面也讓團隊重新思考瞭 to C 的 AI 搜索引擎的價值:或許 http://magi.com 真的可以成為一款陪伴 00 後這一批互聯網原住民成長的互聯網產品。

兩位創始人都表示,團隊正考慮重新規劃節奏,to C 的產品改進也會和面向企業的探索同時提上日程,但不會做競價排名,廣告不會被展示在 Magi 學習到的的結果之前。

對於 Magi 未來的命運走向,季逸超也曾在自己的微博中直言:“現在的 Magi 和當年的猛獁對我來說並沒有什麼不同,都飽含一個工程師樸素的初心,既不想拿廣告惡心你,也對你的隱私毫無興趣。我變禿瞭變胖瞭也變強瞭。”

圖丨季逸超也是一位幽默的創業者,上圖為他親自撰寫並散播的個人坊間傳聞(來源:知乎)

赞(0)