Google開源全球最精準AI自然語言理解技術SyntaxNet
Google開源全球最精準AI自然語言理解技術SyntaxNet
2016.05.13 | 科技

Google Research今天宣佈,世界準確度最高的自然語言解析器SyntaxNet開源。Google開源再進一步。據介紹,Google在該平台上訓練的模型的語言理解準確率超過90%。近日,眾多科技巨頭人工智慧相關平臺開源步伐明顯加快:Google和Facebook一直領頭,馬斯克的OpenAI欲打造一個完全公開的AI模型訓練營,就連一直被批評「保守」的亞馬遜也在嘗試開源。這一股開源熱潮背後,是人工智慧研究者的福利,但同時也是一場激烈的資料和平臺爭奪戰。

Google環境計算(Ambient computing) 架構師Yonatan Zunger說:事實上,語言理解被我們認為是「AI的終極任務」,要解決這一難題,前提是要能解決全部人類水準人工智慧的問題。

機器對語言的理解過程,可以分為幾個步驟,其中很多的不確定性是逐漸明晰的(語音辨識的不確定性更多,因為還要解決從聲音到詞的轉換)。

第一步是要把詞分開,放到依存樹上,看哪一個詞是動詞,對名詞有哪些影響等等。

隨後,要理解每一個名字的含義。

再次,再加入許多先驗知識,即對這個世界的理解,因為很多句子只有使用了這些資訊才能真正理解。如果足夠幸運的話,到這就能得到清晰的理解了。

Google資深研究科學家Slav Petrov在Google Research的部落格上寫到:在Google,我們花費了大量的時間在思考,電腦系統如何才能閱讀和理解人類語言,以一種更加智慧的方式處理這些語言?今天,我們激動地跟大家分享我們的研究,向更廣闊的人群發佈SyntaxNet。這是一個在TensoFlow中運行的開源神經網路框架,提供自然語言理解系統基礎。我們所公開的包含了所有用你自己的資料訓練新的SyntaxNet模型所需要的程式碼,以及Paesey McParseface——我們已經訓練好的,可用于分析英語文本的模型。

Paesey McParseface 建立於強大的機器學習演算法,可以學會分析句子的語言結構,能解釋特定句子中每一個詞的功能。此類模型中,Paesey McParseface是世界上最精確的,我們希望他能説明對自動提取資訊、翻譯和其它自然語言理解(NLU)中的應用感興趣的研究者和開放者。

SyntaxNet是怎麼運作的?

SyntaxNet是一個框架,即學術圈所指的SyntacticParser,他是許多NLU系統中的關鍵元件。在這個系統中輸入一個句子,他會自動給句子中的每一個單詞打上POS(part-of-Speech)標籤,用來描述這些詞的句法功能,並在依存句法樹中呈現。這些句法關係直接涉及句子的潛在含義。

舉一個很簡單的例子,看下面這個句子「Alice saw Bob」的依存句法樹:

圖說明

在這個結構中,Alice和Bob被編碼為名詞,Saw是動詞。只要的動詞saw 是句子的根,Alice是saw的主語,Bob是直接賓語(dobj)。和期待的一樣,Paesey McParseface能正確地分析這一句子,也能理解下面這個更加複雜的例子:

圖說明

句子:Alice, who had been reading about SynataxNet, saw Bob in the hallwayyesterday

在這個句子的編碼中,Alice和 Bob的分別是saw的主語和賓語,Alice由一個帶動詞「reading」的關係從句來修飾,而saw則由時態「yesterday」來修飾。依存句法樹中的語法關係讓我們可以輕易地找到不同問題的答案,比如,Alice看見了誰?誰看到了Bob?Alice正在讀的是什麼?或者Alice是在什麼時候看到Bob的。

為什麼讓電腦正確處理句法分析如此困難?

圖說明

句法分析如此困難的一個主要問題是,人類語言具有顯著的歧義性。包含 20 到 30 個單詞的中等長度的句子會具有數百、數千甚至數萬種可能的句法結構,這樣的情況並不少見。一個自然語言句法分析器必須能夠搜索所有這些結構選擇,並找到給定語境下最合理的那個結構。作為一個非常簡單的例子,「Alice drove down the streetin her car」這個句子就具有至少兩種可能的依存分析:

第一種分析是對應這句話的(正確)解釋,按照這種解釋,愛麗絲在汽車裡進行駕駛,而汽車位於街道上;第二種分析對應於一種對這句話的(荒誕但仍然可能的)解釋,按照這種解釋,愛麗絲在街道上駕駛,而街道位於汽車之內。之所以會產生這種歧義,是因為「in」這個介詞既可以用來修飾「drove(駕駛)」也可以用來修飾「street(街道)」。上面這個例子是所謂的「介詞短語附著歧義」的一個實例。

人類在處理歧義方面有超強的能力,以至於人們甚至注意不到句子有歧義。而這裡的挑戰是,如何能讓電腦做到同樣好。長句中的多重歧義會共同造成句子的可能結構數量的組合爆炸。通常,這些結構中的絕大多數都極其不合理,但它們仍然是可能的,句法分析器必須以某種方式來丟棄它們。

SyntaxNet 將神經網路運用於歧義問題。一個輸入句子被從左到右地處理。當句子中的每個詞被處理時,詞與詞之間的依存關係也會被逐步地添加進來。由於歧義的存在,在處理過程的每個時間點上都存在多種可能的決策,而神經網路會基於這些決策的合理性向這些彼此競爭的決策分配分數。出於這一原因,在該模型中使用 Beam Search (集束搜索)就變得十分重要。不是直接取每個時間點上的最優決定,而是在每一步都保留多個部分性假設。只有當存在多個得分更高的假設的時候,一個假設才會被拋棄。下圖將展示的,是「I booked a ticket to Google」這句話經過從左到右的決策過程而產生的簡單句法分析。

圖說明

而且,正如我們在論文中所描述的,十分重要的一點是,要把學習和搜索緊密整合起來才能取得最高的預測準確度。Parsey McParseface 和其他 SyntaxNet 模型是我們用Google的 TensorFlow 框架訓練過的最複雜的網路結構。透過利用Google支援的 Universal Treebanks 專案中的資料,你也可以在自己的機器上訓練句法分析模型。

Parsey McParseface 的準確度到底有多高?

在(從具有二十年歷史的賓大樹庫Penn Treebank中)隨機抽取的英語新聞句子構成的標準測試中,Parsey McParseface 在提取詞之間的個體依存關係時的準確率超過 94%,這打敗了我們自己先前的最高水準,也超過了任何以前的方法。

儘管在文獻中並沒有關於人類的句法分析成績的明確研究,我們從我們內部的句法標注專案中瞭解到,那些在該任務上受過訓練的語言學家在 96-97% 的情況下能達成一致。這說明,我們正在接近人類的水準——不過這仍然限於那些格式良好的文本。按照我們從 Google WebTreebank (+發佈於 2011 年)中所學到的,那些從網路上獲得的句子要遠遠更難分析。在該網路資料集上,Parsey McParseface 只取得了略高於 90% 的句法分析準確率。

儘管準確率還不夠完美,它已經足夠高,能夠用於許多應用程式了。目前,錯誤的主要來源是像上面描述過的介詞短語附著歧義這樣的情況,對這些情況的處理要求對現實世界的知識(例如,「街道不太可能位於汽車之內」)和深度語境推理。機器學習(特別是神經網路)已在解決這些歧義方面取得了顯著的進展。不過我們仍想做進一步的工作:我們想要發展出一些方法,這些方法能夠學習現實世界知識,也能夠在所有語言和語境中都取得同樣好的自然語言理解。

想試試嗎?請閱讀 SyntaxNet 的程式碼。並下載 Parsey McParseface 句法分析模型。主要研發者Chris Alberti, David Weiss, Daniel Andor, Michael Collins 和 Slav Petrov 祝你成功。

來源:Google Research

本文授權轉載自:虎嗅網

往下滑看下一篇文章
從 Raise Day 出發,方睿科技如何打造商用地產的 AI 企業服務生態系?
從 Raise Day 出發,方睿科技如何打造商用地產的 AI 企業服務生態系?

AI 與數據正快速落地至各行各業,從製造、金融、電信、醫療到零售,應用速度不斷加快。但在每年交易規模至少新台幣 1900 億元的商用地產領域,卻長期受到數據破碎且不透明的限制,只能仰賴人力蒐集資訊,再憑直覺和經驗去解讀資訊、做出決策,使 AI 潛在價值難以真正發揮。為回應產業轉型的核心痛點,方睿科技首度舉辦「商用地產生態系年會 2026 Raise Day」,以開放式平台為核心,串聯專業地產服務商、空間相關企業服務商、產業專業人士等多元角色,勾勒出 B2B 企業服務生態系的全貌,希望能透過科技促進數據流動,為商用地產企業協作模式開啟新的可能性。

方睿科技
方睿科技首度舉辦 2026 Raise Day,以開放式平台為核心串聯多元角色,推動商用地產邁向產業共好的新階段。
圖/ 數位時代

方睿科技雙軌策略,讓 AI 成為商用地產的決策引擎

方睿科技創辦人暨執行長吳健宇指出,在 AI 時代,人應該專注於「最有價值」的工作;然而在商用地產業中,專業人士卻有約 70% 的時間耗費在資料蒐集與整理上,真正用於判斷與決策的時間僅約 10%。方睿科技希望翻轉這樣的時間分配,讓人力從低價值的資料處理中解放,將更多心力投入在判斷、溝通與決策等創造價值的商業活動。

方睿科技
方睿科技創辦人暨執行長 吳健宇
圖/ 數位時代

為此,方睿科技提出兩條實踐路徑。第一條是建構出具備完整性、易用性與進化性的商用地產智慧平台,運用 AI 技術,將過去產業中破碎、非結構化的資料,重塑為可被運算、可驗證的標準化數據,並結合圖表與互動式介面,讓使用者能夠快速得到完整市場資訊,實現「用戶即專家」的目標。

第二條則是推動生態系聯盟,將不動產視為企業服務的核心載體,串聯設計、家具、搬遷、清潔等多元服務夥伴,使空間不再只是靜態標的,而是承載案例、服務與數據回饋的生態系節點。透過生態系夥伴累積的實務資料與服務紀錄,平台得以發展「資料即推薦」模式,推動商用地產從單點交易,邁向可擴張的 B2B 服務網絡。

獨創「資料飛輪」機制,實現用戶即專家目標

在 AI 模型日益普及的當下,真正的競爭關鍵已不在模型本身,而是能否有效率地收集資料、提高資料品質,並將其與實際決策流程緊密結合。為此,方睿科技獨家設計出一個由「資料收集、資料精煉、專家把關、決策反饋」組成的資料飛輪,回應商用地產長期面臨的資料破碎與決策效率低落問題,成為方睿科技實踐願景的第一條路徑。

方睿科技技術長郭彥良進一步說明,資料飛輪機制的運作架構。首先在資料收集階段,必須系統性蒐集公開資料、內部檔案與報告,並透過 AI 協作將圖片等非結構化資訊轉換為可用的結構化數據。接著進入資料精煉,透過資料清洗與實體對齊,將原始資訊從單純的可閱讀升級為可比較、可推論的決策依據。第三步專家把關,則引入不動產專家進行校正與產業判讀,補上模型難以理解的規則與慣例,確保關鍵數據的正確性。最後的決策反饋階段,藉由收集使用者提問與行為,檢視現有資料是否足夠精準,再回到專家校正與補齊流程,使整個系統能隨使用頻率提升而持續進化。

在資料飛輪的運作基礎上,方睿科技正積極研發商用地產智慧平台 PickPeak。郭彥良表示,PickPeak 並非單純的物件搜尋工具,而是結合深度資料與 AI 的決策輔助平台。使用者可透過自然語言互動,提出人數、預算、區位、產業屬性等多重條件,再由系統動態生成可比較、可驗證的選址方案,真正將 AI 從「回答問題的工具」,轉化為「陪伴決策的數位專家」。

方睿科技
方睿科技技術長 郭彥良
圖/ 數位時代

創新 Data to win 模式,讓 AI 深入商用地產各階段決策流程

不過,單靠數據整合與 AI 應用仍不足以支撐產業全面升級,因此,方睿科技提出的第二條路就是,推動產業生態系聯盟,整合商用地產市場上不同角色的數據,讓 AI 能夠真正成為商用地產決策時的智慧引擎。

方睿科技不動產知識創新中心總監曾凡綱指出,目前在企業、房東或物業主與各類服務供應商之間,缺乏有效的整合機制,導致企業在選址與空間規劃過程中,難以快速找到真正合適的服務與解決方案,形成明顯的產業斷點。

為解決這些斷點,方睿科技提出「Data to win」模式,以資料取代傳統「Pay to win(付費買廣告)」思維,讓真正具備經驗與實績的服務夥伴,在適當的決策節點被看見。

曾凡綱說明,在廣告投放效益越來越低的情況下,企業服務商面臨的問題已不只是「如何曝光」,而是「如何在對的地方被看見」,這將是未來的市場勝出指標;而 Data to win 正好可以協助企業服務商建立此能力,方睿科技將生態系夥伴所擁有的案例、服務紀錄與產業知識等資料,經過去識別化與結構化處理後,再嵌入企業決策流程中,讓推薦不再來自廣告投放,而是真實、可被驗證的使用經驗,透過這樣的機制,不僅提升企業決策的準確度,也能同步放大生態系夥伴在合作中的實質價值。

舉例來說,方睿科技整合辦公傢俱夥伴 Backbone 班朋實業長期累積的辦公室規劃案例與平面圖資料,讓企業在選址階段,就能同步評估空間規劃方案,加速決策流程。又如,整合出行服務夥伴 USPACE 悠勢科技的服務資料,並呈現在地圖上,協助企業評估辦公據點的交通便利性,優化員工日常通勤與出行體驗。此外,平台也可整合大樓的 ESG 認證、公共設施與服務層資訊,協助企業快速篩選符合需求的辦公大樓,提升進駐媒合效率。

方睿科技
方睿科技不動產知識創新中心總監 曾凡綱
圖/ 數位時代

「Raise Day 只是這場變革的起點。」吳健宇強調,方睿科技已經透過投資與合夥模式,將布局延伸至專業地產服務與空間經營領域,至今旗下已有商用不動產仲介、顧問與估價等專業服務的宇豐睿星,以及聚焦商用地產代銷市場的希睿創新置業。透過直接參與第一線實務運作,方睿得以更深入理解產業真實痛點,讓科技不只是工具,而能真正回應實際決策與服務需求。

此外,方睿科技未來也將持續擴大「商用地產 x 企業服務生態系」聯盟,目前包括 Backbone、USPACE、IKEA For Business、潔客幫等企業服務夥伴已率先加入;接下來,方睿科技將邀請更多擁有關鍵數據與專業能力的企業服務商加入,讓數據在安全、可控的前提下流動,進一步釋放商用地產在選址、營運與企業服務等全生命週期中的結構性價值,為產業轉型啟動下一個關鍵階段。

方睿科技
右起方睿科技共同創辦人暨營運長陳致瑋、USPACE悠勢科技共同創辦人暨執行長宋捷仁 、Backbone班朋實業創辦人暨執行長廖家葳,透過企業服務生態系合作共同為產業啟動下一個關鍵階段。
圖/ 數位時代

方睿科技官網: https://www.funraise.com.tw

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓