Gemini 3.0 要來了?神秘Google模型一鍵破解古文帳冊:為何AI能看懂手寫字跡,背後商機無限?
Gemini 3.0 要來了?神秘Google模型一鍵破解古文帳冊:為何AI能看懂手寫字跡,背後商機無限?

AI現在不只看得懂字面上的意思,還能理解字面意義背後的真實世界規則。

近期,一位歷史學者把一頁1758年的商人日記帳丟進Google的AI Studio,本想測試抄寫能力,卻看見模型主動推理出英制貨幣與重量的換算,將一串模糊的「145」還原為「14磅5盎司」,並精確對齊最終金額。

加拿大勞雷爾大學教授馬克·亨弗里斯(Mark Humphries)在專文中指出,Google AI Studio近期不定期出現的A/B測試,被認為是Gemini 3.0 Pro在推出前的測試版本。綜合他在上述歷史文件上的測試,亨弗里斯認為這款「未知Gemini模型」同時突破了「手寫文本最後一哩的準確度」與「視覺結合推理的隱性符號化」兩個老問題。

前者,是將手寫文字辨識(HTR)提升到專家級準確度,顯著壓低過去最難的「最後10%」錯誤(特別是名字、日期、金額、地名與不規則拼寫), 實測在排除歧義標點與大小寫後,達到字元錯誤率(CER)約0.56%、詞錯誤率(WER)約1.22%

後者,則是模型在未被明確要求下,能把視覺辨識與情境推理結合,進行近似「符號推理」的一致性校驗與換算。

這兩點使亨弗里斯推論: 當模型不只把字「抄對」,還能連同上下文與世界規則「讀懂、驗算、自我更正」後,原本難用的歷史與實務檔案,將變成可檢索、可審核、可追溯的資料資產。

這意味著, 在需要高精度「視覺+合規推理」的各領域(史料、帳冊、醫療、法務、製造現場),都可能迎來可靠性的質變:從單純的轉錄,進階到基於現實世界規則的上下文理解。

最後一哩的準確度,卡住了AI的價值

手寫文字識別(HTR)是AI最古老的命題之一,從1966年的IBM機器讀字到近年的多模態LLM,進步穩定卻總在「最後10%」前止步。亨弗里斯解釋,對歷史學者而言,真正有用的不是把「大部分」字看對,而是把「名字、日期、金額、地名」這些低機率、不可預測的關鍵信息讀對;沒有這些,文本再優美也無法進入研究與檢索。「最後一哩的準確度,才是生產力的分水嶺。」

亨弗里斯與研究夥伴建了約50份、共1萬字的測試集,涵蓋18至19世紀的各式手寫風格與設備掃描,並以CER/WER評估。此前的里程碑是:Gemini 2.5 Pro在嚴格標準下達到接近人類的區間(CER約4%、WER約11%);若排除大小寫與標點這類不影響理解的爭議性錯誤,能降至CER約2%、WER約4%。這是系統性迭代的勝利,但離「專家級」仍有距離。

轉捩點:一個日記帳,逼出了推理本能

AI Studio近期被發現偶爾會出現A/B雙輸出供用戶投票,外界猜測這是新款Gemini(或許是Gemini 3)的灰度測試。亨弗里斯以同樣測試流程反覆重試,選取最難的五份手稿:混合語言、拼字錯亂、標點雜亂、大小寫不規則。

結果令人吃驚。在嚴格標準下,模型達到CER約1.7%、WER約6.5%;若剔除高度爭議的大小寫與標點,錯字率進一步降至CER約0.56%、WER約1.22%。這幾乎就是「專家水準」。

更關鍵的是第六份「挑戰項」:1758年奧爾巴尼商人的日記帳。這類帳冊的字跡連人都難以辨識,更別說是模型。其以舊式英貨幣(1英鎊=20先令、1先令=12便士)記載,且帳冊中非十進位、小計與合計交錯、項目收支交織、速記符號與刪線混用。傳統模型常在數字與結構上崩潰,例如把單價與合計混在一起、看不出重量或長度單位,甚至在輸出中重複卡死。

但這次, 未知Gemini不但把名字與商品對齊,更在一筆「塔糖(loaf sugar)」的記錄裡,自主判定「145」並非數字序列,而是重量的拆分,進而以價格「每磅1先令4便士(即16便士)」與總額「0鎊19先令1便士(即229便士)」倒推重量:229÷16=14.3125磅,即「14磅5盎司」。

亨弗里斯在文中解讀:「當模型開始自發地對齊上下文,它就跨過了理解的門檻。」

方法論拆解:視覺、語境、規則⋯3重對齊

視覺:從像素到字形的識別

亨弗里斯指出,未知Gemini展現了更穩定的「字形解碼」能力,把多種手寫體的變體、連筆與掃描噪音處理為一致的字符序列。這讓「基礎可讀性」不再是瓶頸,也使後續語境推理建立在乾淨的輸入上。

過去的痛點在於,手寫識別的誤差往往是「連鎖錯誤」:一個字母看錯,整串詞與句意就偏航。穩健的視覺,是所有後續推理的地基。

語境:將「不可預測信息」嵌入情景

名字、日期、金額這些在統計分佈上屬於「低頻且不可預測」的信息,傳統LLM易以高頻詞替代(如把罕見姓氏改成常見姓氏)。未知Gemini的不同在於:它在帳冊情境中,能辨識出「金額=單價×數量」以及「英貨幣的非十進位結構」,於是把低頻信息錨定在更大的語境網絡裡。

簡單來說,在「任務結構可被識別」的場景裡,模型可以透過上下文的一致性約束生成範圍,以避免機器幻覺。

規則:從隱性記憶抽取「世界規則」

最令人側目的,是模型並未被明確告知英制貨幣與重量的轉換規則,卻能在上下文中調用「每先令12便士、每磅16盎司」等隱性知識,並在兩個非十進位系統間來回換算,使「單價、數量、合計」三者閉環一致。

其關鍵在於「隱性符號化」:在足夠多的結構化樣本中,模型可以自己組裝出可操作的準規則,並以一致性檢查確保資料正確。

功能大躍進:從「抄寫員」到「審計師」?

綜合亨弗里斯的發現,這意味著未來AI不僅能把文本準確轉成可檢索的資料,還能對交易、度量衡、文化語境做出一致性解讀;在更廣的產業場景,例如醫療手寫病歷、物流簽收單、法務契據、製造現場點檢,AI模型可從「看懂」走向「查核」,以確保資料的可信度。

對商業來說,這是一個明確信號: 當模型能從語境生成規則,產品就能從工具躍遷為系統。

對Google而言,未知Gemini在AI Studio的試水,展示了從 「視覺→語境→規則→一致性」 的完整飛輪;對所有以資料為燃料的行業,這是一次重要的可靠性疊代。

延伸閱讀:65歲被28歲管,Mata首席科學家不幹了!一場人事動盪,揭社群巨頭技術路線大分歧
當輝達還在舞台走秀,Google悄悄亮出底牌了!第七代TPU「Ironwood」如何將AI戰爭升級至下半場?

資料來源:Generative History

關鍵字: #Google #Gemini
往下滑看下一篇文章
為保戶守護重要資產,南山人壽以黃金眼 AI 防詐模型建構全通路資產防護網
為保戶守護重要資產,南山人壽以黃金眼 AI 防詐模型建構全通路資產防護網

為守護保戶資產,南山人壽集結客戶服務、數位、資訊三個部門的能量,自行研發「黃金眼 AI 防詐模型」,自 2024 年底完成開發後,截至今年 11 月已成功阻擋多起詐騙案件、攔阻金額累計逾新臺幣 900 萬元,並獲得 2025 數位金融獎等殊榮。

「黃金眼 AI 防詐」模型為什麼可以有效防詐、更好守護保戶資產?

南山人壽客戶服務資深副總經理李淑娟面帶微笑地解釋:「『黃金眼 AI 防詐』是透過龐大的保戶資料結合前線客服的實務經驗建構而成的模型,不僅克服了壽險業交易頻率低且詐欺樣本極度不平衡的挑戰,還能夠偵測在臨櫃辦理保單借款或解約的高風險個案,讓客服人員可以主動提醒與關懷,有效降低詐騙風險,守護客戶資產安全與信任。」

南山人壽
南山人壽客戶服務資深副總經理李淑娟指出,詐騙手法快速進化,南山人壽研發黃金眼AI防詐模型,用前瞻科技主動攔截風險,強化保戶資產的安全防護。
圖/ 數位時代

從詐保到詐財,壽險業面臨的風險加劇

過往,壽險業者面對的主要風險是保險詐欺,例如,透過偽造事故情節、虛構醫療紀錄等方式詐領保險理賠金,然而,隨著科技迭代與詐欺集團的組織化、專業化,這類手法已快速進化,從「偽造病歷、輕病久住、醫療共犯」等傳統模式,轉向結合數位科技與精準話術的跨領域詐財操作。

這一波詐欺風險不僅滲透力強、具備高迷惑性,也直接影響保戶資產安全。例如,詐欺集團利用假冒理賠諮詢等方式竊取保戶個資,再一步步誘導客戶辦理解約或申請保單借款,最後要求將資金匯到不明帳戶等,壽險業者面臨的風險範圍也從「詐領保險理賠」延伸到「詐騙保戶資產」。

李淑娟資深副總經理進一步指出,南山人壽每年要處理逾 35 萬件解約與借款案件,很難單憑人力在海量案件中精準辨識高風險個案。「為有效防堵詐欺事件,南山人壽除開發 AI 模型辨識詐保事件,更進一步研發黃金眼 AI 防詐模型,用前瞻科技主動攔截風險,強化保戶資產的安全防護。」

南山人壽以黃金眼 AI 防詐模型守護保戶資產

在打造黃金眼 AI 防詐模型時,南山人壽面臨兩個挑戰:首先是壽險的交易頻率低,導致資料稀缺;其次,是詐欺樣本比例高度失衡,導致 AI 很容易誤判。為化解這些挑戰,南山人壽整合保戶行為、保戶與保單側寫資訊與情境因素等多模態資訊進行模型訓練,爾後,透過集成學習(Ensemble Learning)整合多個不同觀點的「專家模型」共同判讀,提升模型判斷準確性。

南山人壽數位專案經理蔡其杭表示:「以多模態數據源跟集成學習的策略打造黃金眼 AI 防詐模型後,我們除了將模型串連至臨櫃客服系統,以直觀的「紅、黃、綠」三色燈號即時呈現保戶的風險等級,協助客服人員快速識別高風險個案,主動介入並阻斷詐騙,更透過『自適應演進』與『外部資源擴充』兩個機制,持續優化模型辨識精準度。」

南山人壽
南山人壽打造黃金眼AI防詐模型,將模型串連至臨櫃客服系統,以直觀的紅、黃、綠三色燈號,即時呈現保戶的風險等級、協助客服人員快速識別高風險個案。
圖/ 數位時代

「自適應演進」指的是,客服人員會依據模型亮起的燈號,結合系統提供的關懷提問表,向臨櫃辦理解約或借款的保戶進行關懷詢問,如資金用途、是否接獲可疑來電等,藉此釐清是否存在異常情況,並將相關結果回貼標籤,作為後續調校模型的關鍵訓練素材,讓黃金眼 AI 防詐模型越用越精準。

「外部資源擴充」則是透過更多元的外部數據強化模型的防詐能力。例如南山人壽與內政部警政署刑事警察局簽署反詐騙合作備忘錄(MOU),在合規架構下共享情資,協助核對保戶是否曾有詐欺通報紀錄。蔡其杭補充,南山人壽目前正與電信業者合作,將其超過 1,400 項特徵因子導入模型,有效提升模型燈號判斷的靈敏度與可靠度,使黃金眼 AI 防詐成為更全面的金融詐欺偵測引擎。

蔡其杭表示,詐騙的手法日新月異,AI 阻詐模型除了能準確識別可疑的高風險案例外,更重要的是具備與時俱進、持續調優模型能力和效果的機制;如同維持客戶服務的品質一樣,刻不容緩。

南山人壽
南山人壽數位專案經理蔡其杭表示,黃金眼AI防詐模型串連至臨櫃客服系統,以直觀的「紅、黃、綠」三色燈號即時呈現保戶的風險等級。
圖/ 數位時代

李淑娟表示:「隨著模型的持續優化,黃金眼 AI 防詐模型的應用範疇將從目前的『臨櫃防堵』延伸到『全通路、跨產業、事前預警』的防禦機制,以事前預警的方式防堵詐欺事件。」舉例來說,當保戶撥打電話詢問保單借款或解約時,系統就會開始運作、提前識別風險,針對透過手機 APP 或網路平台辦理業務的數位客群,系統也會即時偵測,當出現高風險行為時即會立即展開關懷提問。

不僅從科技著手,南山人壽以 SAFE 逐步提升防詐安全網

值得特別注意的是,南山人壽並未將防詐視為單一的科技工程,而是從 SAFE–Skilled(防詐訓練)、Awareness(全民防詐)、Fintech(科技運用)、Engagement(聯防合作)–四個構面打造更完整的防護機制。

在專業技能方面,南山人壽不僅協助相關人員熟悉黃金眼 AI 防詐模型的操作模式,也持續透過內部教育訓練,以及跟刑事警察局等單位合作舉辦的工作坊等方式,全面提升員工識詐、阻詐的能力,達到 AI 人機互動的阻詐聯防保護網。

在防詐意識宣導方面,南山人壽除於全台 18 個分公司櫃檯播放刑事警察局提供的反詐騙影片,並在櫃檯明顯位置放置防詐文宣,協助來訪保戶掌握最新詐騙趨勢;更主動走入偏鄉、校園與新住民社群,並針對聽語障人士製作友善素材,以多元形式推廣防詐知識,降低詐騙事件發生的可能性。

在公私協力方面,李淑娟表示,南山人壽積極培育、鼓勵每一位壽險業務員成為「防詐大使」,在拜訪客戶時主動觀察各種異常徵兆,例如可疑的投資文宣或陌生人的頻繁出入,並將這些現場蒐集到的「軟性數據」提供回公司,作為模型判斷的補強資訊,以提升事前預警效果。

為了更好的保護高齡與失智等高風險族群,南山人壽也積極推動「保單安心聯絡人」機制,鼓勵保戶指定第二聯絡人,在其申請保單借款或終止契約時,可以主動通知聯絡人介入確認,降低詐騙風險;此外,亦針對受詐保戶提供「喘息關懷服務」,以低利紓困貸款協助保戶在遭遇詐騙後仍能穩定度過財務壓力,將防詐保護從事中攔阻延伸到事前預警與事後援助兩個層面,樹立產業新標竿。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓