1.他拾起大廠不做的苦力活!長問科技總經理陳又碩如何搶救台語與華語語料庫間高達73倍的落差,防止母語在AI時代失聲?
2.奔走7年,公司一度連虧3年、1/3核心團隊出走!他怎麼靠「笨功夫」讓119聽得懂台客語?
3.驅動他堅持下去的使命,藏在一位父親對下一代的焦慮:「會不會有一天,孩子聽不懂阿公說的『吃果子拜樹頭』?」
「這裡是一一九勤務中心,請問需要消防車還是救護車?」話筒另一端,老人家慌亂顫抖、結結巴巴的用國、台語交錯報案。過去,派案員得在生死交關的幾秒鐘內,一邊安撫、一邊從模糊鄉音中判讀訊息;如今,AI語音辨識系統會同步分析報案內容,當偵測「沒有呼吸、沒有心跳」等關鍵字,系統會紅色警示,預判為OHCA(到院前心肺停止)案件,自動聯動高級救護派遣模組、推播急救先鋒App,通報案件。
他拾起大廠不願做的苦力活!做AI語音系統,救台、客語斷層危機
這套每天接聽上千通、精準識別國、台、客、英四種語言的救命系統,幕後功臣是長問科技總經理陳又碩,他做的是Google、OpenAI等大廠,明知台灣有需求,卻不願做的「苦力活」。
台灣正面臨無聲卻巨大的「語言斷層」。根據二○二○年內政部人口普查資料,全台六到十四歲的國小、國中學童,只剩下七.四%將台語當成主要溝通語言,客語更慘,跌到○.三%。
「台語在住院中、客語進加護病房、原住民語則在急救中,」致力發展台灣本土語音語料庫、陽明交通大學智能系統研究所教授兼所長廖元甫形容。
陳又碩小檔案
出生:1976年
學歷:台北科技大學電機工程系博士
現職:長問科技總經理
斷層數字:華語與台語語料量差距達73倍
修補行動:將本土語AI模型導入商業場景,模型更優化
跑遍鄉鎮,用笨功夫打造語料庫!一度連三年虧損、三分之一團隊出走
「當高科技越發展,低資源的語言越容易『掛掉』。」他指出,目前中國釋出的華語語料庫總時長已達二萬二千多小時,台灣的台語語料庫卻只有三百個小時,落差高達七十三倍。這意味著AI模型辨識中文會遠比台灣國語精準。台灣使用者被迫放棄使用自己的腔調,如果不搶救,未來長者要請照護機器人幫忙倒一杯水,也得說北京腔。
陳又碩是廖元甫的學生。為了替瀕危的本土語言建立語料庫,他們從一八、一九年開始展開一場「數位田野調查」。團隊沒有待在實驗室,而是帶著錄音設備跑遍屏東、台中東勢、雲林崙背等地。
每次錄音,他們得同時架設六支麥克風,模擬手機、電腦與智慧音箱等不同距離與角度的收音情境,確保AI在嘈雜的活動中心或醫院診間也能辨識語音,還要請審聽老師現場糾正,因為許多長輩以為自己在講客家話,其實混雜了九成台語。
錄音現場更是耐力的挑戰。陳又碩必須拜訪各地語言專家,請他們帶路找出隱身在巷弄間的耆老;為了衝語料量,他跟媒體談合作:「我提供你語音轉換字幕的軟體,你提供節目影片與字幕檔。」
「這不是大廠會做的事,」 陳又碩說。當對手追求規模化、低成本的通用模型時,他們卻在磨最細碎、最難自動化的在地語料,這樣的笨功夫,一磨就是整整一年,直到疫情時,終於被看見。
二○二○年,疫情指揮中心記者會的語音即時字幕系統,全都採用長問的產品。團隊每天緊盯直播字幕,即時微調模型。他記得:「全台北市街道空蕩蕩,只有同事為了公事,趕到公司。」
兩年後,另一個時刻讓他們更加確信這條路走得對。
二○二二年,Meta執行長佐伯格為展示AI技術,邀請台灣學者與他以台語對話,背後使用的正是同一套語料庫。「終於可以證明語料庫是有用的,而且還幫忙國庫賺到錢!」廖元甫說。
然而,就在技術開始受到關注時,公司卻陷入最艱難的時刻。連三年虧損、核心團隊出走三分之一,陳又碩回憶:「看著一起打拚的學弟選擇離開,當下的士氣真的很低迷。」
突破商業化門檻,也為下一代著想!兩年前營收開始翻倍成長、由虧轉盈
更大的挑戰來自商業化門檻。二○二三年,企業若想導入系統,光是採購AI運算的GPU硬體,就需要約五百萬元投資。對中小企業而言,這是一道難以跨越的門檻。
「都還沒看到成效,就要先花五百萬,這是一個很大的瓶頸,」陳又碩理解客戶的卻步。為了生存,他沒有放棄,帶領團隊埋首兩年,硬是透過軟體優化,將硬體成本從五百萬降至七十萬,降幅超過八成五。
當導入門檻降低,飛輪才真正開始轉動。醫療院所、金融機構與政府單位陸續採用,包括雙北服務專線1999,以及台北的119指揮中心。
與學者們不同的是,陳又碩選擇把研究帶進真實場景。因為只有技術真正被使用,資料才會累積,AI模型才能持續進化,而不必永遠依賴人工採集語料。
二四年,長問營收開始翻倍成長,公司轉虧為盈。鴻海、台灣大哥大、中華電信與三商電腦等都成為夥伴,一起把本土語AI辨識系統導入更多場域。
「連全球雲端大廠都要找我們處理,我就知道這條路走對了。」他說。
現在,在客語重鎮桃園聯新國際醫院,客家長者看診時不再擔心醫師聽不懂,診間導入語音辨識系統後,螢幕會即時將患者描述轉為中文字幕並對應醫學術語,減少語言造成的醫病誤解。
台北市消防局局長莫懷祖也期待,未來在救災現場,指揮官只要輸入語音,AI就能自動整理重點與需求,協助決策。「那會是我們的生存夥伴!」
在公司,陳又碩是帶領團隊打磨技術的總經理;回到家,他卻是焦慮的父親。
「我的孩子讀國、高中,他們只會聽、卻不會說台語了。」他語帶遺憾的說:「會不會有一天,孩子聽不懂阿公說的『吃果子拜樹頭』?語言消逝了,文化也就稀釋了啊。」
這份焦慮,讓他對這份「笨功夫」有了不同的使命:他標記語料,不僅是為了AI準確率,更是為了將來某一天,當下一代想找回自己的文化根基時,數位世界裡還留有最道地的素材,甚至能向AI重新學習母語。
即使華語與本土語言的語料差距仍有七十三倍之遙,陳又碩並未停下腳步。他很清楚,這項事業不是賺快錢,而是為台灣的未來買一份語言保險。
「就算只是把一顆微小的石頭丟進大海,我也要試著激起更大的浪花。」他說。只要有人願意在大海中持續激起浪花,美麗的台灣母語,就不會在AI時代的浪潮中失聲。
本文授權轉載自《商業周刊》
