重點一:Google 推出 Gemini 3.5 Live Translate 即時語音翻譯模型,可自動偵測超過 70 種語言,提供自然、低延遲的語音對語音翻譯,即日起陸續整合到 Google 產品與服務。
重點二:Google Meet 與 Google Translate App 將導入 3.5 Live Translate,Meet 的語音翻譯語言數從 5 種大幅擴充到 70 多種、可支援 2000 多種語言組合;行動翻譯則新增耳機與「聽講模式」等更自然私密的使用體驗,所有生成語音皆嵌入 SynthID 浮水印以防誤用。
重點三:Gemini 3.5 Live Translate 透過 Gemini Live API 提供開發者公測,並與 Agora、LiveKit、Fishjam 等平台合作,協助建構多語通話、會議、課程與直播的即時口譯應用,合作夥伴實測回饋翻譯品質佳且延遲極低。
Google 宣布推出最新音訊模型 Gemini 3.5 Live Translate,主打「語音對語音」的即時翻譯能力。新模型可自動偵測超過 70 種語言,在使用者說話的同時即時生成譯文語音,並盡可能保留原說話者的語氣、節奏與音高。
與傳統必須等對方講完才開始翻譯的逐段系統不同,Gemini 3.5 Live Translate 會持續輸出語音,在「等更多語境以提升品質」與「盡快回應保持同步」之間動態調整,讓譯音僅落後說話者幾秒鐘,減少尷尬停頓。
Google 表示,這項功能將陸續導入多項自家產品:開發者可透過 Gemini Live API 與 Google AI Studio 公開預覽版本試用,企業客戶將在 Google Meet 上優先體驗私人預覽版本,一般使用者則可透過 Android 與 iOS 版 Google Translate App 的 Live translate 功能享受更流暢的跨語溝通。
Google Meet 與 Translate App 大升級
Google Meet 的語音翻譯功能將升級為採用 Gemini 3.5 Live Translate。官方表示,此次更新有三大改變:第一,支援語言數從過去只涵蓋 5 種,大幅提升至超過 70 種;第二,在同一場會議中,系統可以在 70 多種語言之間任意配對、互相翻譯,組合總數超過 2000 種,不再侷限於過去只能做『英文 ↔ 其他語言』這種單一中心式的翻譯模式;第三,Meet 介面將更新,讓使用者可更直覺地開啟和調整語音翻譯設定。這項升級將於本月起先在部分 Google Workspace 商務客戶中以私人預覽形式上線。
同時,Gemini 3.5 Live Translate 也將推進至行動裝置上的 Google Translate App,包含 Android 與 iOS 用戶。當使用者啟用 Live translate 功能並連接耳機,即可聆聽更自然、貼近說話者語氣的即時口譯。Google 也在 Android 平台推出新「聽講模式」(listening mode):使用者只要像打電話一樣把手機貼近耳邊,就能直接從聽筒聽到譯文語音,不必外放,也毋需耳機,方便在導覽解說、諮詢等場合中低調、私密地接收翻譯內容。
開發者與企業搶先實測:低延遲、高準確度
Google 已與多家即時通訊與媒體基礎建設平台合作,包括 Agora、Fishjam、LiveKit、Pipecat、Vision Agents 等,讓開發者可在這些平台上更容易部署即時翻譯服務,專注在使用者體驗設計。
實際導入案例方面,東南亞叫車與外送平台 Grab 目前正以 Gemini 3.5 Live Translate 測試司機與乘客在上車地點溝通時的多語通話體驗,該平台每月有超過一千萬通語音通話需求。Grab 首席產品長 Philipp Kandal 指出,Gemini 3.5 Live Translate 在多語自動偵測、翻譯準確度與延遲控制上表現亮眼。
韓國內容集團 CJ ENM 首席 AI 長 Bella Baek 也表示,初步測試顯示,新模型有助提升全球與韓國觀眾的真實觀看體驗。來自 LiveKit、Vision Agents、Fishjam、Agora 等開發與串流夥伴的技術人員則普遍認為,Gemini 3.5 Live Translate 在速度、準確與自然度上達到新一代「業界標竿」,搭配 Fishjam 的 MoQ 協定等新一代串流技術,為即時多媒體翻譯開啟新可能。
Google 也強調,所有由 Gemini 模型生成的音訊都會嵌入 SynthID 浮水印。這種標記將直接編入音訊波形中,方便後續偵測與識別 AI 生成內容,降低假訊息或深偽音檔被濫用的風險。Gemini 3.5 Live Translate 的上線,意味著「即時、多語、自然口語翻譯」從實驗室技術進一步走向日常會議、通話與移動情境,逐漸成為 AI 時代跨語溝通基礎設施的一環。
延伸閱讀:ChatGPT指令大全!70組提示詞一次整理,復古膠片朦朧風、生日海報、簡報封面全搞定
NotebookLM大更新!模型升級Gemini 3.5,還內建雲端電腦幫你跑分析:4大升級亮點一次看
資料來源:Google
本文初稿為AI編撰,整理.編輯/黃若彤
