ChatGPT免費版開放語音對話,中文也通!上網、看圖片、翻譯podcast,功能一次看
ChatGPT免費版開放語音對話,中文也通!上網、看圖片、翻譯podcast,功能一次看

ChatGPT在9月於Android與iOS行動平台上推出語音對話功能,原先只開放ChatGPT Plus訂閱會員及企業用戶,不過現在,此項功能也開放免費版用戶使用了!用戶打開ChatGPT App,點擊對話框旁邊的耳機圖示,就能使用語音與ChatGPT溝通。

根據OpenAI發布的短片可以聽出,ChatGPT語音對話自然,不過在發問後它無法立即回答,需要等待幾秒才會回答使用者。而ChatGPT語音共有5種聊天機器人語調可選擇,也能用中文對話。

另外,先前ChatGPT也開放透過微軟搜索引擎 Bing,進行網路搜尋,解決一直以來資訊停留在2021年9月的痛點。日前ChatGPT祭出哪些重大更新?以下是2023年9月報導,

從ChatGPT推出至今,人們只能像古早的通訊軟體般用文字和它互動,但這種模式很快就要過去了,OpenAI發布的更新預告指出,他們將提供新界面讓用戶可以和ChatGPT語音對話,並且可以識別用戶上傳的圖片。

ChatGPT重磅更新一:支援影像、語音功能,Siri沒戲唱了?

OpenAI指出,即將新增的語音及圖像功能,能為ChatGPT帶來更生活化的使用模式。好比說你外出旅遊時可以拍攝當地地標,即時和ChatGPT詢問相關介紹;又或者可以拍下冰箱內剩餘的食材,請ChatGPT推薦晚餐吃什麼;教導孩子數學作業遇上難題時,也能拍攝照片請ChatGPT協助解題。

在外媒《Wired》的實際測試中,ChatGPT能根據圖像辨識楓樹、甚至細微至餐具、包包的品牌都能精準識別。值得一提的是,ChatGPT在辨識物品時,似乎也會參考用戶在App中設置的職業、地理位置等資訊。

chatgpt image.jpg
圖像辨識功能上線後,用戶將隨手拍攝照片向ChatGPT發問。
圖/ OpenAI

而語音功能則讓ChatGPT擁有更接近語音助理的便利性,用戶可以點擊發話鍵、口述希望得到解答的問題,而ChatGPT也能將回答轉換成語音回應,就像和Google助理、Siri溝通般順暢,且ChatGPT使用的大型語言模型讓他擁有更靈活的回應能力。

ChatGPT的語音功能是怎麼來的?

ChatGPT的語音功能是利用兩個獨立的模型實現,一個是既有的語音轉文字模型Whisper,負責將用戶的對話轉換成文字輸入聊天機器人,以及一個新開發的文字轉語音模型,負責將ChatGPT的回答轉換為語音。

根據OpenAI在官網上的介紹, ChatGPT將提供多達5種合成語音,從清晰明亮的女聲到低沉穩重的男聲等不同類型供用戶選擇 。不過OpenAI也提醒,他們的模型在英文文本外的轉錄表現較差,不建議非羅馬文字的語言使用者利用ChatGPT轉錄語音。

ChatGPT重磅更新二:與Spotify合作,將Podcast轉換成其他語言

值得一提的是,OpenAI在發布更新的同一天,也宣布與Spotify合作,利用AI將Podcast轉換成其他語言,並且保留與創作者相似的聲音與風格,這項技術同樣是基於Whisper打造。

目前Spotify提供《Lex Fridman Podcast》、《Armchair Expert》、《The Diary of a CEO with Steven Bartlett》這三個系列英文Podcast轉換為西班牙語收聽,並將支援法語、德語,未來幾周內還會有更多Podacst支援這項新功能。

AI Tool ChatGPT
ChatGPT發布重磅更新,不只可以「說話」,也能夠辨識圖片。
圖/ Photo by Mojahid Mottakin on Unsplash

OpenAI積極讓技術落地,新功能先提供給付費用戶

從針對企業的ChatGPT Enterprise、前陣子公布ChatGPT與Dall-E串連的功能,到現在公布的語音及圖像能力,OpenAI正積極將起初只是陽春模型的ChatGPT,打造為更接近使用場景的產品。

延伸閱讀:Dall-E 3+ChatGPT強強結合,直接幫你下提示詞!圖片效果變多猛?

藉由這次的語音技術,ChatGPT能透過手機App實現極為接近Siri、Google助理等語音助理的體驗,而圖像辨識也帶來如同Google智慧鏡頭的效果,能隨手拍下好奇的內容向AI發問。

chatgpt voice.jpg
透過語音功能,用戶可以與ChatGPT直接進行口語對話,不必依賴文字。
圖/ OpenAI

ChatGPT也面臨更為激烈的競爭,Google相傳即將在秋季登場的Gemini模型,就被稱為是「多模型」,擁有文字、語音、圖像甚至是影片的輸入方式;亞馬遜、蘋果也都曾傳出正在利用大型語言模型技術重新打造語音助理。

不過一口氣支援了圖像及語音技術,或許也帶來了更複雜的不確定因素。OpenAI研究科學家勞爾.普里(Raul Puri)指出,他們的團隊花了幾個月時間考慮可能被濫用的狀況設定了一些限制,例如用戶不能向ChatGPT詢問有關私人照片的問題。

OpenAI表示,這些新功能預計未來兩周內就會提供給付費用戶(ChatGPT Plus及ChatGPT Enterprise),不過語音功能只能在Android及iOS上使用,之後還會進一步開放給免費用戶使用這些功能。

延伸閱讀:ChatGPT之父來台灣:現在是最幸運的時代!AI未來能多厲害?他一次解答

資料來源:The VergeWiredMIT Technology Review

責任編輯:林美欣

關鍵字: #openai #ChatGPT
往下滑看下一篇文章
全台首創對話式金融服務iWish 永豐銀讓GAI真正走進金融交易現場
全台首創對話式金融服務iWish 永豐銀讓GAI真正走進金融交易現場

你還在手寫填單、逐格Key-in資料嗎?在生成式AI浪潮席捲各行各業之際,永豐銀行推出全台首創「說話就能完成交易」的智能對話式金融服務iWish,讓繁瑣的填單流程成為過去式,使用者可以透過文字輸入、口說敍述或上傳照片等方式,向AI傳達自身需求,無論哪一種方式,AI都可以即時理解使用者意圖,並根據與使用者的對話內容,自動填寫存款、提款、轉帳、匯款等相關表單,顛覆使用者對金融服務的想像。

生成式AI再進化,開啟AI代理人時代

隨著生成式AI的進步,LLM大型語言模型已具備多輪對話和上下文理解的能力,甚至正邁向可以獨立完成任務、不需要人類涉入的AI代理人(AI Agent)的新階段,這項技術突破讓企業既有服務得以展現全新樣貌。

以國際證券經紀商FBS為例,其推出的FBS AI Assistant服務,跳脫傳統單向建議模式,不直接提供評論或建議,而是讓用戶先選擇一至多項技術指標,再交由生成式AI模型解讀並生成專屬分析與操作建議,打造更具互動性與參與感的使用體驗。

永豐金控數位科技長張天豪認為,這種以生成式AI為核心的互動式服務模式,將大幅優化客戶的使用體驗,成為金融服務新常態。未來,客戶不必學習如何操作App,也不用記得交易程序,只要用對話、上傳照片或螢幕截圖等自己習慣的方式表達需求,AI就會理解並協助完成後續動作。「未來的金融服務將像生活中人與人之間的對話一樣,簡單而自然,」張天豪強調。

永豐銀行
前排由左至右:永豐金控數位科技長 張天豪、永豐銀行資訊、數位及作業督導張升寶、永豐銀行綜合企劃處處長 王筱嵐 後排由左至右:永豐金控數位科技處專案經理 林維婕、永豐金控數位科技處專案工程師 廖庭暘
圖/ 永豐銀行

從填單到對話,iWish重塑分行服務體驗

瞄準此未來趨勢,永豐銀行進一步盤點金融服務場景,決定從最貼近客戶的分行場域出發,打造互動式服務新體驗。

張天豪說明,臨櫃交易往往需要填寫各式各樣的表單,這些表單格式通常很制式、欄位繁複,對不熟悉流程的客戶而言,常常填到一半才發現格式錯誤、填錯位置,甚至必須整張重來,徒增挫折與作業時間。

「iWish服務的推出,就是為了讓這段流程可以變得更自然、直覺且輕鬆,」永豐銀行資訊、數位及作業督導張升寶說,客戶不再需要手寫填單,只要開口說、輸入文字或是上傳圖片,告訴iWish想要使用哪些金融服務,就可以完成交易,將原本繁瑣、仰賴經驗的填單作業,轉化成只需一句話或一張圖就能搞定,大幅提升臨櫃交易的服務體驗與作業效率。

以轉帳交易為例,客戶可以口說轉帳帳戶及金額,或是上傳網購訂單的轉帳頁面截圖、團媽在Line上提醒轉帳付款的對話截圖等,iWish會從中辨識表單所需資訊並精準填入銀行系統中對應的欄位,待客戶確認資訊無誤之後,系統就會生成一個二維條碼,只要將二維條碼交由臨櫃人員完成最後核對,就能輕鬆完成金融交易。

AI減輕行員負擔,專注更高價值服務

除了顛覆客戶的使用體驗,iWish服務也為內部作業流程帶來優化和改變,「對永豐銀行而言,iWish服務不是引進AI技術的炫技展示,而是與現有服務模式的無縫融合,讓創新落地、貼近人性」,永豐銀行綜合企劃處王筱嵐處長說。

王筱嵐進一步表示,最開始,金融交易需要經歷「客戶填單+櫃員輸入」的雙重程序,不僅耗時,也容易出錯。之後,永豐銀行推出免填單服務,客戶可以口述或將交易資訊抄寫在紙上,交由櫃員輸入至系統中、列印單據,待客戶簽名確認即可完成交易。

永豐銀行
圖/ 永豐銀行

而iWish則是免填單服務的再進化,藉由生成式AI(GAI)的語意理解與圖像辨識能力,取代櫃員的手動輸入作業,不僅提高效率與準確度,也大幅降低櫃員的作業負擔,可以將心力投注在更有價值的服務與溝通上。

GAI不只是客服輔助工具,更是金融轉型的推進引擎

相較於目前金融業的生成式AI應用,多數仍停留在客服階段,iWish是全台首創直接導入金融交易場景的GAI服務,堪稱跨出關鍵一步。

然而,在實際開發過程中,永豐銀行團隊也面臨諸多挑戰,其中壓力最大的,便是如何降低LLM可能出現的「幻覺」與辨識錯誤風險。尤其在金融交易場景中,AI的辨識精準度不僅關係到客戶權益,更直接影響其對金融服務的信任感,必須以更審慎的態度來看待。

為此,永豐銀行從多個面向著手提升模型準確度,包括優化Prompt設計與模型邏輯、與前線單位密切協作,共同討論介面呈現、使用流程與應用情境、在UI/UX介面加入提醒文字與引導機制,避免造成誤解。此外,團隊也分階段進行大規模封閉測試,邀請全行數百位同仁參與測試,並根據測試結果持續微調優化,確保最終推出的服務穩定度。

iWish的智慧來自於訓練與學習,「越用越聰明」的特性需要使用者參與激發

iWish是一款全新上市的智能服務,專為提升臨櫃交易體驗而設計。現階段iWish服務聚焦於台幣存款、提款、轉帳及匯款4大交易類型,並以「分行」為主要場景,未來則計劃將iWish服務擴展至更多金融交易類型,甚至走出分行場景,與iBranch等線上服務結合。

永豐銀行
永豐iWish以「智讀」、「智說」、「智寫」人性化操作,讓金融交易更方便快速
圖/ 永豐銀行

iWish的成功落地不僅是技術突破,更宣示意味著,生成式AI正式從客服輔助工具,搖身一變成為可以理解意圖、自然回應、主動引導的智慧助理,讓用戶在熟悉的對話情境中完成交易,實現真正以人為本的金融體驗。而AI模型的成長需要訓練,iWish在初期也需要客戶的參與來變得更聰明,透過接觸到更多元的使用情境,進一步完善服務,讓每一次互動都更懂客戶的需求。

「iWish服務只是第一步,」張升寶認為,這項服務不僅重新定義人與銀行的互動方式,也為生成式AI在金融業的應用看見新的可能。他期許未來能進一步擴大AI Agent應用範圍,讓AI不再只是輔助工具,而是驅動金融轉型的核心力量。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓