不只看圖說故事而已!OpenAI發布o3與o4-mini視覺推理模型,讓AI「以圖思考」
不只看圖說故事而已!OpenAI發布o3與o4-mini視覺推理模型,讓AI「以圖思考」

OpenAI最新推出的o3與o4-mini多模態模型,在視覺感知領域投下震撼彈,首次能夠在思考鏈(chain-of-thought)中運用圖像進行推理,而非僅僅「看見」圖像。

這項創新功能可說徹底改變了AI與視覺內容的互動方式,讓模型從看圖說故事的階段,進階到自行使用網路搜尋、資料分析工具,更深入地理解和解決複雜的圖像資訊。

o3和o4-mini不只會看,還能「解讀」圖像背後意義

根據OpenAI,o3和o4-mini經過特殊訓練,能夠對圖像使用較長的內部思考鏈來形成回應,從而擴展視覺推理能力,也就是在思考過程中直接運用圖像進行推理並給出解答。

這種「以圖像思考」的能力,是透過各種工具包括裁剪、放大、旋轉以及其他的圖像處理技術,來推理用戶上傳的圖像。更重要的是,這些視覺推理能力是原生整合的,不依賴外部專業模型。

o3和o4-mini也能與其他工具協同工作,例如Python程式碼、網路搜尋、圖像生成和ChatGPT中的所有工具等,有效地解決步驟較多的問題。o3和o4-mini模型的視覺推理能力使ChatGPT能夠:

  • 深度分析圖像:模型能夠更全面、準確且可靠地分析圖像內容
  • 無縫結合多種工具:可同時運用高級推理、網路搜尋和圖像處理工具
  • 主動處理圖像:自動縮放、裁剪、翻轉或增強圖像以提取更多訊息
  • 處理不完美圖像:即使從品質不佳的照片中也能抓出有用見解

OpenAI也表示,o3和o4-mini在多種人工考試和ML基準測試中,明顯優於前代模型。

視覺推理如何應用?辨識手寫、找公車時刻表都有戲

OpenAI展示了多種視覺推理應用,用戶能夠以更自然、直觀的方式與ChatGPT互動,以下舉幾個應用例子示範,皆使用o3模型完成:

辨識手寫內容

用戶可以拍攝含有文字的照片提問,無需擔心物體的定位問題。例如,即使照片中的筆記本文字是顛倒的,模型也能識別出「4th February – finish roadmap」的內容。

解決複雜學術問題

模型能夠分析和解決高階的學術問題,例如,含有物理學的量子電動力學(QED)題目照片,它能夠識別費曼圖和相關數學公式,逐一拆解步驟提供詳細解答。

OpenAI o3 and o4-min
圖/ OpenAI

識別公共標誌與資訊

用戶拍攝街道上的公共標誌照片,模型能夠識別上頭的文字字樣,例如「Ochsner URGENT CARE」,即使文字相對模糊或距離較遠。

OpenAI o3 and o4-min
圖/ OpenAI

分析地點與交通資訊

模型能夠識別特定地點,並結合網路搜索、資料查找,提供準確交通訊息,例如,從照片中的公車顏色、看板招牌辨識出「箱根登山公車站」,並透過網路搜尋等工具分析公車時刻表,找到「白天每15-20分鐘一班車」的發車資訊。

解決特殊視覺難題

模型能夠分析並解決視覺難題,例如迷宮問題,透過Python資料分析,自動推理路徑並以紅線標示解謎。

OpenAI o3 and o4-min
圖/ OpenAI

推理事件與地點特徵

能夠分析照片中的學術禮服和場景特徵,藉此確認特定事件,例如,從一張沒有任何文字的照片中,判斷出背景為MIT畢業典禮、畢業生戴著博士生學位的灰色帽子,以及「24」字樣代表為「2024屆」,並以網路搜尋找出MIT在2024年的畢業典禮時程,確定是工程學院在2024年5月29日的畢業典禮。

OpenAI o3 and o4-min
圖/ OpenAI

辨認特定建築與相關資訊

模型能夠根據建築特徵和風格識別地點,提供在該地點拍攝的電影訊息,例如從照片中的紅色紋路欄杆、海岸背景等線索,推測出照片地點為法國里維埃拉的Villa Kérylos,並進一步網路搜尋有哪些電影曾在此地點拍攝過。

OpenAI o3 and o4-min
圖/ OpenAI

軟體與媒體公司《Every》執行長Dan Shipper發布一篇體驗文章,表示自己「已離不開o3了」,他利用o3進行各種研究評測,例如採訪對象研究、預測公司內部會議內容、制定YouTube 播放列表、挖掘書籍細節等,並對o3強大的代理性網路搜尋和視覺推理能力給予高度評價,同時也指出該模型在一些方面仍存在限制:

1. 表格偏好過度

o3的小缺點是它對表格的過度依賴,無論是在回應任何問題時,都傾向於用表格來展示答案。雖然表格能有效地展示訊息,但在某些情況下,過多的表格呈現反而無法清楚解釋。

2. 圖像識別尚未完美

在圖像識別方面,o3仍有改進空間。當使用者要求識別嬰兒車品牌時,o3偶爾會錯誤地將注意力集中在嬰兒車旁的牆壁上,而不是品牌Logo,並且給出了一個看似正確但實際錯誤的答案。然而,經過多次測試,o3模型在三次嘗試中兩次提供了正確答案。

3. 長文件處理仍有瑕疵

o3在處理超長文件檔案時有時會出現幻覺,這是許多 AI 模型的常見問題。此外,當對話持續進行多小時後,o3有時會顯得較為懶散,回應的品質略有下降。

Shipper表示,o3目前的問題其實也沒有比其他模型來得嚴重,且從回應品質上來看,o3整體出錯率反而比較低。隨著未來版本的更新,這些小問題有望得到修正,使 o3 在穩定性和準確性上達到更高水準,進一步提升使用者體驗。

延伸閱讀:吉卜力生圖引爆破圈!奧特曼稱OpenAI用戶「暴增至約8億人」:全球10%的人都在用

資料來源:OpenAI、Every

本文初稿為AI編撰,整理.編輯/ 蘇柔瑋

關鍵字: #openai
往下滑看下一篇文章
中華電信前進Meet大南方:以數位生態協創 引領AI時代競爭力
中華電信前進Meet大南方:以數位生態協創 引領AI時代競爭力

在新興科技快速發展的時代,企業的智慧轉型與產業的持續進化,仰賴跨域協創夥伴的協同合作。作為數位生態協創者的中華電信,近年來積極推動產業合作,並在2025 Meet Greater South亞灣新創大南方主題論壇「南方創新力:亞灣AI半導體經濟論壇」上,展示海地星空網路全面涵蓋、AI資料中心、AI運算與雲端資料庫等,彰顯其在AI時代的核心價值。此外,中華電信也分享了多項AI應用落地實績,示範如何透過Agentic AI的判斷與決策,以及各式客製化的創新流程,為產業注入新動能。

中華電信企業客戶分公司副總經理梁冠雄表示,公司自1996年民營化以來,持續深耕電信本業並大力拓展數位整合服務,如今已躍居台灣市值前十大公司。近年來更瞄準AI趨勢,積極與生態夥伴、垂直應用方案業者跨域合作,一路由電信服務提供者(CSP)、數位服務提供者(DSP)、數位服務賦能者(DSE)走向數位生態協創者(DEC)。透過不斷的業務轉型,中華電信展現了身為電信業者在數位時代的新價值,同時協助企業提升數位韌性與創新競爭力。

為此,中華電信將持續整合以AI為首的七項新興科技,包括智慧物聯網(AIoT)、大數據(BigData)、雲端(Cloud)、資訊安全(Data Security)、邊緣運算(Edge Compute)、5G(fifth Gen)及生成式AI(GenAI),為企業提供從AI基礎建設到創新應用的一站式服務,希望加速賦能百工百業發展AI應用、共同創造更大價值。

中華電信3
圖/ 數位時代

AI關鍵價值1》:海地星空與全光網路,為AI落地應用加速

梁冠雄指出,中華電信透過網路全面涵蓋、AI資料中心(AIDC)與雲平台的AI基礎建設,為企業帶來三大關鍵價值。

首先,中華電信透過「海地星空」網路,打造具高度韌性的連網環境,解決企業通訊中斷的痛點。除了全台第一的固網與行動網路外,中華電信更持續強化海纜建設,近年來投入大量資源發展衛星通訊,已具備低軌、中軌與高軌衛星的完整能量。藉此,無論國內外,中華電信都能透過海纜與衛星等高度韌性網路,為企業提供通訊雙重保障,確保暢通無虞。

同時,為因應AI大量資料傳輸的需求,中華電信亦積極佈局全光網路(All-Photonics Network,APN),2024年與日本NTT合作,以100 Gbps光傳輸頻寬進行跨國資料傳輸測試,資料往返時間僅需約為33.84毫秒,效率遠超過傳統單向傳輸需花費200~500毫秒。梁冠雄表示:「此次測試結果證明,全光網路有機會實現分散式AIDC的創新運作模式。」藉由全光網路超高速、低延遲和低功耗的傳輸特性,讓資料和運算資源可分散兩地,突破地點限制,賦予企業AI策略更高度的彈性。

中華電信4
圖/ 中華電信

AI關鍵價值2》:AI 資料中心升級,打造彈性高效的算力服務

在AI資料中心方面,中華電信已將既有的IDC升級為AIDC,並正式推出「hicloud AI算力雲」GPU雲端租賃服務,為有需求的企業提供AI算力雲租借服務。

梁冠雄強調,企業只需依照實際使用時間來支付費用,不必投入高額成本去購置硬體,即可滿足在AI高效能運算上的即時需求,大幅提升取得AI運算資源的靈活度與彈性,同時降低研發成本,快速搶佔技術先機。此外,考量到AIDC在耗能與散熱上的挑戰,中華電信亦規劃導入直接液冷與沉浸式等散熱技術,為大規模GPU部署提前做好準備。

AI關鍵價值3》:串聯台灣前四大公雲,提供AI特色服務與可靠雲端環境

中華電信完整布局公雲服務,除自有雲端品牌hicloud,亦是AWS、Azure及GCP三大國際公雲的重要合作夥伴,更自主研發各項雲平台特色服務,例如:雲網安整合的資安防護、CMX專屬電路直連雲端、CMP多雲管理平台及加密分持等,為企業打造更安全、穩定且高效的雲端運行環境。

舉例來說,企業可以透過CMP同時管理兩個以上的雲端環境,或透過加密分持服務,避免資料過度依賴單一雲端而導致的營運風險。梁冠雄說明,加密分持機制將企業的資料備份分切成三份,並分別儲存在不同公有雲上,日後若遇到資料毀損或系統停擺等情況,只要將三份資料集結起來就能恢得運作,達到高可用與高安全的效果。

此外,搭配自主研發的AI Factory平台,讓企業可以低代碼方式,開發AI模型與應用,並執行應用所需算力與雲資源。

中華電信1
圖/ 數位時代

Agentic AI應用》以數位韌性驅動智慧城市、交通與醫療創新

在AI基礎建設外,梁冠雄亦分享中華電信在智慧城市、智慧交通與智慧醫療的Agentic AI應用實例。

以智慧城市應用為例,中華電信打造的AI淹水預警及輔助決策系統,能根據影像監控自動判斷災害等級,並據此自動進行應對措施決策,例如抽水設備調度、避難指引、淹水示警等。在智慧交通管理上,中華電信結合VLM技術打造的交通壅塞預警及輔助決策系統,不僅能判斷道路壅塞或車站人潮擁擠的程度,還能偵測交通事故,並依事件的嚴重程度及提供決策建議。在智慧醫療領域,中華電信同樣投入大量心力,以AI完善病患從看診前、看診中到看診後的所有流程,不僅提升了醫療效率,也讓醫護人員能更專注於病患照護,真正展現智慧醫療的價值。

梁冠雄強調,未來中華電信將以數位韌性為核心,持續深化AI基礎建設與創新應用的雙軌布局,並期待與更多新創攜手合作,將創意與技術落地,共同打造多元共榮的產業生態系。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓