不只看圖說故事而已!OpenAI發布o3與o4-mini視覺推理模型,讓AI「以圖思考」
不只看圖說故事而已!OpenAI發布o3與o4-mini視覺推理模型,讓AI「以圖思考」

OpenAI最新推出的o3與o4-mini多模態模型,在視覺感知領域投下震撼彈,首次能夠在思考鏈(chain-of-thought)中運用圖像進行推理,而非僅僅「看見」圖像。

這項創新功能可說徹底改變了AI與視覺內容的互動方式,讓模型從看圖說故事的階段,進階到自行使用網路搜尋、資料分析工具,更深入地理解和解決複雜的圖像資訊。

o3和o4-mini不只會看,還能「解讀」圖像背後意義

根據OpenAI,o3和o4-mini經過特殊訓練,能夠對圖像使用較長的內部思考鏈來形成回應,從而擴展視覺推理能力,也就是在思考過程中直接運用圖像進行推理並給出解答。

這種「以圖像思考」的能力,是透過各種工具包括裁剪、放大、旋轉以及其他的圖像處理技術,來推理用戶上傳的圖像。更重要的是,這些視覺推理能力是原生整合的,不依賴外部專業模型。

o3和o4-mini也能與其他工具協同工作,例如Python程式碼、網路搜尋、圖像生成和ChatGPT中的所有工具等,有效地解決步驟較多的問題。o3和o4-mini模型的視覺推理能力使ChatGPT能夠:

  • 深度分析圖像:模型能夠更全面、準確且可靠地分析圖像內容
  • 無縫結合多種工具:可同時運用高級推理、網路搜尋和圖像處理工具
  • 主動處理圖像:自動縮放、裁剪、翻轉或增強圖像以提取更多訊息
  • 處理不完美圖像:即使從品質不佳的照片中也能抓出有用見解

OpenAI也表示,o3和o4-mini在多種人工考試和ML基準測試中,明顯優於前代模型。

視覺推理如何應用?辨識手寫、找公車時刻表都有戲

OpenAI展示了多種視覺推理應用,用戶能夠以更自然、直觀的方式與ChatGPT互動,以下舉幾個應用例子示範,皆使用o3模型完成:

辨識手寫內容

用戶可以拍攝含有文字的照片提問,無需擔心物體的定位問題。例如,即使照片中的筆記本文字是顛倒的,模型也能識別出「4th February – finish roadmap」的內容。

解決複雜學術問題

模型能夠分析和解決高階的學術問題,例如,含有物理學的量子電動力學(QED)題目照片,它能夠識別費曼圖和相關數學公式,逐一拆解步驟提供詳細解答。

OpenAI o3 and o4-min
圖/ OpenAI

識別公共標誌與資訊

用戶拍攝街道上的公共標誌照片,模型能夠識別上頭的文字字樣,例如「Ochsner URGENT CARE」,即使文字相對模糊或距離較遠。

OpenAI o3 and o4-min
圖/ OpenAI

分析地點與交通資訊

模型能夠識別特定地點,並結合網路搜索、資料查找,提供準確交通訊息,例如,從照片中的公車顏色、看板招牌辨識出「箱根登山公車站」,並透過網路搜尋等工具分析公車時刻表,找到「白天每15-20分鐘一班車」的發車資訊。

解決特殊視覺難題

模型能夠分析並解決視覺難題,例如迷宮問題,透過Python資料分析,自動推理路徑並以紅線標示解謎。

OpenAI o3 and o4-min
圖/ OpenAI

推理事件與地點特徵

能夠分析照片中的學術禮服和場景特徵,藉此確認特定事件,例如,從一張沒有任何文字的照片中,判斷出背景為MIT畢業典禮、畢業生戴著博士生學位的灰色帽子,以及「24」字樣代表為「2024屆」,並以網路搜尋找出MIT在2024年的畢業典禮時程,確定是工程學院在2024年5月29日的畢業典禮。

OpenAI o3 and o4-min
圖/ OpenAI

辨認特定建築與相關資訊

模型能夠根據建築特徵和風格識別地點,提供在該地點拍攝的電影訊息,例如從照片中的紅色紋路欄杆、海岸背景等線索,推測出照片地點為法國里維埃拉的Villa Kérylos,並進一步網路搜尋有哪些電影曾在此地點拍攝過。

OpenAI o3 and o4-min
圖/ OpenAI

軟體與媒體公司《Every》執行長Dan Shipper發布一篇體驗文章,表示自己「已離不開o3了」,他利用o3進行各種研究評測,例如採訪對象研究、預測公司內部會議內容、制定YouTube 播放列表、挖掘書籍細節等,並對o3強大的代理性網路搜尋和視覺推理能力給予高度評價,同時也指出該模型在一些方面仍存在限制:

1. 表格偏好過度

o3的小缺點是它對表格的過度依賴,無論是在回應任何問題時,都傾向於用表格來展示答案。雖然表格能有效地展示訊息,但在某些情況下,過多的表格呈現反而無法清楚解釋。

2. 圖像識別尚未完美

在圖像識別方面,o3仍有改進空間。當使用者要求識別嬰兒車品牌時,o3偶爾會錯誤地將注意力集中在嬰兒車旁的牆壁上,而不是品牌Logo,並且給出了一個看似正確但實際錯誤的答案。然而,經過多次測試,o3模型在三次嘗試中兩次提供了正確答案。

3. 長文件處理仍有瑕疵

o3在處理超長文件檔案時有時會出現幻覺,這是許多 AI 模型的常見問題。此外,當對話持續進行多小時後,o3有時會顯得較為懶散,回應的品質略有下降。

Shipper表示,o3目前的問題其實也沒有比其他模型來得嚴重,且從回應品質上來看,o3整體出錯率反而比較低。隨著未來版本的更新,這些小問題有望得到修正,使 o3 在穩定性和準確性上達到更高水準,進一步提升使用者體驗。

延伸閱讀:吉卜力生圖引爆破圈!奧特曼稱OpenAI用戶「暴增至約8億人」:全球10%的人都在用

資料來源:OpenAI、Every

本文初稿為AI編撰,整理.編輯/ 蘇柔瑋

關鍵字: #openai
往下滑看下一篇文章
資安齊發!合勤集團三品牌同台,展現整合防禦實力
資安齊發!合勤集團三品牌同台,展現整合防禦實力

資安已成企業營運的基本保障,合勤集團整合旗下兆勤科技、黑貓資訊與勤晁科技,打造從基礎設施到智慧防護的完整資安體系,助企業穩健邁向AI新時代。

隨著企業加速推動數位轉型、駭客持續進化攻擊手法,資安早已不是可有可無的保險,而是企業日常營運的「剛性需求」。看準資安市場商機,合勤集團(Zyxel Group)近年來積極透過旗下3家子公司—兆勤科技、黑貓資訊與勤晁科技佈局資安防線。在日前登場的CYBERSEC 2025台灣資安大會上,更以「資安特勤,偕同出擊」為主題,展示一個涵蓋AI 驅動的雲地整合防禦、智慧資安維運服務到高規格跨域網路安全與加解密的完整防禦體系,不僅吸引大批與會者駐足,成為展場人氣最旺的攤位之一,更充分展現合勤集團在資安領域的強勁實力與市場吸引力。

兆勤科技祭出雙軌策略,助攻中小企業資安升級

根據統計,2024年的目標式勒索資安事件,高達90%是以中小企業為攻擊目標,顯見,資安防護不再是大型企業才需要關注的課題,中小企業的資安需求同樣迫切且不容忽視。

「然而,中小企業因為缺乏資安專業人才及預算有限,不易做好資安管理,再加上近年來網路攻擊手法多變且複雜,更加深應對威脅的難度,」兆勤科技總經理蔡明見一語道出中小企業的資安挑戰。為此,兆勤科技祭出「簡化管理、強化服務能量」的雙軌策略,持續精進雲端網路安全解決方案,讓中小企業能夠以最少資源完成資安佈署工作。

在簡化管理上,兆勤科技以Nebula雲端管理平台為核心,透過以下3大機制,達到簡化管理負擔的目標。首先,在Nebula平台導入雲地共融技術,讓雲地兩端的安全策略及網路設定可以同步,突破傳統網路設備管理模式只能本地或雲端二選一的限制,也為企業網路管理提供更多彈性,企業可以先採用本地管理,待習慣雲端操作時,再一鍵轉移到雲端,無需重新配置、也不需更換設備,大幅降低轉型門檻,打造跨平台的一致性防護。

合勤科技
兆勤科技總經理蔡明見
圖/ 數位時代

其次,Nebula平台除了可以集中管理防火牆、交換器、無線AP等各個網路設備,設定介面亦相當簡單好操作,透過各種方式例如:事先預設基礎設定、掃描條碼即可將設備加入網路等,讓使用者即便不是專業IT人員,可以輕鬆完成設定、掌握整體網路狀態,大幅降低學習門檻與提高管理效率。

第三、Nebula平台可以自動接收韌體更新與漏洞修補程式,避免因人力不足而忽略系統維護與更新的風險。

在強化服務能量上,兆勤科技積極輔導經銷或通路夥伴建立服務能量,滿足中小企業對網路代管服務的需求。「這是能為中小企業、夥伴與兆勤創造3贏的做法,」蔡明見說明,藉由Nebula平台可以遠端管理的特性,使經銷或通路夥伴能夠一次管理上百個客戶的網路設備,並以訂閱制收取服務費用,成功由傳統硬體銷售轉型為網路代管服務提供者,同時也讓中小企業得以使用網路代管服務,近來,兆勤更推出pay-as-you-go金流方案,協助夥伴降低資金壓力,加速拓展服務市場。

黑貓資訊破除IT與資安斷層,強化內部防禦

合勤集團旗下專注於資安顧問及託管服務的黑貓資訊,自2017年由合勤投控公司資安部門分拆出來後,便聚焦在解決企業 IT 與資安協同作業的挑戰。「企業內網管理的盲點有很多,但IT與資安的協作斷層,是目前最常見也最迫切要解決的問題,」黑貓資訊總經理游政卿說。

IT與資安雖然密不可分,但實務上,企業通常將IT與資安劃分成2個團隊,且彼此的工作重點也不相同,IT 團隊專注資源調度、確保系統穩定與效能,資安團隊則忙於應對警報和威脅,這種分工模式不只讓攻擊者有機可乘,更會令IT團隊誤以為資安只會加重工作負擔。

合勤科技
黑貓資訊總經理游政卿
圖/ 數位時代

「資安的價值,應該從協助IT部門解決問題開始,而不是增加負擔。」游政卿強調,因此,資安團隊首先要做的就是「與IT同在」,從理解IT團隊的需求、解決痛點到取得信任,雙方才能進一步協作,共同應對日益複雜的網路威脅。

以IT資產盤點為例,這是IT團隊相當重要又很耗時費力的工作,而資安團隊可以透過端點安全解決方案(EDR)進行資產盤點,先協助IT團隊掌握所有終端設備的型號、使用狀況與更新需求,再延伸到端點安全防護議題,如此不僅減輕IT負擔,也讓資安建置更具體有感。

除了IT與資安的協作斷層外,包括資產與風險能見度不足、過度依賴邊界防禦,忽略內部橫向移動的風險、以傳統基於特徵碼的靜態防禦機制為主,無法有效應對快速變化的動態威脅、對於第三方軟硬體與的安全把關不足等,亦是企業內網管理常見的盲點。

對此,黑貓資訊憑藉深厚技術底蘊,自主研發多元資安解決方案與服務。在解決方案端,推出在如同樂隊指揮家的智慧XDR防護平台,可協調整合多源資安日誌,並結合AI技術大幅提昇威脅偵測的精準度,亦有可部署於地端(On-premise)的SIEM 解決方案,滿足企業對資料落地、合規與客製化的需求。在服務端,不僅提供24 X7全年無休的MDR/SIEM/SOC 託管式監控服務,更同步提供滲透測試、弱點掃描、供應鏈風險檢測等服務。

值得一提的是,黑貓資訊目前正積極申請ISO 17025資通安全檢測實驗室認證,導入NIST SP 800-115測試流程,協助企業確保所導入的資安方案具備可驗證性與國際標準接軌能力。

在數位轉型成為企業生存關鍵的當下,資安已成為業務穩定與品牌信任的保證。合勤集團透過兆勤科技的雲地整合資安服務、黑貓資訊的智慧防護與專業服務,以及勤晁科技的高規安全方案「偕同出擊」,建構出一條完整而具彈性的資安防線,讓不同需求的客戶都能享有最合適與全面的資安保障,更有信心邁向AI新時代。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣50
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓