重點一:ChatGPT Images 2.0 文字描繪與多語系大躍進:日、韓、中、印地、孟加拉文皆可渲染。
重點二:首度加入「思考模式」,一次產最多 8 張連貫系列圖,並能自我檢查校對輸出。
重點三:時間點逼近IPO,OpenAI 要靠新圖像熱度衝破 10 億週活用戶。
OpenAI 在 4 月 21 日舉行線上發表會,推出新一代圖像生成模型 ChatGPT Images 2.0,主打精準文字描繪、多語系支援,以及首度具備「思考能力」的圖像生成模式。
執行長奧特曼(Sam Altman)在直播中形容:「Images 2.0 是一次巨大飛躍,就像一次從 GPT-3 跳到 GPT-5。」OpenAI 要把圖像生成從「按鈕式產圖」推進到「視覺合作夥伴」,讓模型不只生圖,還要會規劃、查資料、反覆校對自己的輸出。
OpenAI推出ChatGPT Images 2.0!中文字與非拉丁文字,終於不再亂碼
過去兩年,AI 生圖工具最被詬病的就是文字亂碼問題。兩年前你請 DALL-E 3 畫一張墨西哥餐廳菜單,菜名會變成「enchuita」「churiros」「burrto」「margartas」這類發明字。中文、日文、韓文等非拉丁文字的情況更慘,筆畫錯置、結構扭曲是家常便飯。
這次 Images 2.0 特別把「非拉丁文字渲染」列為主要升級項目,官方點名日文、韓文、中文、印地文、孟加拉文的文字表現都有明顯進步(OpenAI 官方公告僅以「Chinese」表述,未區分繁體或簡體)。
發表會上展示的示範包括:完整的日式漫畫頁面、一整張米飯照片中只有單一米粒印有模型名稱,以及能直接在 API 以 2K 解析度輸出的海報與資訊圖。
換言之,對華文市場的編輯、行銷、設計工作者來說,這代表可以直接用一張 AI 生成圖產出宣傳素材,而不用再事後修文字。
「思考模式」是新玩法,一次給你八張可用成品
Images 2.0 最大的結構性改動,是引入 OpenAI 推論模型的「thinking(思考)」能力。
白話說,過去 AI 生圖是「一句 prompt 換一張圖」,想要系列作品得自己一張張餵指令。新版的思考模式可以接收一次性的複雜需求,例如「幫我做一組開幕廣告,要 Twitter、IG 限動、IG 主頁、LinkedIn 四種比例」,模型會自己拆解任務、上網查即時資訊,產出最多 8 張「角色與物件連貫」的圖像。
OpenAI 形容這是「視覺合作夥伴(visual thought partner)」:它不只是工具,而是能接手從草稿到成品中間的整理、編排、校對工作。
思考模式另一項能力是自我檢查。模型生圖後會回頭驗證輸出是否符合指令,官方稱錯字「非常罕見(very rare)」。
不過該模式目前只開放給 ChatGPT Plus、Pro、Business 付費用戶;所有 ChatGPT 與 Codex 用戶可使用較快的「即時模式(instant mode)」。
會上網查資料,知識截止到 2025 年 12 月
另一個值得注意的升級,是 Images 2.0 具備更新的世界知識。官方標示模型的知識截止日為 2025 年 12 月,在思考模式下還能搜尋網路補最新資訊。這對製作說明圖、教學素材、資訊圖表這類需要準確度的場景特別關鍵。
例如畫出「Cantor 對角線證明」這類抽象數學概念的資訊圖,模型可以自己整理內容、寫出說明文字、安排版面配置,而不是單純把 prompt 渲染成圖。
不只對手逼近,OpenAI 還有 IPO 壓力
Images 2.0 的時機點也不是巧合。
去年底 Google 連發 Gemini 3 與圖像生成工具 Nano Banana Pro,外界評價熱烈,OpenAI 內部據報隨後發布「code red」備忘錄。另一頭,Anthropic 以 Claude Code、Claude Cowork 等代理式工具強攻開發者與企業市場,逼得 OpenAI 持續加碼旗下的 Codex 更新。
此外,OpenAI 傳出最快今年內 IPO。在獲利壓力下,公司近期已改組為公益企業、砍掉部分產品線(如影片生成工具 Sora)。2 月時 OpenAI 公布 ChatGPT 的週活躍用戶突破 9 億;若 Images 2.0 能複製去年「吉卜力風」的病毒級熱度,對 ChatGPT 衝破 10 億週活用戶有直接幫助。
但Images 2.0還不完美,物理結構與密集細節仍吃力
OpenAI 也坦承現階段限制。
Images 2.0 在需要「完整物理世界模型」的場景仍會失手,例如摺紙教學、魔術方塊等需要理解角度、翻面、對應關係的題目;密集重複細節(如一堆細沙)也可能超出模型能力。圖表的箭頭、零件標籤等精細標示,仍建議人工複查。
同時,API 中超過 2K 解析度的輸出目前仍屬 beta 階段,部分輸出可能不穩定。
Images 2.0定價與開放時程
- ChatGPT 與 Codex 用戶:即日起可使用即時模式(instant)
- Plus、Pro、Business 訂戶:另開放思考模式(thinking)進階輸出
- 開發者 API:以
gpt-image-2模型名稱提供,價格依品質與解析度浮動
資料來源:OpenAI、Gizmodo、TechCrunch
本文初稿為AI編撰,整理.編輯/ 李先泰
