實測|GPT-4o生圖全網擠爆,免費版要等等了!如何生成「吉卜力風」?比Grok更厲害嗎?
實測|GPT-4o生圖全網擠爆,免費版要等等了!如何生成「吉卜力風」?比Grok更厲害嗎?

重點一OpenAI於3月26日更新旗下語言模型GPT-4o,使其能夠依照提示,實現精確、準確、逼真的圖像生成。

重點二 :先前OpenAI的模型難以在圖像中生成清晰可讀的文字段落,但新版 GPT-4o 已能辦到。

重點三 :GPT-4o成ChatGPT預設圖像模型,原開放免費及付費用戶,但由於使用人數超乎預期,奧特曼表示將推遲向免費用戶發布這項功能。

OpenAI近日發表 GPT-4o 的更新版本,顯著提升了圖像生成的逼真度。這項成果來自為期一年、結合人類訓練員的努力,新版 GPT-4o 現已取代 DALL-E 3,成為旗下聊天機器人 ChatGPT 預設的圖像生成模型。

OpenAI原先表示,無論是 ChatGPT 的免費用戶,或是 Plus、Team 和 Pro 方案的訂閱者,現在皆可使用此更新功能。

但OpenAI執行長Sam Altman週三宣布,ChatGPT 新推出的AI圖像功能將推遲向免費用戶開放,原因是需求量遠高於公司預期:「ChatGPT 中的圖像功能比我們預期的還要受歡迎(而且我們原本的預期已經相當高)。」

截至目前,GPT-4o的生圖新功能己在各大社群網路暴紅,尤其是「吉卜力風格」圖像,就連馬斯克、奧特曼都紛紛上傳新頭像。

延伸閱讀:曾說AI圖「極度噁心」的宮崎駿,吉卜力風卻變全網熱點!生成特定風格圖片究竟有沒有侵權?

AI更懂人話了!關鍵是一群「人類訓練員」

此次 GPT-4o 圖像生成能力提升的背後,關鍵在於一群「人類訓練員」的貢獻。該計畫首席研究員 Gabriel Goh 指出,這些訓練員負責標註訓練數據,指出 AI 生成圖像中的拼寫錯誤、異常的手部或臉部等瑕疵。透過這種被稱為「人類回饋強化學習」(Reinforcement Learning from Human Feedback, RLHF) 的常見技術,AI 模型學會更精確地遵循人類指示,從而生成更準確、實用的圖像。

OpenAI 透露,約有略多於100名人類工作者參與了此次的強化學習過程。Goh 強調:「基礎模型本身已具備智慧,而 RLHF 過程則能引導並提煉這種智慧。」

OpenAI 表示,隨著 GPT-4o 研究的進展,ChatGPT 的圖像生成功能對消費者和企業而言實用性大增。例如,先前的模型難以在圖像中生成清晰可讀的文字段落,但新版 GPT-4o 已能辦到。

藍色電鋸.jpg
OpenAI於官網示範,生成清晰的藍色電鋸圖片。
圖/ OpenAI
切火雞.jpg
若進一步要求Gpt-4o生成帶有標題的廣告,AI也能順利生成。
圖/ OpenAI

ChatGPT 多模態產品負責人 Jackie Shannon 補充,新模型還能創建透明背景,讓企業得以製作標誌或其他圖像識別元素,甚至能依據使用者上傳的品牌風格指南生成圖像。

延伸閱讀:Gamma免費版怎麼用?30秒生成簡報、網頁,還能一鍵製作社群圖卡!完整攻略一次收

實測!GPT-4o比Grok更厲害嗎?

在GPT-4o強化生圖能力之前,馬斯克旗下xAI所開發的Grok是相對生圖友善的語言模型。因此,《數位時代》以下接逐一實測相同的生圖Prompt(相對複雜的圖片,將利用Gemini 2.5 Pro生成),來比較能力差異。

題目1:單一物件清晰度(貓)

首先從最簡單的開始。提示是:

「請生成一隻逼真的貓咪圖像。」

從結果來看,Gpt-4o在清晰度上略勝一籌。

Gpt-4o

首先以Gpt-4o來說,可以從貓身上的毛髮分岔看出具備更高的解析度,但只有生成一張。

GPT貓咪.jpg
4o的生成結果相對清晰,但只有一張。
圖/ OpenAI

Grok

Grok生成的貓咪圖案解析度也不俗,優勢是一次兩張,選擇更多。

GROK貓咪.jpg
Grok生成的貓圖其實也頗為清晰,但略輸給Gpt-4o。
圖/ Grok

題目2:圖片結合文字(貓罐頭廣告)

延續第一題,要求AI在原本的生成結果上加入更複雜的概念與文字標題,具體提示為:

「我需要據此結果進一步生成『有標題』的貓罐頭廣告,畫面是貓咪正在吃罐頭,標題文案是 『沒有一罐不能解決的問題。如果有,就兩罐。』

Gpt-4o

就結果而言,GPT-4o確實有生成出指定的文字標題,雖然中文字體有點奇怪,但在品質與概念上符合提示要求。

4o貓罐頭.jpg
GPT-4o確實有完成文字標題生成。
圖/ OpenAI

Grok

Grok的圖片清晰度沒問題,但對於「貓罐頭」的理解不如GPT-4o精準,左圖比較像人類的英國焗豆罐頭,右圖則是「貓飼料」,而且沒有文字標題。

GROK貓咪罐頭.jpg
Grok並未生成出文字標題。
圖/ Grok

題目3:按照範例圖片生成

第三題,按照一般人使用習慣,上傳一張範例圖片給AI,並請AI依照指定風格重新生成圖片。本次以臉書創辦人祖克伯的照片為範例,具體提示如下:

將圖片轉換為類似「吉卜力」的畫風,構圖保持相同即可。

結果十分明顯,Grok的生成圖片與吉卜力相差甚遠。反觀Gpt-4o的成效果令人眼睛為之一亮,從人物表情到構圖,都保持與原圖片一致。

Gpt-4o

GPT-4o祖克伯.jpg
GPT-4o生成的結果頗為理想。
圖/ GPT-4o

Grok

GROK祖克伯.jpg
根據成果,難以聯想到吉卜力風格。
圖/ Grok

題目4:完全按照Prompt生成複雜構圖

最後一題,在沒有圖片參照的情況下,請AI依據「AI生成的Prompt來生成複雜圖片」。首先要求Gemini 2.5 Pro 生成圖片提示,提出的問題是:

我要生成「Elon musk登陸火星」的圖片生成prompt。請根據背景(所處的地理位置)、人物(從具體人物到動態描述)、構圖(包含人物及其他符號元素)生成。

要求如下:
1.照片比例16:9。
2.人物動作要有動態感,例如他正在躲避火星上的風暴。
3.圖片中要有包括類似CyberTruck的載具。

Gemini 2.5 Pro提供的prompt如下:

背景:大型隕石坑入口附近,火星地形,揚起的紅色塵土,稀薄的橘色大氣層和遠處朦朧的山脈。
人物:Elon Musk,穿著先進的 SpaceX探索服對抗強風,嘗試穩住身體往前邁進。
構圖:中景鏡頭,人物在前景,身後有一台CyberTruck風格載具,載具的銳利線條與環境形成對比,高細節度高。
比例:16:9

依照結果而言,仍是Gpt-4o相對理想,雖然人物比例略顯奇怪,但整體而言相對符合提示;Grok則是大要件符合,例如在火星上、有馬斯克跟CyberTruck,但是其他細節並不明顯。

Gpt-4o

馬斯克登陸火星.jpg
Gpt-4o的成果,有將地形描述,與人物的動作考慮進去,但筆觸有油畫感,頭的比例也有些失真。
圖/ OpenAI

Grok

GROK musk.jpg
GROK的生成結果,細節不太明顯。
圖/ GROK

結論:Gpt-4o確實生圖能力躍升

在將兩種模型比較過後,可發現Gpt-4o在理解自然語言的能力更為突出,在單純的物件,或是夾帶圖片風格轉換上,成效都令人驚艷。

值得注意的是,在圖片修改上,Gpt-4o的上下文理解能力也頗為優異,點擊生成的圖片之後,可在網頁介面上圈選想要修改的地方,並要求AI局部修改!

目前,Gpt-4o的修圖功能甚至開放給免費用戶,想要免費利用可要把握,而且甚至可以要求Gpt-4o客製化迷因。

女人與貓迷因.jpg
經典迷因也可以換個風格。
圖/ OpenAI
科學的盡頭.jpg
雖然可以生成文字,但要識別簡體與繁體字仍有一定難度。
圖/ OpenAI

延伸閱讀:ChatGPT-4o專屬LINE貼圖、風格漫畫怎麼生?4步驟教學一次看

存在版權柵欄?OpenAI:不能直接模仿在世藝術家

儘管 GPT-4o 在圖像生成方面取得了進步,但並非完美無缺。Goh 坦承,在公司展示的一個範例中,用戶上傳一張有兩扇窗戶的客廳照片,要求 AI 重新生成帶有新家具的圖像,但系統最終只呈現了一扇窗戶。

至於潛在的版權問題?OpenAI 表示,GPT-4o 的訓練數據來自「公開可得的資料」以及與 Shutterstock (影像圖庫公司) 等企業的合作夥伴關係所取得的專有數據。OpenAI 的營運長 Brad Lightcap 強調:「我們在輸出內容時尊重藝術家的權利,並設有政策防止生成直接模仿在世藝術家風格的作品。」

延伸閱讀:
2025十大高薪副業出爐!不用有經驗、工作彈性,這職缺一天可賺近5000元
AI界超夯新詞,MCP是什麼?定義、實例一次看懂

責任編輯:李先泰

往下滑看下一篇文章
全球壽險業首例,南山人壽一舉摘下Celent國際雙獎,文化、治理、聯隊缺一不可
全球壽險業首例,南山人壽一舉摘下Celent國際雙獎,文化、治理、聯隊缺一不可

Celent是金融科技界知名研究機構,其舉辦的「Celent Model Awards」在國際享有極高聲譽,被視為金融科技產業指標性獎項,歷屆得主多以歐美大型金融機構與保險業者為主,今(2025)年,南山人壽不僅以「dotShan EA南山企業架構框架」榮獲「Model Insurer Award - Innovation Execution模範保險公司創新發展獎」肯定,更透過人工智慧(AI)與檢索增強生成(RAG)技術打造法遵AI智能助理,協助法遵人員快速檢索與分析裁罰案件,其精準度超過90%與召回率高達100%,卓越表現讓南山人壽成為全球第一個獲得「Model Risk Manager-AI and Gen AI模範風險管理獎」的壽險業者。

南山人壽是怎麼辦到的?創新文化、治理體系與數轉聯隊缺一不可。

把時間回推到2023年,南山人壽宣示以「服務賦能」與「數位賦能」雙引擎加速創新轉型,除陸續成立數位與體驗新團隊,並與資訊與資安團隊合組「數轉聯隊(DX Union)」加速協作,同時也成立Beyond Lab推動Rocket Pitch機制(註一)以鼓勵創意提案,透過6頁6分鐘(6X6)的概念演示,讓同仁的新點子「被發現」並轉化為試驗專案(PoC),再逐步推動落地,南山人壽將創新文化DNA融入員工的工作日常,實現讓「未來,有備而來」。

從數位轉型到組織再造,南山人壽怎麼做到世界並肩?

面對數位轉型漫長的蛻變歷程,南山人壽堅信:唯有透過「治理」才能推動有序轉型、發揮持續疊加的綜效,因此,導入國際開放標準組織的TOGAF(The Open Group Architecture Framework)與IT4IT方法論打造「dotShan EA南山企業架構框架」,循序統合策略、業務、系統與技術等各層次的架構,讓「數轉聯隊」在共同框架下提升協作效率,才能穩健地推動轉型。

南山人壽數位長呂新科解釋:「透過國際標準優化管理體系一直是企業管理變革的手段,例如許多公司透過ISO 27001標準梳理治理機制與流程,以建全資訊安全管理體系,同樣的,我們也藉由TOGAF企業架構標準來重整數位發展的管理體系,讓南山人壽可接軌國際並持續累積轉型的核心能力。」

這些重整常涉及管理體系的調整,例如為強化數位策略與企業策略的對齊(alignment)力度,南山人壽於2023年成立數位發展策略委員會(DDSC),由其統籌數位策略發展、主軸計畫與數位成熟度評估,另外,在架構整合方面,則重新調整「架構審查小組(ART)」程序,針對各個數位生態體系的新系統進行架構與合規性檢視,確保每一次擴增都能夠有序地融入南山的IT整體架構體系(Architectural Landscape)。

南山人壽
南山人壽數位治理框架與管理體系
圖/ 南山人壽

南山人壽資訊長呂長松表示:「ART是數位治理的重要板塊,這種跨領域的討論與共識不僅能確保技術架構的穩健、有序,還可確保與企業架構體系的整合及一致性。」此外,ART審查打破過去一個接一個部門「會辦」的線性模式,讓數轉聯隊採「聯合審查」進行全面性技術架構議題的探討,讓團隊在Day One就做好最佳準備。

為深耕創新文化,Beyond Lab推動 Rocket Pitch創新提案平台,鼓勵同仁將點子從「想法」轉變成「行動」,讓最了解實際營運流程的員工,可自由發想人工智慧、流程自動化等技術如何解決業務痛點。最具代表性的案例,是由南山人壽法遵同仁提案的「法遵AI智能助理」,它不僅能有效地提升法遵諮詢效能,也獲得法律×法遵科技黑客松金獎及Celent模範風險管理獎(Model Risk Manager)的認可,成為全球首家獲得此獎項的保險公司,象徵著南山人壽的協作創新與技術能力已達國際級水平,對此,數位長呂新科則強調:「獲得國內外專業機構的獎項,不僅僅是對南山人壽創新轉型的肯定,但我覺得更重要的是讓團隊有機會停下來,重新檢視脈絡,透過反思改善去累積實力,成為團隊持續成長的動能。」

AI賦能創新,南山人壽讓「創新轉型」成為持續進化的日常

隨著AI浪潮對產業發展與數位轉型的影響加劇,南山人壽啟動「南山AI大腦(AI dotBrain)計畫」,透過擴增分析(Decision Augment)、AI智能模組(AI Bot),和AI智能助理(AI Agent)三大服務讓同仁可在日常工作中獲得AI賦能,提升流程效率與服務品質。

舉例來說,AI智能模組是營運流程的「外掛」小幫手,業務員可透過「職業代碼判斷模組」快速識別並推薦適用的職業分類,減少人工查詢誤差與時間的耗費;或者是核保人員可以「弱體代碼推薦模組」輔助分析醫務核保風險評估內容,自動提供對應建議,讓核保作業更即時、精準,進而優化整體投保體驗。最關鍵的是,這些AI智能模組可以在不改動核心系統下以「外掛」方式改善系統效率的問題。

南山人壽
南山人壽DX Union數轉基地
圖/ 南山人壽

「文化」是企業變革的根基,南山人壽積極提倡「協同創新」,鼓勵同仁們透過Rocket Pitch點子發表舞台,由下而上激發更多元且具業務價值的創意發想。呂新科舉例說明,為確保社群媒體貼文符合公平待客與誠信經營原則,常見做法是透過爬蟲系統擷取社群發文再經由人工判讀,不僅耗時耗力、還可能產生認知落差風險,為解決這個問題,同仁在Rocket Pitch發表「社群媒體留言判讀智能助理」創新提案,希望建立AI檢核模型加速貼文查核流程,同時,更進一步提供發文前的內容判讀,確保貼文內容符合法遵規範,加速揭露社會大眾所需要瞭解的正確資訊。

回憶上述提案,呂新科直言:「面對這問題,技術團隊直接想法是『以AI加速審查』做為防護機制,但業務同仁的想法是額外納入『發文預審』的構想,進而建置一套主被動雙層防護機制。顯然,這種由下而上(bottom-up)的創新模式,不僅讓創意能更接近實務場景,也有助於推廣協同創新的文化。」

從數位治理到數轉聯隊,從AI發展到協同創新文化,南山人壽近幾年藉由這些改變,成就許多亮眼的轉型成果,未來,將持續「數位賦能」及「服務賦能」雙驅動力、以「客戶為中心」的經營理念實現讓「未來,有備而來」的核心承諾,穩步朝向壽險健康第一品牌邁進,協助及照顧更多保戶。

南山人壽
南山人壽數轉聯隊成員,由總經理范文偉(下排右一)領軍,驅動數位轉型工事。(上排左至右 :凃薏玲資深協理、詹瓊芬副總、資安長李仕國副總、體驗長陳啟亮資深協理;下排左至右牛莉雯副總、數位長呂新科副總、資訊長呂長松資深副總
圖/ 南山人壽

註一:南山人壽6X6 Rocket Pictch 創新提案概念,係參考自美國頂尖創業教育學府–Babson College–創業課程中極具代表性的實作活動「Rocket Pitch」,透過讓創業者(學員)在極短時間進行創意簡報的方式,精準傳遞核心價值、激發興趣,展開有效交流與支持。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓