實測|阿里巴巴推AI圖像生成模型Qwen-Image:效果如何?繁體中文能用嗎?
實測|阿里巴巴推AI圖像生成模型Qwen-Image:效果如何?繁體中文能用嗎?

重點一:阿里巴巴(Alibaba)旗下的「通義千問」(Qwen Team)團隊發表了開源的AI圖像生成模型「Qwen-Image」,其最大特色在於能準確呈現圖像中的文字,特別是複雜的中文排版與雙語內容,有效解決了過往生成式AI的痛點。

重點二:Qwen-Image 在多項公開基準測試中表現優異,其在中文文字渲染方面的能力顯著超越其他現有模型,並且在人類評估的AI Arena排行榜上,是排名最高的開源模型,證明其強大的生成能力。

重點三:Qwen-Image 採用 Apache 2.0 許可證,允許商業與非商業用途,為企業提供了一個低成本的開源選擇,適用於內部行銷、零售與電子商務等多元應用,但需注意其並未提供著作權侵權賠償。

阿里巴巴(Alibaba)旗下的通義千問(Qwen Team)團隊近期推出開源圖像生成模型 Qwen-Image。

這款模型的最大亮點在於其卓越的文字渲染能力,能夠精準地在生成的圖像中呈現清晰、符合語義的文字,有效解決了許多AI模型在處理文字時,常出現亂碼或模糊不清的問題。

Qwen-Image 支援英文字母與漢字等不同文字系統,並能處理多行排版、段落層級語義,甚至是中英雙語內容,因此適用於電影海報、簡報投影片、社群貼文等需要呈現精準文字的應用情境。

領先業界的文字渲染與綜合效能

根據通義千問發布的技術報告, Qwen-Image 主要透過「漸進式學習」(progressive learning)與「多模態任務校準」(multi-modal task alignment)的方式進行訓練,訓練資料庫包含數十億組圖文配對,涵蓋自然圖像、人物肖像、設計內容(如海報與UI版面)以及自行生成的合成文字資料。

Qwen-Image 在多項嚴格的公開基準測試中展現了卓越的綜合能力。無論是評估提示語遵循度的 GenEval 和 DPG 測試,還是版面佈局的精確度 OneIG-Bench、TIIF 測試,其表現均能媲美甚至超越領先的閉源模型,如 GPT Image 1 High、Seedream 3.0 和 FLUX.1 Kontext Pro。

Qwen-Image 出色的表現也獲得了社群的高度認可,使其在 AI Arena 的人工評比中,成為排名最高的開源模型,總排名更是一舉衝進前三名。

Qwen-Image商用注意事項

Qwen-Image 模型採用 Apache 2.0 授權,允許商業與非商業用途,開發者可以自由地使用、再發布與修改模型,僅需在衍生作品中註明來源並附上授權條文。對於尋求開源圖像生成工具的企業來說,是個極具吸引力的選擇,能夠大幅降低授權成本,用於製作內部文件、廣告傳單、電子報等。

不過,Qwen-Image訓練資料的來源並未完全公開,仍與多數領先的AI圖像生成模型一樣,屬於保密資訊。此外,不同於 Adobe Firefly 或 OpenAI 的 GPT-4o 服務,阿里巴巴並未提供任何著作權侵權賠償(Indemnification),這意味著若使用者因生成內容產生著作權糾紛,使用者需自行承擔法律風險。

實測:Qwen生圖好用嗎?

文字渲染能力

Qwen最被推廣的為其文字渲染能力,號稱能夠精準地在生成的圖像中呈現清晰、符合語義的文字,同時還支援漢字與英文2種不同的語意系統。

為了測試這項功能,我們在對話框中輸入以下Prompt:

生成一張電影海報,標題是「夢想追逐者 The Dream Chaser」,下方寫著「上映日期:2025年8月5日」

從Qwen的生成結果上來看,除了「上映日期」生成了「上映日間」,這張圖片大致上是有符合指令需求的,不僅能生成繁體中文,同時英文、數字也能完整地在同一張圖片上呈現,證明了 Qwen 能夠處理多語系以及其宣稱的強大文字渲染能力。

qwen test 1.jpg
圖/ Qwen

提示詞理解

為了測試Qwen是否能夠包含多個元素、場景、顏色和動作元素的複雜提示,並遵照指令生成圖片,我們在對話框輸入:

一個穿著紅色外套的小女孩,在下雪的森林裡,身旁有一隻白色的狐狸,遠處有座小木屋,小木屋亮著燈,煙囪冒著煙,畫面要溫馨。

qwen test 2.jpg
圖/ Qwen

從Qwen生成的結果來看,這張圖片在整體氛圍與細節處理上表現得相當出色,充分展現了 Qwen 在圖像風格掌握與多物件生成方面的能力。

多文字呈現

我們想了解Qwen一次在圖片中生成多個文字的能力,因此對AI輸入了以下指令:

設計一張社群貼文,內容要包含以下文字:
AI提示詞公式:
角色設定:要 LLM 調度哪些領域知識
任務:你想完成什麼目標
背景:任務的起源/目標的限制/涉及的人士...等
格式:輸出類型、編排格式

Qwen test 3.jpg
圖/ Qwen

從生成的結果來看,在多文字輸出上,Qwen對於繁體中文字型的處理能力是不足的,不僅直接將繁體中文以簡體中文呈現,甚至在左上角的地方還出現了不明的崩壞文字。

總結來說,Qwen-Image在生成圖片文字以對於提示詞的理解有優異的表現,但對於多行的繁體中文處理仍不足,其開源的 Apache 2.0 授權雖為企業提供了低成本的選擇,但使用者也需自行承擔潛在的著作權侵權風險,使用者可評估以後,依據自身的需求做選擇。

延伸閱讀:AI深度研究實測大PK:ChatGPT、Gemini、Perplexity、Claude,誰是最強報告神器?
影片|GPT-4o生圖大進化!如何用它製作個人公仔、LINE貼圖、四格漫畫...?生成教學一次看

參考資料:Venturebeat

關鍵字: #阿里巴巴 #AI
往下滑看下一篇文章
從室內到開放水域安全,富據智能藉 NVIDIA AI 技術及新創計畫助力,快速搶進全球智慧安防市場
從室內到開放水域安全,富據智能藉 NVIDIA AI 技術及新創計畫助力,快速搶進全球智慧安防市場

富據智能科技(Fortune AI Technologies)成立於2021年9月,歷經2年餘的市場試煉,將目標市場聚焦在水域安防,並從飯店泳池與運動中心等室內水域出發,推出以 AI 影像辨識與動作預測演算法等技術為核心的「安心泳(SAFE SWIM)」服務,在異常事件發生時立即示警,如泳客突然在水中抽筋等,解決傳統人工監控的盲點,以智慧且高效的方式落實水域安全、避免憾事發生。

專業的產品服務與清楚的市場定位讓富據智能在台灣快速站穩腳步,並且將業務範疇推向日本、香港、西班牙等海外市場,創下產品服務推出不到兩年即在全球25個案場上線的佳績,接下來,將透過 NVIDIA Omniverse™ 平台與 NVIDIA Cosmos™ 模型進行生成 AI 影像,以加速海外室內水域案場的上線速度,以及逐步將服務擴展到開放水域,打造全方位智慧水域安防服務。

NVIDIAxFortune AI(富據智能)
圖/ 數位時代

富據智能創辦人暨執行長陳靖儒解釋:「團隊成員本來就擅長 AI 影像辨識與物件追蹤技術,在朋友介紹下,涉足飯店泳池與運動中心等室內水域安全,隨著數據資料的累積、演算法與模型的完善,以及案場經驗的累積,我們除計畫將 SAFE SWIM 應用範疇從室內水域擴及開放水域,也計畫在明年上半於日本成立株式會社,以軟硬整合的產品服務,攜手代理商擴展亞洲乃至全球市場。」

不僅聚焦 AI 軟體平台,更以 NVIDIA 技術資源推動全方位智慧安防解決方案

富據智能為什麼能在短時間繳交亮眼成績單?關鍵因素有三:

第一,領先同業推出 AI 智慧水域安防– SAFE SWIM –服務,快速導入案場與累積關鍵數據集,如水面波光折射、泳池中人員動作特徵等資料,藉此優化 SAFE SWIM 的辨識精準度,拉高市場進入門檻。

陳靖儒表示:「我們不僅是台灣第一個專注水域安全的新創團隊,也擁有最多的水域數據,可以持續優化模型精準度,加速海外市場擴展腳步。」舉例來說,日本政府沒有強制規範泳池等特定水域需要配置救生員,但是,為確保泳池安全、提供安心與差異化服務,飯店業者願意嘗試智慧水域安防等創新服務,看好該塊市場,富據智能攜手代理商夥伴耕耘日本市場,加快 SAFE SWIM 的普及度。

第二,透過 NVIDIA Inception 新創計畫加速產品開發與服務上線速度。陳靖儒表示,透過 NVIDIA Inception 新創計畫,富據智能不僅可以優惠價格購買特定硬體與軟體產品,免費取得 GPU 雲端資源與優先存取 NVIDIA 軟體開發套件(SDK)等資格,還可以跟 NVIDIA 專家展開密切討論,大幅提升軟硬體整合開發時程,同時,確保產品服務的精準度與品質。

例如,在開發海外案場時,團隊成員透過 NVIDIA® Jetson Orin Nano™ Super 運算平台及 NVIDIA Metropolis 開發套件加速應用的開發確保 SAFE SWIM 可以即時分析案場搭載的攝影機數據資料,確保辨識準確度,以及服務的穩定性、安全性與可擴充性。

值得特別一提的是,透過 NVIDIA Inception 新創計畫裡的 NVIDIA 深度學習學院(DLI)訓練課程,富據智能開始以生成式 AI 技術合成影像數據、加速模型調整速度。富據智能技術長林聖傑解釋:「因應案場環境的不同,我們必須微調模型才能夠上線 SAFE SWIM 服務。過去的作法是先在案場架設8到12個攝影機,聘僱人員在泳池與池畔演示各種(情境)姿勢,藉此蒐集訓練用影像數據以微調模型,整個時程至少需要2至4週不等的時間,現在,透過 NVIDIA Omniverse™ 平台與 NVIDIA Cosmos™ 世界基礎模型 (WFM) ,系統會直接以合成訓練影像數據,減少70%以上的作業時間,大幅提升服務上線速度。」

NVIDIAxFortune AI(富據智能)
圖/ 數位時代

NVIDIA Inception 新創計畫除了在技術與產品上提供支持,也是新創曝光的重要舞台。以富據智能為例,透過在2025 COMPUTEX InnoVEX 與 NVIDIA 共同行銷等方式,不僅提升品牌能見度,更吸引眾多國際業者上門洽談,推動全球市場布局。

最後是建立 AI 智慧水域安防全球夥伴生態圈。各國政府對於室內與開放水域的安全規範不一,以及關注的水域安防議題不盡相同,不可能單憑己力開發市場,富據智能除透過 NVIDIA Inception 新創計畫取得來自 NVIDIA 的技術支持,加速產品與商務開發,還會與攝影機、無人機、系統整合商與服務代理商合作,精準滿足各個市場(客戶)的水域安全需求。

「在 AI 新世代,光是掌握技術還不夠,必須深入產業、因應情境提供適切解方,因此,我們樂於擴展全球生態網絡,鎖定公、私部門需求提供智慧水域安防服務。」 陳靖儒如是說道。

NVIDIAxFortune AI(富據智能)
圖/ 數位時代

NVIDIA Inception 新創計畫成為 StarFab AI 加速器的重量級合作夥伴之一,擴大新創支援能量

為讓新創可以更快將加速運算與人工智慧等尖端技術轉化成智慧應用,NVIDIA 於2016年即展開 NVIDIA Inception 新創計畫,只要登記時間未滿10年、具備核心技術與專業團隊,聚焦在 DeepTech 的新創都歡迎加入。成為 Inception 新創計畫會員後,不僅能享有 GPU 雲端資源、DLI 課程學分、優先存取 NVIDIA 軟體開發套件,以及以優惠價格購買特定軟體與硬體產品等四種資源,還可以跟 NVIDIA 專家、1,200家創業投資夥伴以及參與計畫的32,000家新創夥伴交流,大幅加速技術開發與商業連結,放眼全球市場。

為了進一步擴大新創支援能量,NVIDIA Inception 新創計畫聚焦在協助新創從0到1打造符合市場要求的產品,至於從1到100則將需要更多的創投夥伴與合作企業與資源來協助新創公司。

NVIDIAxFortune AI(富據智能)
圖/ 數位時代

有鑑於此, NVIDIA Inception 新創計畫,為加深在台灣地區的支持力度,成為 StarFab 於2025年5月啟動的「TAI1 AI Accelerator」的合作夥伴之一,獲選新創將取得 NVIDIA Inception 新創計畫專屬資源,以及 ITIC 以 SAFE 機制提供團隊台幣300萬元投資,為新創進軍國際市場打下關鍵基礎。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓