實測|阿里巴巴推AI圖像生成模型Qwen-Image:效果如何?繁體中文能用嗎?
實測|阿里巴巴推AI圖像生成模型Qwen-Image:效果如何?繁體中文能用嗎?

重點一:阿里巴巴(Alibaba)旗下的「通義千問」(Qwen Team)團隊發表了開源的AI圖像生成模型「Qwen-Image」,其最大特色在於能準確呈現圖像中的文字,特別是複雜的中文排版與雙語內容,有效解決了過往生成式AI的痛點。

重點二:Qwen-Image 在多項公開基準測試中表現優異,其在中文文字渲染方面的能力顯著超越其他現有模型,並且在人類評估的AI Arena排行榜上,是排名最高的開源模型,證明其強大的生成能力。

重點三:Qwen-Image 採用 Apache 2.0 許可證,允許商業與非商業用途,為企業提供了一個低成本的開源選擇,適用於內部行銷、零售與電子商務等多元應用,但需注意其並未提供著作權侵權賠償。

阿里巴巴(Alibaba)旗下的通義千問(Qwen Team)團隊近期推出開源圖像生成模型 Qwen-Image。

這款模型的最大亮點在於其卓越的文字渲染能力,能夠精準地在生成的圖像中呈現清晰、符合語義的文字,有效解決了許多AI模型在處理文字時,常出現亂碼或模糊不清的問題。

Qwen-Image 支援英文字母與漢字等不同文字系統,並能處理多行排版、段落層級語義,甚至是中英雙語內容,因此適用於電影海報、簡報投影片、社群貼文等需要呈現精準文字的應用情境。

領先業界的文字渲染與綜合效能

根據通義千問發布的技術報告, Qwen-Image 主要透過「漸進式學習」(progressive learning)與「多模態任務校準」(multi-modal task alignment)的方式進行訓練,訓練資料庫包含數十億組圖文配對,涵蓋自然圖像、人物肖像、設計內容(如海報與UI版面)以及自行生成的合成文字資料。

Qwen-Image 在多項嚴格的公開基準測試中展現了卓越的綜合能力。無論是評估提示語遵循度的 GenEval 和 DPG 測試,還是版面佈局的精確度 OneIG-Bench、TIIF 測試,其表現均能媲美甚至超越領先的閉源模型,如 GPT Image 1 High、Seedream 3.0 和 FLUX.1 Kontext Pro。

Qwen-Image 出色的表現也獲得了社群的高度認可,使其在 AI Arena 的人工評比中,成為排名最高的開源模型,總排名更是一舉衝進前三名。

Qwen-Image商用注意事項

Qwen-Image 模型採用 Apache 2.0 授權,允許商業與非商業用途,開發者可以自由地使用、再發布與修改模型,僅需在衍生作品中註明來源並附上授權條文。對於尋求開源圖像生成工具的企業來說,是個極具吸引力的選擇,能夠大幅降低授權成本,用於製作內部文件、廣告傳單、電子報等。

不過,Qwen-Image訓練資料的來源並未完全公開,仍與多數領先的AI圖像生成模型一樣,屬於保密資訊。此外,不同於 Adobe Firefly 或 OpenAI 的 GPT-4o 服務,阿里巴巴並未提供任何著作權侵權賠償(Indemnification),這意味著若使用者因生成內容產生著作權糾紛,使用者需自行承擔法律風險。

實測:Qwen生圖好用嗎?

文字渲染能力

Qwen最被推廣的為其文字渲染能力,號稱能夠精準地在生成的圖像中呈現清晰、符合語義的文字,同時還支援漢字與英文2種不同的語意系統。

為了測試這項功能,我們在對話框中輸入以下Prompt:

生成一張電影海報,標題是「夢想追逐者 The Dream Chaser」,下方寫著「上映日期:2025年8月5日」

從Qwen的生成結果上來看,除了「上映日期」生成了「上映日間」,這張圖片大致上是有符合指令需求的,不僅能生成繁體中文,同時英文、數字也能完整地在同一張圖片上呈現,證明了 Qwen 能夠處理多語系以及其宣稱的強大文字渲染能力。

qwen test 1.jpg
圖/ Qwen

提示詞理解

為了測試Qwen是否能夠包含多個元素、場景、顏色和動作元素的複雜提示,並遵照指令生成圖片,我們在對話框輸入:

一個穿著紅色外套的小女孩,在下雪的森林裡,身旁有一隻白色的狐狸,遠處有座小木屋,小木屋亮著燈,煙囪冒著煙,畫面要溫馨。

qwen test 2.jpg
圖/ Qwen

從Qwen生成的結果來看,這張圖片在整體氛圍與細節處理上表現得相當出色,充分展現了 Qwen 在圖像風格掌握與多物件生成方面的能力。

多文字呈現

我們想了解Qwen一次在圖片中生成多個文字的能力,因此對AI輸入了以下指令:

設計一張社群貼文,內容要包含以下文字:
AI提示詞公式:
角色設定:要 LLM 調度哪些領域知識
任務:你想完成什麼目標
背景:任務的起源/目標的限制/涉及的人士...等
格式:輸出類型、編排格式

Qwen test 3.jpg
圖/ Qwen

從生成的結果來看,在多文字輸出上,Qwen對於繁體中文字型的處理能力是不足的,不僅直接將繁體中文以簡體中文呈現,甚至在左上角的地方還出現了不明的崩壞文字。

總結來說,Qwen-Image在生成圖片文字以對於提示詞的理解有優異的表現,但對於多行的繁體中文處理仍不足,其開源的 Apache 2.0 授權雖為企業提供了低成本的選擇,但使用者也需自行承擔潛在的著作權侵權風險,使用者可評估以後,依據自身的需求做選擇。

延伸閱讀:AI深度研究實測大PK:ChatGPT、Gemini、Perplexity、Claude,誰是最強報告神器?
影片|GPT-4o生圖大進化!如何用它製作個人公仔、LINE貼圖、四格漫畫...?生成教學一次看

參考資料:Venturebeat

關鍵字: #阿里巴巴 #AI
往下滑看下一篇文章
台灣新創思邁智能、海研科技突圍出海搶佔生成式 AI 商機,AWS 以領先技術及資源成為最強後盾
台灣新創思邁智能、海研科技突圍出海搶佔生成式 AI 商機,AWS 以領先技術及資源成為最強後盾
2025.11.13 |

AI 正在改寫世界運作模式。根據研究機構 The Research Insights 預測,全球 AI 市場將從2025年的3,909億美元攀升到2030年的1兆8,117億美元,年複合成長率高達19.2%。這股成長動能與 AI 技術正滲透各個產業有關,從製造到金融、從零售到物流,不僅流程被重塑、商模也隨之翻轉。

在這場 AI 驅動的創新浪潮中,新創是推動產業變革的關鍵力量之一。 AWS 不僅以全球領先的雲端與 AI 技術平台提供堅實後盾,更以豐沛資源化身新創最佳夥伴、協助台灣團隊將創意落地、放大商業影響力。例如,在 AWS 的技術與資源支持下,語音 AI 新創海研科技(SeaTech)得以加速模型迭代與演算法優化,為台灣與新加坡量身打造在地語言模型並推動應用落地;同時,也讓思邁智能(MaiAgent, Inc.)專注強化企業級生成式 AI 平台 –MaiAgent– 功能,協助企業將生成式 AI 融入日常營運,實現更智慧的決策與效率升級。

三大關鍵步驟,思邁智能助企業放大生成式 AI 應用價值

AI Agent 具備感知、決策、行動與優化四大特徵,被視為企業面對人力缺口與營運挑戰的最佳助手,然而,在實作過程中,多數企業都因為三大瓶頸–資料分散、模型不符實務、導入周期過長–導致AI難以落地或成效不如預期。

觀察到上述現況,深耕 AI 領域研究、協助上百家企業導入 AI 應用的思邁智能提出解方:AI 導入方法論與平台產品服務。

思邁智能執行長張介騰表示,導入 AI 應該從「AI-Ready 文化」開始,因此,第一步是讓每位員工都能自然地用 AI 提升工作效率,例如透過自研的 MaiGPT 縮短資料搜尋與知識蒐整時間;第二步是建立企業專屬的 AI 知識庫(AI KM),例如以 MaiAgent 打造企業的「智慧大腦」,加速各類分析報表生成製作,讓員工可以加速決策與專注核心業務;第三步是從組織流程出發,找出重複性高的任務並建構對應的 AI Agent,如語音客服、文字助理等,讓 AI 真正走進業務核心。

「面對日新月異的 AI 技術演進,想要搶占先機,策略合作是必然。」張介騰以 MaiAgent 產品為例說明,透過 Amazon Bedrock 平台,團隊成員不用自建基礎模型、可以直接從平台快速選擇所需的基礎模型與工具於其上進行產品功能開發、大幅縮短產品開發週期,同時,可以在第一時間接收到模型更新等資訊,更好回應市場要求。「在 AWS 平台上開發產品,不僅能縮短開發週期、快速迭代新功能,也可以保障系統與資料安全,同時,因應業務需求彈性擴展,例如,協助新加坡與泰國企業導入服務等。」

隨著產品服務的成熟,思邁智能除持續尋找軟體夥伴擴展 MaiAgent 生態體系,亦已將 MaiAgent 上架 AWS Marketplace,更好擴展國際市場版圖,同時,成立AI落地顧問團隊,協助生態體系夥伴跟企業客戶更好發揮 AI 綜效。

AWS
思邁智能專注強化企業級生成式 AI 平台–MaiAgent–功能,協助企業將生成式AI融入日常營運,實現更智慧的決策與效率升級。圖為執行長張介騰。
圖/ 數位時代

不僅在 AWS 上開發產品,海研科技攜手 AWS 針對企業痛點推最佳解方

對許多新創來說,雲端只是基礎設施的一種,但對海研科技來說,AWS 是他們加速創新與推動業務的關鍵伙伴。這家專注語音 AI 的新創團隊自創業第一天就跟 AWS 展開合作,不僅透過 Amazon Bedrock 打造專屬台灣的語言模型,更循序推出 SeaMeet、SeaChat、SeaX、SeaVoice 等產品,讓語音 AI 不再只是技術展示,而是能直接回應企業現場痛點的實用解方。

「語音辨識(ASR)不是新技術,但要做到『在地化』才有競爭優勢。」海研科技首席業務發展經理何庭劭表示,全球已有多家科技大廠投入開發英語、中文、印度語、俄語、西班牙語等13種主流語言模型,但台灣、新加坡與東南亞國家的語言環境與溝通方式較多元,如台灣的日常對話常混雜10%到15%的英語或台語雙關詞等,通用型的語言模型不敷使用,必須重新訓練、微調語言模型,才能滿足本地語境應用。

這份對在地市場的專注,讓海研科技在聽到 AWS 分享企業痛點後可以快速推出相應產品服務,例如,因應製造業跨國團隊的會議溝通挑戰,打造「SeaMeet 雙語即時翻譯」功能,讓語音 AI 能在中、英夾雜的會議中流暢轉譯、即時生成紀錄,解決企業跨境協作的語言門檻。

海研科技之所以能無後顧之憂地推出創新解方,與 AWS 提供穩定、可靠且彈性支援服務有關。何庭劭以 SeaMeet 為例解釋:「產品特性使然,SeaMeet 的尖峰與離峰時段的使用量差異極大,但在 AWS 平台支援– Amazon EKS 會依照實際需求動態調整伺服器資源(Amazon EC2 instance)–下,海研科技的團隊成員不用花費間監控與資源配置,可以專注在產品開發與持續創新。」

事實上,這也是海研科技可以因應龐大的長照需求,順利在今年推出取得 HIPAA 認證的 SeaX 服務,並協助新加坡社區關懷機構 Lions Befrienders 以10餘人社工團隊完成每天上千通長者關懷電話的原因。

AWS
海研科技首席業務發展經理何庭劭表示,有個大型集團客戶有非常多的會議要跟進,過去光是紀錄重點,就會需要許多人力,但透過即時的會議紀錄整理,讓後續追蹤更有效率。
圖/ 數位時代

何庭劭表示:「透過 SeaX,Lions Befrienders 每秒可完成30通電話,每通皆有錄音、逐字稿與 AI 分析,判斷是否需社工即時介入,讓語音 AI 成為重塑長照現場效率與安全的關鍵伙伴。」

從台灣到新加坡,從會議翻譯到智慧長照,海研科技的語音 AI 正形成一個「技術與市場雙向成長」的飛輪,接下來,海研科技將透過 AWS Marketplace 進軍歐美市場,讓更多企業能以雲端訂閱方式直接採用其服務。

何庭劭強調:「 AWS 不僅提供一條龍平台服務,更是我們的共創夥伴,讓我們可以看得更遠、動得更快。」而這也是海研科技與 AWS 的互動關係會從技術夥伴轉向共創夥伴的原因,讓語音 AI 可以真正走進企業日常。

思邁智能與海研科技不是單一或特殊案例,在 AWS 豐沛的技術能量與資源支持下,愈來愈多新創正從單純的技術創新者,成長為推動產業變革的關鍵力量,讓 AI 真正落地多元場域,開創生態共榮的新局。

新創解方立即看

AWS
圖/ 數位時代
AWS
圖/ 數位時代

思邁智能_解方立即看

海研科技_解方立即看

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓