還用PhotoShop去背合成?Collage Diffusion幫你拼成超自然大圖,還公開演算法
還用PhotoShop去背合成?Collage Diffusion幫你拼成超自然大圖,還公開演算法
2023.04.10 | 商業經營

在過去,每一個網站小編都會用PhotoShop來將圖片去背,然後把一張圖片貼在另外一張圖片的圖層上,才能進行簡單的合成圖。而且如果是人物的話,頭髮的處理更是複雜,簡單的將人物移花接木到其它背景上,往往就要處理大半天。

不過,現在「AI拼圖」技術太強,你根本不需要這麼麻煩。

例如,這是一份看似平平無奇的日式便當。

Collage Diffusion 圖片
圖/ T客邦

但你敢信,其實每一格食物都是 P 上去的,而且原圖還是這樣的?

直接摳圖貼上去,效果一眼看出來是假的

Collage Diffusion生成圖片
圖/ T客邦

背後操作者並不是什麼 PS 大師,而是一隻 AI,名字很直白:拼圖擴散(Collage Diffusion)。

隨便找幾張小圖拿給它,AI 就能自己看懂圖片內容,再把各元素非常自然地拼成一張大圖 。

Collage Diffusion生成圖片
圖/ T客邦

其效果驚豔了不少網友。

甚至還有 PS 愛好者直呼道:這簡直是個天賜之物…… 希望很快能在 Automatic1111( Stable Diffusion 使用者常用的網路 UI,也有內建在 PS 中的外掛版)中看到它。

為什麼效果這麼自然?

實際上,此 AI 生成的「日式便當」還有好幾個生成版本 —— 都很自然。

Collage Diffusion生成圖片
圖/ T客邦

至於為啥還有多種版本?就是因為使用者還能自訂,在總體不變得太離譜的前提下,他們可以微調各種細節。

除了「日式便當」,它還有不少出色的作品。

比如,這是拿給 AI 的素材,P 圖痕跡明顯:

Collage Diffusion生成圖片 5
圖/ T客邦

這是 AI 拼好的圖,反正我是沒看出什麼 P 圖痕跡:

合成圖片
圖/ T客邦

話說這兩年,文字生成圖像的擴散模型真的是大紅了,DALL・E 2 和 Imagen 都是基於此開發出來的應用。這種擴散模型的優點,是生成圖片多樣化、品質較高。

Collage Diffusion生成圖片
圖/ T客邦

不過,文字終究對於目標圖像,最多只能起到模糊的規範作用,所以使用者通常要花大量時間調整提示(prompt),還得搭配上額外的控制元件,才可以取得不錯的效果。

就拿前文展示的日式便當來說:

如果使用者只輸入「一個裝有米飯、毛豆、生薑和壽司的便當盒」,那就既沒描述哪種食物放到哪一格,也沒有說明每種食物的外觀。但如果非要講清楚的話,使用者恐怕得寫一篇小作文了……

鑑於此,史丹佛團隊決定從別的角度出發。

他們決定參考傳統思路,通過拼圖來生成最終圖像,並由此開發出了一種新的擴散模型。

有意思的是,說白了,這種模型也算是用經典技術「拼」出來的。

首先是分層: 使用基於圖層的圖像編輯 UI,將源圖像分解成一個個 RGBA 圖層(R、G、B 分別代表紅、綠、藍,A 代表透明度),然後將這些圖層排列在畫布上,並把每個圖層和文字提示配對。

透過分層,可以修改圖像中的各種元素。

到目前為止,分層已經是電腦圖形領域中一項成熟的技術,不過此前分層資訊一般是作為單張圖片輸出結果使用的。

而在這種新型「拼圖擴散模型」中,分層資訊成了後續操作的輸入。

除了分層,還搭配了現有的基於擴散的圖像協調技術,提升圖像視覺品質

總而言之,該演算法不僅限制了對象的某些屬性(如視覺特徵)的變化,同時允許屬性(方向、光照、透視、遮擋)發生改變。從而平衡了還原度和自然度之間的關係,生成“神似”且毫無違和感的圖片。

Collage Diffusion生成圖片
圖/ T客邦

操作過程也很 easy,在互動編輯模式下,使用者在幾分鐘內就能創作一幅拼貼畫。

他們不僅可以自訂場景中的空間排列順序(就是把從別處扣出來的圖放到適當的位置);還能調整生成圖像的各個元件。用同樣的源圖,可以得出不同的效果。

最右列是這個 AI 的輸出結果

而在非互動式模式下(即使用者不拼圖,直接把一堆小圖丟給 AI),AI 也能根據拿到的小圖,自動拼出一張效果自然的大圖。

研究團隊

最後,來說說背後的研究團隊,他們是史丹佛大學電腦科學系的一群師生。

論文一作者Vishnu Sarukkai 現為史丹佛電腦科學系研究生,還是碩博連讀的那種。他的主要研究方向為:電腦圖形學、電腦視覺和機器學習。

此外,論文的共同作者 Linden Li,也是史丹佛電腦科學系研究生。

在校求學期間,他曾到 NVIDIA 實習 4 個月,與 NVIDIA 深度學習研究小組合作,參與訓練了增加 100M + 參數的視覺轉換器模型。

本文授權轉載自:T客邦

責任編輯:傅珮晴、林美欣

關鍵字: #ai人工智慧
往下滑看下一篇文章
元健助聽器攜手 EVOX 啟動雲端革命:從電話到數據,打造可量化的客戶經營新模式
元健助聽器攜手 EVOX 啟動雲端革命:從電話到數據,打造可量化的客戶經營新模式

面對消費者注意力日益分散、行銷成本節節攀升的挑戰,企業能否在每一次互動中精準把握「關鍵時刻」,已成為站穩市場的決勝點。

台灣助聽器領導品牌元健大和(元健助聽器),不僅透過雲端服務優化配戴體驗,更攜手 E2 Nova 易得雲端(EVOX)打造企業級顧客互動平台,透過 EVOX CloudTalk 雲端電話總機與 EVOX Connect 全渠道雲端聯絡中心,元健助聽器成功的將傳統通訊互動內容轉化為可追蹤、可分析的數據資產,不僅大幅優化客服品質與內部溝通效率,更讓「電話」跳脫單純的服務功能,轉變為驅動營運成長與精算廣告投放效益的核心引擎。

人人買得起、願意戴的助聽器

在全球助聽器品牌中,元健助聽器是少數以「服務創新」來驅動產業變革的代表。董事長吳少暉看見使用者長年面臨的「貴、遠、醜」三大痛點,亦即價格負擔高、服務據點有限及外型選擇不足,決定將「提升助聽器普及率」定為品牌使命,直球對決這三大使用門檻。

EVOX-2.JPG
元健助聽器從產品、通路到服務模式全面重構助聽器的使用體驗,希望解決價格負擔高、服務據點有限及外型選擇不足等痛點。
圖/ 數位時代

為此,元健助聽器從產品、通路到服務模式全面重構助聽器的使用體驗。除了優化產品設計,廣泛佈建電商平台、電視購物等多元通路,主動挖掘潛在消費者外,亦於 2018 年率先推出雲端服務,透過 App 提供聽力檢測、調整助聽器設定等服務,不僅為使用者省去往返門市的時間與不便,也降低服務成本,讓助聽器從過去的高門檻醫療輔具,轉變為更多人可以負擔、可以使用的日常產品。

元健助聽器雲端布局的前瞻性,使其能較同業累積更多用戶數據與實戰經驗,形成難以複製的競爭優勢。如今,元健助聽器已是台灣助聽器與聽力服務市場上銷量第一的品牌,並以兩成市佔、全台 66 間門市為根基,將服務版圖延伸至泰國、馬來西亞、菲律賓、印度、日本及美國等海外市場。

從電話到數據:元健助聽器打造可量化的客戶轉換路徑

隨著服務版圖快速擴張,帶動元健助聽器的營運規模同步成長,挑戰也隨之浮現。吳少暉表示,傳統電話總機系統的建置與維護成本相當高,還可能因為突發狀況而導致服務中斷、流失商機,更重要的是,整體客戶服務流程缺乏可視性。

過往的廣告宣傳,僅能仰賴各門市店長回報新客來電數量,數據不即時且準確性不足,當成效不如預期時,更難以判斷問題究竟出在哪裡,是行銷文案不夠動人?或是門市服務需要再優化?為此,元健助聽器導入 EVOX CloudTalk 雲端電話總機,不僅省去主機建置與維運成本,更將每一通來電從「聲音」轉化為「數據」,從而提升整體服務效率。

透過 EVOX 的數位足跡,元健助聽器建立起一套從「曝光、點擊、來電到到店」的完整轉換路徑:從廣告投放帶來的網站流量、分店頁面點擊,到客戶實際撥打電話的行為,甚至每一通來電的接聽狀況與通話內容,皆能被 EVOX CloudTalk 完整記錄與分析。

吳少暉指出,現在團隊能以「來電數」作為評估指標,分析與比較不同行銷文案和廣告投放策略的成效,這讓元健助聽器成功擺脫過往「憑經驗、靠感覺」的決策模式,取而代之的是透過數據精準掌握不同區域與族群的需求差異,進一步優化行銷與服務策略,讓每一分行銷預算都能發揮最大戰力。

EVOX-3.JPG
元健大和董事長吳少暉指出, EVOX CloudTalk 讓公司能以「來電數」作為評估廣告投放成效的指標,讓每一分行銷預算都能發揮最大戰力。
圖/ 數位時代

EVOX Connect 帶來6大效益,讓客服成為營運成長引擎

在建立數據決策文化後,吳少暉進一步思考,如何讓每一通來電創造更高價值?過去由各門市自行接聽電話,不僅服務品質難以保持一致,也讓門市人員在現場服務與接聽電話之間分身乏術。因此,元健助聽器於 2023 年成立專責客服團隊,並導入 EVOX Connect ,將新客來電集中至客服部門,讓門市人員能專注於客戶到店後的體驗與售後服務。

吳少暉認為, EVOX Connect 為元健助聽器帶來六大關鍵效益。首先,自動輪派機制,兼具效率與公平:系統依照預設棒次自動分派來電給客服人員,解決過往搶線或來電分配不均的問題,顯著提升整體接線效率。

其次,動態狀態管理,服務永不中斷:當客服人員請假、離席或暫時無法接聽電話時,可暫時將服務狀態調整為下線,系統會自動將來電轉派給其他人員,確保服務不中斷。

第三,自動撥號機制,效率提升 5 倍:過去,客服人員有很多時間花費在手動撥號及等待接通上,而 EVOX Connect 的自動撥號功能可同時撥出多通電話,並僅保留成功接通的電話,大幅節省客服人員等待時間,也讓撥號效率提升 5 倍。

第四,嚴謹個資防護,強化企業合規: EVOX Connect 可集中匯入客戶資料與自動撥號機制,減少客服人員直接接觸完整顧客資訊的機會,不僅提升顧客個資安全性,也強化企業在法規與稽核下的合規能力。

第五,開放 API 整合,打造多元應用。 EVOX Connect 提供相當完整的 API 與技術文件,讓元健助聽器能與內部系統進行整合,發展更多元的應用場景。吳少暉舉例指出,目前與外部夥伴合作開發的 AI 客服系統,便是透過 EVOX Connect 所提供的 API 進行整合,讓非營業時間的來電可以交由 AI 客服即時回應,避免潛在商機流失,實現 24 小時服務不打烊的目標。

EVOX-4.JPG
元健大和與外部夥伴合作開發 AI 客服系統,並透過 API 介接 EVOX Connect ,讓非營業時間的來電可以交由 AI 客服即時回應,實現 24 小時服務不打烊的目標。
圖/ 數位時代

第六,通話錄音轉化教材,複製成功經驗:透過系統內建的通話錄音功能,讓元健助聽器可挑選優秀的客服互動案例並轉化為教材,協助各門市人員精進溝通技巧,讓服務經驗得以複製與傳承,進一步提升整體服務品質。

元健助聽器與 EVOX 多年的合作,已從單一品牌的數位轉型,擴展至母集團全面導入雲端系統的策略升級。這份信任,來自於雙方在企業文化與發展方向上的高度契合,以及 EVOX 系統在擴充性與整合性上的優勢,能滿足公司不同成長階段的需求。未來,元健助聽器將加速拓展海外市場,希望藉由 EVOX 建立單一管理後台,將客戶互動轉化為可持續累積的數據資產,為邁向全球市場奠定關鍵基礎。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓