輝達遭爆大規模盜用YouTube訓練AI!每日消耗片量「多到數不盡」燒出版權爭議
輝達遭爆大規模盜用YouTube訓練AI!每日消耗片量「多到數不盡」燒出版權爭議

404 Media》獲得的內部 Slack 聊天、電子郵件和文件顯示, Nvidia從 YouTube 和其他幾個來源抓取影片,以編纂其人工智慧產品的訓練數據。

當被問及使用受版權保護的內容來訓練AI模型的法律和道德問題時,Nvidia為自己的行為辯護,聲稱他們 「完全遵守版權法的條文與精神」 。然而,404 Media 檢視 Nvidia 的內部對話後發現,當 參與專案的員工對使用學術研究資料集和 YouTube 影片的合法性提出質疑時,管理層卻告訴他們,這些內容的使用已獲得公司最高層的許可。

輝達前員工爆料:公司曾要求員工從「抓影片訓練AI」

一位不願透露姓名的Nvidia前員工向404 Media透露, Nvidia曾要求員工從Netflix、YouTube和其他來源抓取影片,用以訓練其AI模型。 這個AI模型將應用於Nvidia的Omniverse 3D世界生成器、自駕車系統和「數位人」等產品。該專案在內部被稱為Cosmos(但與該公司現有的Cosmos深度學習產品不同),尚未公開發表。

從專案領導發給員工的電子郵件顯示,Cosmos 的目標是建立一個最先進的影片基礎模型,該模型「將光傳輸、物理和智慧的模擬整合在一起,以釋放對 Nvidia 至關重要的各種下游應用程式」。

404.jpg
透過 404 Media 獲得的電子郵件顯示,Cosmos 模型如何融入不同 Nvidia 產品的圖表。

Nvidia研究部副總裁暨Cosmos專案負責人Ming-Yu Liu在5月份的一封電子郵件中表示:「我們正在完成v1數據流程,並確保必要的運算資源,以建立一個每天能產出相當於人類一生視覺體驗的訓練數據的影像數據工廠。」

來自 Nvidia 內部的對話和指示顯示,該公司設計了推動生成 AI 繁榮的晶片和 API,其員工在考慮法律和倫理問題時,面臨挑戰。這也強調了包括 Runway 和 OpenAI 在內的行業巨頭對用於訓練其 AI 模型的內容的無限需求。

Nvidia發言人在一封電子郵件中告訴《404 Media》:「我們尊重所有內容創作者的權利,並相信我們的模型和研究工作完全符合版權法的文字和精神。版權法保護特定的表達方式,但不保護事實、想法、數據或訊息。任何人都可以從其他來源自由學習事實、想法、數據或訊息,並用它們來做出自己的表達。合理使用也保護了將作品用於轉化目的的能力,例如模型訓練。」

當被問及Nvidia使用YouTube影片作為其模型訓練數據時,Google發言人告訴《404 Media》,該公司「先前的評論仍然有效」,並連結到2024年4月彭博社的一篇文章,其中YouTube執行長Neal Mohan表示,如果OpenAI使用YouTube影片來改進其AI影片生成器Sora,那將「明顯違反」YouTube的使用條款。

Netflix未與輝達簽訂內容使用協議

Netflix發言人告訴《404 Media》,Netflix 沒有與 Nvidia 簽訂內容使用協議,該平台的服務條款不允許抓取內容。

從事該專案的員工提出的關於法律問題的質疑,常常被專案經理駁回,他們說,未經許可抓取影片的決定是「高層決定」,他們無需擔心;對於什麼構成合理、合乎道德的受版權保護內容和學術、非商業用途資料集的使用,被視為一個「開放的法律問題」,他們將來會解決。

我們的調查凸顯了科技公司在將大量受版權保護的內容抓取到資料集中,用於訓練一些世界上最有價值的人工智慧模型時所持有的「不徵求許可」的態度。

輝達Slack曾討論「影片訓練AI有用論」

2024 年 2 月,Nvidia 公司的首席科學家 Francesco Ferroni 在 Nvidia 公司的 Slack 頻道 #cosmos-dataset-creation 中寫道:「大家好,@Sanja Fidler 向我提到一個收集大量策劃影片數據集以進行生成建模的計劃。我們認為,首先嘗試編輯所有可用的內部和已下載的影片數據集是有用的。」Sanja Fidler 是 Nvidia 的 AI 研究副總裁。

圖片1.jpeg
今年2月,Francesco Ferroni表示,嘗試編輯所有可用的內部和已下載的影片數據集是有用的。
圖/ T客邦

Ferroni接著連結了一個包含資料集連結的電子表格,其中包括MovieNet,一個包含6萬個電影預告片的數據庫;WebVid,一個從圖片庫編譯的Github影像資料集,在Shutterstock發出停止和終止通知後,已被其創建者刪除;InternVid-10M,一個Github上可用的1000萬個YouTube影片ID的資料集;以及幾個內部捕獲的電子遊戲片段的資料集。

《404 Media》已從Slack對話的螢幕截圖中刪去了低階員工的姓名。我們保留了幾位參與該專案的高級工程師和高階主管的姓名,因為他們是人工智慧行業的領導者,具有公眾形象。

影片資料庫表格.jpeg
Ferroni連結了包含資料集連結的電子表格,其中包括MovieNet,一個包含6萬個電影預告片的數據庫。
圖/ T客邦

資料庫只能學術使用?條款難阻科技巨頭訓練AI

在2月份後來的討論中,工程師們談到了他們已經提取的資料集,包括HD-VG-130M,一個包含1.3億個YouTube影片的資料集。

該資料集由中國北京大學的研究人員所建立,其使用授權聲明該資料集僅供學術使用。

該資料集的Github頁面說:「透過下載或使用數據,您理解、承認並同意以下協議中的所有條款。僅限學術使用。HD-VG-130M資料集中的任何內容僅可用於學術研究。您同意不以任何商業目的重製、複製、拷貝、交易或利用數據集中的內容。禁止散播。尊重原始來源個人訊息的隱私。未經版權持有人許可,不得對數據集內容進行任何形式的傳播、修改或其他類似行為。」

在項目過程中,由研究人員和學者編輯公開的資料集被認為可以自由使用於 Nvidia 的模型中。AI 研究人員越來越關注其公開資料集的合理使用,包括倫理和法律方面的考量。

麻省理工學院數據來源計劃的 Robert Mahari 告訴 404 Media,在過去一年中,他們看到越來越多的研究數據集被授予非商業用途授權,顯示出學術界試圖限制其工作的商業用途。為研究用途編輯的數據集有不同於商業用途的目的。

Mahari說:「當學者們發布公共資料集,特別是針對特定任務時,我們並不檢查這些數據是否存在某些類型的偏見或西方中心主義等等。如果這不是工作的重點,那麼就不會檢查這些數據。因此,如果一位學者在授權條款上寫著:『這僅用於學術用途』,或者『請不要以非預期的方式使用這些數據』,我覺得有很強的理由應該聽從這一點。因為這些數據可能並不適合商業用途,在其他類型的背景下可能無法很好地工作。」

像許多其他科技巨頭一樣,Nvidia也僱用從事和發表學術研究的人。然而,《404 Media》看到的Nvidia內部對話清楚地表明,Cosmos旨在加強該公司在競爭激烈的AI行業中加強其商業產品的努力。

公開可用的研究資料集通常以一組URL或YouTube ID的形式分發,這是出於實際原因——數百萬個完整的影片或圖像文件分享起來太麻煩——但也是出於法律和道德原因。例如,如果有人刪除他們的YouTube影片或推文,副本就不會在所有者不知情或未經許可的情況下繼續存在於資料集中。

為了獲得實際文件,專案經理讓員工使用下載器和 AWS 伺服器抓取影片並將其合併成 Nvidia 自己的專有數據集。

Nvidia 員工在專案中的一封電子郵件中說:「這些文件的實際檔案只能由你自己下載。無法從數據集 URL 列表中下載檔案。」

Mahari 說,抓取 YouTube 和其他來源的內容作為 AI 模型的訓練數據,不僅對數據集製作者提出了問題,還對抓取數據的公司提出了倫理和法律問題。「顯然,這是不可接受的做法」,Mahari 說。「我們需要一個過程,以便有意圖地解決這些問題。」

輝達高層授權「不用擔心合理使用問題」

在一個行業內部的 Slack 頻道中, 項目經理稱,抓取影片以建立 Cosmos 是由 Nvidia 高層做出的決策。員工被告知不必擔心關於合理使用的問題。

華盛頓大學計算語言學實驗室教授兼主任艾米莉·班德(Emily Bender)告訴《404 Media》:「這感覺有點像是一種法律上的變通辦法,不直接分發數據集,其他人可以構建數據集,然後將其用於自己的目的。」

使用電影片段訓練AI,早有風氣

3月,一位研究科學家在Slack上開始了一個關於OpenAI的Sora影片生成器可能在其訓練數據中使用《阿凡達》和《魔戒》等好萊塢電影的話題。

阿凡達.jpg
OpenAI的Sora影片生成器,可能在其訓練數據中使用《阿凡達》和《魔戒》等好萊塢電影。
圖/ T客邦

他們說:「電影實際上是一個很好的資料來源,可以獲得類似遊戲的3D一致性和虛構內容,但品質更好。這兩個角色都是完全的CGI,現在許多真人場景也是CGI。」有人回答說,團隊應該用探索頻道的電影來訓練。

Liu說:「我們需要一個志願的人來下載所有的電影。」

最初提出電影的研究科學家補充說:「雖然他們正在做的事情非常清楚,但我們必須非常小心好萊塢對AI的過度敏感。在SD(Stable Diffusion)發表後,藝術家社群發生的事情,在好萊塢/VFX也正在發生。」

然後,他們在聊天中貼了兩個連結:一個是《好萊塢報導者》的一篇文章,內容關於泰勒‧派瑞在看到OpenAI的Sora後,暫停8億美元工作室擴張計畫;另一篇則是《名利場》關於2023年SAG-AFTRA罷工的文章。

圖3.jpg
Liu說:「我們需要一個志願的人來下載所有的電影。」
圖/ T客邦

Liu回應說(強調是他們的):「我們在這裡做的事情不會導致任何出版物。我們會先用所有能下載到的數據進行實驗。鑑於我們不會發表任何東西,不會導致負面情緒。」這位與《404 Media》交談的前員工解釋說,「出版」是指研究出版物方面。

提出「過度敏感」的人回答說:「如果我們在全公司範圍內這樣做,應該廣泛溝通,因為像他們那樣展示一個例子可能會適得其反。」Liu回答說:「會的。」

證據.jpg
圖/ T客邦

YouTube影片也成訓練素材

3月,Ferroni在另一個與專案相關的Slack頻道中寫道:「發現了一個需要高優先級下載的文件列表。原來我們擁有的HDVILA(高解析度影片語言)資料集中缺少了230萬個原始影片!」他們指的是微軟的HD-VILA-100M,一個大規模、高解析度和多樣化的影片語言資料集。他們發送了一個Google Drive檔案的連結,並說:「這裡是缺少的youtube連結」,然後,「讓我們把這個放到下載流程中!」

HD-VILA-100M的使用許可聲明:

您同意僅將數據用於非商業研究的運算用途。這項限制意味著您可以從事非商業研究活動(包括由商業實體承擔或資助的非商業研究),但您不得在任何商業產品中使用數據或任何結果,包括作為您使用或提供給他人的產品或服務的一部分(或用於改進任何產品或服務)。

另一位工程師回覆說:「讓我們建立一個我們已經下載的URL數據庫。Youtube影片有唯一的ID,我們可以用那些作為參考('?v='之後的ID)嗎?我們將來會多次進行 URL 差異比較和合併。」Ferroni回答說:「是的,我們現在正在用Hive做這個,設置基礎設施」,這意味著他們正在把它加入到專案管理工具Hive中。

Nvidia員工還討論了YouTube封鎖IP位址的問題;如果平台檢測到有類似爬蟲的東西被用來下載大量的內容,他們可以封鎖單個IP位址的造訪。有人問:「關於Youtube封鎖IP,你考慮過像https://brightdata.com/for IP rotation這樣的東西嗎?我們現在正在考慮用它來抓取LLM數據,如果你想試試,我有一個帳戶可以把你加進去。」

他們標記的人,在Omniverse團隊工作,回答說:「我們在AWS上,重啟一個『虛擬機』就會得到一個新的公共IP。所以,所以到目前為止這不是問題。」

在#cosmos-dataset-creation的Slack討論中,關於如何最好地為專案尋找影片,員工偶爾會提出關於他們正在做的事情的法律和道德問題。2月,在有人提到使用YouTube-8M(一個由Google編譯的YouTube ID研究資料集)後,Ferroni問道:「我們可能不能將[YT8M]用於非研究目的吧?」

YouTube-8M的論文和專案頁面沒有提到權利問題,但論文確實表明它是為了促進機器學習研究而創建的:「我們希望這個資料集能為學術界研究人員提供公平的競爭環境,縮小與大規模標記影音資料集的差距,並顯著加速影像理解的研究。我們希望這個資料集能被證明是一個開發新的影像表徵學習算法的試驗台,特別是有效處理嘈雜或不完整標籤的方法,」論文指出。

對於Ferroni關於在Cosmos專案中使用它的問題,一位Nvidia員工回答說:

「是的,從Google那裡出來的出口成本很高。然而,從Nvidia內部調度10000個核心傳統上是很困難的。此外,Nvidia到雲端的頻寬限制增加了很大的變數,並可能造成問題。從Google Cloud上下載意味著每個工作都能獲得可預測的、高頻寬的YouTube連接。

更重要的是,下載 YouTube 視頻是違反 YouTube 服務條款的。因此,為了下載YouTube 8m,我們提前與Google/YouTube清楚地溝通了下載事宜,並以我們將使用Google Cloud為誘餌。畢竟,一般情況下,對於800萬個影片,他們會得到大量的廣告印象,這是他們在下載用於訓練時失去的收入,所以他們應該從中得到一些錢。支付每下載一個影片0.00625美元似乎仍然很划算。」

Ferroni回答說:「好吧,大概這些數據只能用於研究目的吧?據我所知,Google YouTube API可以用來查詢每個影片的授權條款。你能否也說明一下ACAV100M、YouTube8M的使用條款?」

使用條款.jpg
圖/ T客邦

「據我所知,YouTube 的服務條款禁止下載,不管授權內容是什麼;這些限制是關於他們損失的廣告收入,而不是授權條款,」另一位員工回答說。他們繼續說:

「我不知道Google在創建資料集時使用了什麼授權條款過濾;我們只是下載了他們列出的資料集中包含的任何內容(他們發表了功能,加上原始影片的連結)。我下載的YouTube 8m數據包含完整的元數據,所以你可以檢查每個影片。我還得看看ACAV100M資料集。一般來說,CC或公共領域當然總是最好的。然而,是否可以使用受版權保護的材料進行訓練是一個開放的法律問題;大多數公司似乎認為是可以的。我相信我們的法律團隊已經批准了這種用於LLM訓練的事情,也可能批准用於影片訓練。」

結圖.jpg
圖/ T客邦

麻省理工學院媒體實驗室的博士生Shayne Longpre告訴《404 Media》:「我認為,在未經他人同意的情況下將某樣東西商業化,與基於已公開在網上的東西研究生成式AI的能力之間,存在著巨大的差距。」

在Cosmos Slack頻道中關於YouTube服務條款的問題並不是最後一次在頻道內出現法律問題。後來,另一位員工說:「嗨,團隊。我們是否正在使用https://research.google.com/youtube8m/download.html?如果是的話,我們是否有法律批准?在一個專案中,法律部門否認使用它,因為個別影片的許可優先於yt8m上共享的許可。」

Liu回答說:「這是一個行政決定。我們對所有數據都有總體批准。」

「好的,謝謝你!」問這個問題的人回答說。

結圖2.jpg
圖/ T客邦

輝達遊走灰色地帶

班德告訴《404 Media》,Nvidia正在利用受版權保護的內容用於訓練數據的法律灰色地帶。

她說:「在我看來,確實存在一種文化,即『如果我們能抓到,我們就可以使用』,這很大程度上基於人們希望是真實的,而不是基於仔細的工作、查看其合法性,或深入思考它如何影響人們。」

Mahari說,使用受版權保護的內容來訓練AI「絕對不是一個確定的法律」。他說,法律制度還沒有確定使用訓練數據來開發AI模型是否具有足夠的變革性,特別是模型已被證明可以記憶或回憶訓練數據作為輸出。「我的觀點(部分總結在這篇科學文章中)是,訓練AI模型很可能構成合理使用,但這並不意味著生成與訓練數據的特定專案相似的輸出不是侵權。在這種情況下,目前還不清楚是基礎模型的提供者還是創建輸出的特定使用者會侵權(這可能取決於具體情況)。」

5月,一位研究科學家在Cosmos Slack頻道中分享了一些Youtube頻道的連結,並說:「如果你們仍在考慮可以下載的 YouTube 頻道,這裡有幾個可能值得考慮的頻道。」這些頻道包括Expedia和Architectural Digest的官方頻道,以及The Critical Drinker和Marques Brownlee (MKBHD)等個人的內容創作者。一位專案經理感謝他們的建議,並說他們會將這些建議傳遞給團隊,而Fidler回答說:「你們還包括教學影片嗎?天文學?醫學?」

三小.jpg
圖/ T客邦

在商業基礎模型中使用受版權保護作品的「開放法律問題」可能不會長期開放。版權所有者對生成式人工智慧公司提出的侵犯版權的投訴越來越多,包括Getty Images對Stable Diffusion創建者Stability AI的訴訟、紐約時報對OpenAI的訴訟,以及藝術家和創作者對Stability、Midjourney、DeviantArt和Runway提起的集體訴訟。

Cosmos訓練數據團隊還討論了使用Netflix來訓練生成器。Liu在Slack頻道中說:「在今天的會議上,我們得到了下載所有類型數據的授權。我們也應該下載整個Netflix嗎?我們要如何操作呢?」

有人回答說:「我們應該下載完整的探索頻道!」

Liu說:「我們需要一個PIC(專案訊息協調人)來做這件事。誰願意一邊看電影一邊螢幕截圖?」

Liu繼續說:「我們應該從這裡得到很多高品質的人臉影片。」Omniverse基礎設施團隊的某人被標記到發文中,並指出他們願意幫助「操作這個」,因為他們有在「其他大公司建立大型資料集」的經驗。

脆.jpg
圖/ T客邦

該團隊還考慮了如何最好的在訓練數據中加入遊戲畫面。Nvidia的高級研究科學家Jim Fan提到了在捕捉生活遊戲影片時涉及的「工程和監管」障礙。

Fan寫道:「更新:我一直在與 GeForce Now(GFN)的人會面,並將與他們制定一個數據計劃。我們將與 GFN 和相關工程團隊密切合作,以設置實況遊戲數據捕獲,擴大管道,並處理它們以用於訓練。高品質的遊戲影片將是我們Sora工作的一個非常有用的補充。我們還沒有統計數據或影片檔案,因為還沒有建立基礎設施來擷取大量的即時遊戲影片和動作。這裡有工程和監管方面的障礙需要克服。但一旦GFN數據來了,我們就會將清理和處理後的GFN數據加到team-vfm中。」

蛤.jpg
圖/ T客邦

3月,該專案達到了一個里程碑:下載了10萬個影片,Nvidia在兩周內完成了這項工作 。一位員工在討論這個里程碑的發文中提到Ferroni擁有一個他們正在使用的下載器,Ferroni確認他們一直在下載聲音和影片。

Liu回答說:「驚人的進展。現在的問題是,我們如何能得到大量的、高品質的URL。」

脆2.jpg
圖/ T客邦

5月下旬,一封關於影片數據戰略的電子郵件發送給了專案團隊成員,宣布他們已經編譯了3850萬個影片URL。「在我們衡量所需分佈時,下週的重點仍然是電影、無人機拍攝、自我中心視角、一些旅遊和自然內容,」郵件說。它還包含了一個圖表,顯示了他們下載的內容類型的百分比。

wj61ul3.jpg
圖/ T客邦

在這封電子郵件中,一位產品經理建議將另外四個資料集加到模型的訓練數據中。他們寫道:

1. Ego-Exo4D:一個多樣化、大規模、多模式、多視角的影片資料集和基準測試,由全球13個城市的740名佩戴攝影者收集,捕捉了1286.3小時的熟練人類活動影片。 

2. Ego4D:一個大規模的、以自我為中心的資料集和基準測試套件,在全球74個地點和9個國家收集,有超過3670小時的日常生活活動影片。 

3. HOI4D:一個大規模的4D以自我為中心的資料集,具有豐富的註釋,以促進人和不同類別的物體互動方式的研究。

4. GeForce Now:遊戲數據。」 

HOI4D是由清華大學、北京大學和上海齊智研究所的研究人員創建的,在CC BY-NC 4.0許可下,禁止商業使用。

Bender說:「在我看來,如果一家公司將一個僅用於研究目的的資料集用於研究,他們仍然遵守該資料集的許可。但為了做到這一點,他們必須非常小心地在他們作為研究的工作和他們在構建產品的工作之間設置一個防火牆。」

在另一封5月份的更新電子郵件中,Liu說:「研究團隊現在正在用許多不同的配置來訓練一個1B模型,每個配置有16個節點。這是進一步擴大規模之前的一個重要的調試步驟。我們計劃在幾周內得出結論,然後再擴大到10B模型。」

Nvidia執行長黃仁勳回覆該郵件說:「很好的更新。許多公司必須建立影片FM(基礎模型)。我們可以提供一個完全加速的流程。」

6月,員工們討論了在保持AI行業競爭力的背景下,模型中的哪些類型的內容對Nvidia的產品最有用。

蛤1.jpg
圖/ T客邦
c862.jpg
圖/ T客邦

Liu說:「Nvidia擁有機器人、AV(自動駕駛汽車)、OV(Omniverse)和Avatar,這些都是大多數內容公司所沒有的。為了最大限度提升公司的影響力,我們策劃的數據必須能很好地用於這些殺手級應用。」

一位產品經理回答說:「我了解對機器人和AV有影響的數據。誰能分享對OV和Avatar用例有影響的數據的細節?」

Liu回答說:「這將是關於人類如何與物體互動的影片。比如家具安裝。切水果,疊衣服。」

雖然Nvidia確實為學術研究做出了貢獻,但《404 Media》獲得的對話和電子郵件顯示,Cosmos團隊正在開發的模型是用於其多個產品的商業用途。

在法律對如何編制訓練數據建立先例,或者要求公司讓這些數據保持透明之前,企業將會繼續利用抓取版權保護的訓練數據這一法律灰色地帶。像這樣被洩露出來的內部對話,是任何人能夠知道自己的作品是否被用來訓練模型的唯一方式,而這些模型為Nvidia、Runway 或 OpenAI 等公司帶來了數十億美元的收益。

多年來,人工智慧行業一直在推動提高透明度,無論是透過政府監管還是行業標準。「了解用於訓練模型的資料集中的內容以及它們是如何被編譯的至關重要,」麻省理工學院的Jack Hardinges、Elena Simperl和Nigel Shadbolt在今年早些時候寫道。「沒有這些訊息,開發者、研究人員和倫理學家解決數據中的偏見或刪除有害內容的工作就會受到阻礙。有關訓練數據的訊息對立法者評估基礎模型是否攝入了個人數據或受版權保護的材料也至關重要。在更下游,如果AI系統的預期操作者和受其使用影響的人了解它們是如何開發的,他們就更有可能信任它們。」

立法者在過去一年中提出了幾項法案來解決這個問題,包括去年12月提出的《AI基礎模型透明度法案》,該法案將要求創建基礎AI模型的公司與FTC和版權局等聯邦機構合作,制定透明度標準,包括要求他們向消費者公開某些訊息。4月提出的《生成式AI版權披露法案》將要求資料集製造商向登記處提交「對使用的任何受版權保護作品的足夠詳細的摘要」,否則將面臨罰款。

Mahari說:「從技術上講,很難確定你的東西是否被用於訓練。公司的最佳政策,從激勵的角度來看,是不告訴人們你訓練了什麼,因為任何第三方都很難真正進行審計並找出答案。所以,只要你不告訴任何人,就很難證明。」

延伸閱讀:快換掉純數字密碼!實測NVIDIA顯卡解碼時長,最複雜密碼「頂多撐1小時」

本文授權轉載自:T客邦

責任編輯:李先泰

往下滑看下一篇文章
從會員數據到 AI 行銷:Vpon 打造零售業 AI-Ready 數據中台,提升決策效率
從會員數據到 AI 行銷:Vpon 打造零售業 AI-Ready 數據中台,提升決策效率

在 AI 快速進入企業營運核心的時代,數據不再只是被動的分析素材,而是 AI 模型運作與決策優化的重要基礎。

零售品牌積極累積大量第一方數據,例如會員資料、交易紀錄以及線上與線下行為數據,但因這些數據分散於不同系統,缺乏統一的身分識別機制以及明確的元數據(Metadata)定義,導致難以整合與分析,同時,也影響 AI 對這些數據資產的理解與應用。

為解決上述挑戰,Vpon 威朋將累積十餘年的實務經驗轉化為產品與服務,如 Audience Center 與 AI Agent 等解決方案,並透過專業顧問團隊協助企業完成數據收集、清理、整合與分析等關鍵流程,從資料清理到 AI-Ready 再到落地應用,讓行銷與業務團隊能以自然語言將數據查詢與分群受眾逐步自動化,大幅縮短過去仰賴技術與分析團隊溝通需求與開發分析邏輯的時間。

Vpon 助零售業打造 AI-Ready 數據基礎,以 Audience Center 驅動業務商機

如何建立 AI Ready 數據基礎建設?

Vpon 威朋數據科學經理廖宜楷指出,在 AI 驅動的時代,數據的品質決定模型價值。其中四個關鍵分別是:建構標準化的數據採集與處理管線,透過統一的工程規範,確保所有進入系統的數據在格式、維度與質量上具備高度一致性;其次是定義語義清晰的元數據(Metadata)體系,確保數據能夠被 AI 理解與使用,從而產出具備可靠性的產出結果;再來是打破企業內部的「數據孤島」, 透過完整整合線上(Web/App)行為與線下(POS/CRM)會員資訊,建構全方位的會員數據輪廓,精準捕捉消費者的跨通路行為軌跡。最後,數據的價值隨時間遞減,AI 的決策品質取決於數據的「新鮮度」,因此,數據的持續更新與自動化維護,不僅能讓企業在動態市場中保持敏銳,還可進一步深化會員輪廓分析的即時性。

舉例來說,在 Vpon 團隊的協助下,台灣百貨零售龍頭透過整合 Web 與 App 行為資料,並將線上與線下數據集中於數據中台進行分析,將傳統耗時數小時的複雜資料庫分析工作縮短至秒級回應,並基於此高效率基礎,進一步開發不同業務主題的預測與分群模型,提升行銷精準度與營運決策的敏捷性。

扎實數據基礎的價值落實:Audience Center 如何賦能企業實現「數據即戰力」?

有了堅實的數據底座後,下一步是透過 Audience Center 將數據資產轉化為商業動能。

廖宜楷指出,在變化快速的零售與數位行銷市場中,速度就是競爭力。然而,仍有許多企業在數據應用上面臨嚴重的溝通與技術斷層。過去,當行銷或業務人員需要數據支持時,通常得花費繁複的內部流程申請需求、討論需求,才會進到後續的資料清理、建模與分析,最後才能得到想要的分析結果或行銷名單。這種以「週」為單位的進程,不僅拖慢了決策效率,更讓企業在競爭激烈的市場中錯失先機。

Audience Center 的核心價值在於徹底翻轉上述流程,將數據處理轉化為數據服務,透過直覺的介面與背後扎實的數據基礎支撐,讓非技術人員不用編寫程式碼,即可自行組合維度,大幅縮短從需求到執行的距離,將原先需要耗時數週的作業流程優化成秒級產出。

「Audience Center 的導入,不僅有助於提升效率,更賦予企業快速試錯與精準捕獲趨勢的能力,讓數據真正成為驅動業務增長的引擎。」廖宜楷如此總結。

#1 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋數據科學經理 廖宜楷
圖/ 數位時代

以 AI Agent 重塑數據使用方式,讓數據更貼近決策流程

「Vpon 除提供 Audience Center 協助品牌發揮第一方數據資產價值、提供豐沛的第三方數據助品牌深化對客戶輪廓的掌握度,更推出 AI Agent 服務讓品牌與行銷人員能更直覺地使用數據。」Vpon 威朋數據科學資深總監陳文謙表示,在數位轉型的過程中,許多企業面臨的挑戰不僅是數據整合,更包括如何讓不同部門的人員都能更即時協作與應用數據,有鑑於此,Vpon 推出四種 AI Agent 協助企業分析與應用數據,極大化第三方數據成效:

第一,以 Reporting Agent 讓高階主管或行銷人員可以自然語言查詢數據與生成報表,即時掌握市場動態,加速決策下達與決策品質。

第二,透過 Insight Agent 確保數據分析不受分析人員的主觀意識或產業知識侷限,可以輕鬆完成跨領域數據分析、快速挖掘潛在市場機會與消費者洞察。

第三,藉由 Audience Agent 將客戶分群方式從規則導向(Rule-based)轉變為關聯導向,以關聯分析擴大受眾範圍,協助品牌找出更多潛在客群。

第四,推出 Creative Agent 協助行銷人員分析廣告素材表現的根本原因,釐清受眾喜歡的素材跟不喜歡的素材,藉此優化廣告投放內容,持續提升轉換率。

陳文謙表示:「透過 AI Agent 的輔助,品牌不僅能更快完成數據分析,也能將分析結果直接轉化為行銷策略與創意建議,降低跨部門溝通成本,讓數據真正參與決策流程。」

#2 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋數據科學資深總監 陳文謙
圖/ 數位時代

鏈結數據生態夥伴,以跨境數據放大行銷效益

除了協助品牌主建立 AI Ready 的數據基礎環境並提升數據使用效率,Vpon 也持續拓展數據生態圈,協助零售品牌更精準布局海外市場。

Vpon 威朋產品行銷資深經理邱心儒表示,跨境行銷過去多仰賴經驗與市場直覺,但透過數據整合與 AI 分析,品牌能更精準理解海外消費者的旅遊與消費行為。

以 Vpon 與日本 Loyalty Marketing Inc. 合作為例說明,透過雙方的獨家合作,企業可以結合 Ponta 超過一億的會員數據、問卷調查結果以及 Vpon 的七大數據來源,深入分析日本消費者的消費偏好與購買力——包括哪些日本族群對台灣品牌最感興趣、最受歡迎的台灣商品類型,以及不同客群的價格敏感度與回購行為等,將行銷決策從過往的經驗判斷轉變為精準的數據洞察,成為品牌出海的重要工具。

簡言之,對零售品牌而言,跨境數據是理解海外旅客真實樣貌的一大利器,也能進一步優化廣告投放、內容策略與商品布局,讓品牌在拓展國際市場時,可以更有效率地接觸潛在客群,放大行銷效益。

#3 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋產品行銷資深經理 邱心儒
圖/ 數位時代

展望未來,Vpon 將持續擴展數據生態圈並優化產品服務,幫助零售品牌從數據整合、AI 分析到市場決策建立完整的數據應用循環,希望以數據夥伴的角色與品牌共同成長,打造互利共贏的數據生態。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓