面對耳聰目明的消費者,行銷人永遠有一個疑惑:「他們到底想買什麼?」傳統的市場調查行之有年,不僅耗時費力,又常常因樣本偏差或回應不誠實而失準。然而,最近一項來自PyMC Labs與高露潔公司合作的研究,正悄然改寫行銷領域的遊戲規則。透過如GPT-4o、Gemini 2.0等大型語言模型(LLMs)的協助,AI不僅能模擬人類的購買意圖,還可以提供比真人更理性、更深入的洞察。
根據歐洲民意及市場研究協會(ESOMAR)的數據顯示,2021年市場研究行業的收入為1,188億美元,顯見全球企業每年在消費者研究上投入超過千億美元,但回報率卻常常令人失望。道理很簡單,人類的購買意圖複雜多變,受訪者可能因社會期望而給出正向偏誤,或為了換取小禮物而索性亂填。更糟的是,當產品真正上市,市場反應往往與調查大相徑庭。
這正是行銷界所面臨的長期困境: 我們想預知誰會買,但有時連消費者自己都未必清楚自己的心意。
心理學家丹尼爾・康納曼(Daniel Kahneman)在《快思慢想》一書中就指出,人類決策常受直覺偏誤影響,導致調查結果不穩。有鑑於此,PyMC Labs與高露潔公司的研究團隊最近發表一篇名為〈大型語言模型透過語意相似性引導評分,模擬人類的購買意圖〉(LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings)的論文,他們證明,AI能以高達90%的人類測試與重測可靠性,模擬真實消費者的購買意圖。
SSR是什麼?為什麼它能讓AI回答比真人問卷還準確?
這篇論文的核心貢獻,主要基於SSR這套創新框架。傳統採用李克特量表的行銷人員,會很直白地透過問卷詢問:「你對這款新牙膏的購買意願如何?(1=完全不會買,5=一定會買)」,但人類受訪者常為了避免尷尬,給予相對高的分數,這導致真實性大打折扣。
然而一般AI在回應時,傾向選擇中間值(如3分),這是因為大型語言模型訓練強調平衡,避免給出極端回應。這會導致模擬結果與真人回應產生嚴重脫節。
研究團隊的解決之道是,先引導AI生成文字回應,例如:
請以35歲上班族身分,描述你對這款沐浴乳的購買想法,包括理由。
AI可能回覆:
這款沐浴乳的天然成分吸引我,但如果價格超過50美元,我會感到猶豫,因為市面上有更便宜的替代品。
接著,研究人員再透過AI計算這段文字與預設錨點句的語義距離。這些錨點句,分別代表不同的意圖層級,例如:
「我絕對會購買這款產品,它完美地符合我的需求。」 (5分)
「這產品看起來不錯,但我需要更多資訊才能決定。」 (3分)
「這產品完全不吸引我,我不會考慮購買!」 (1分)
研究人員透過相關算式找出最接近的錨點,進而得出數值分數。
這種方法不僅保留了語言的豐富性,還確保分布真實。實驗結果顯示,在57份個人護理產品問卷(涵蓋牙膏、護手霜等,總計9,300位美國真人受訪者)中,SSR的模擬結果與真人數據的相關性達0.88以上,K-S相似度超過0.85。這相當於人類重複測試的90%可靠性,遠遠勝過直接的數值提示。
SSR帶來哪些好處?
更令人興奮的是,SSR不僅輸出數字,還附帶質性研究的洞察。以往,問卷調查往往只能得到冷冰冰的分數,或是人類的簡短回應(如「還好」),但AI常給出更有建設性的意見,好比:「這款牙膏的環保包裝吸引環保意識強的我,但若無臨床證明,我還是會選擇熟悉的品牌」、「包裝設計時尚,但香味描述讓我擔心過敏的風險」等諸如此類的回應,形同免費獲得焦點團體式的回饋。
此外,AI的回答更誠實且理性。相對人類受訪者常有正向偏誤,平均分數達4.2分,但AI沒有人情包袱跟社會壓力,平均分數降至3.6分,卻維持相同的排序。這對企業來說不啻為福音,因為它提供更真實的風險評估,幫助品牌及早調整。
而且由於AI具高度可調整的特性,使用者可以提示它扮演強調情緒的衝動型消費者,或注重數據的理性分析者,甚至能夠模擬文化差異,好比來自亞洲市場的健康導向買家。
研究者強調,這套機制的通用性強,而且透過這種語義橋樑,AI從單純的回應者轉變為洞察生成器,得以為企業提供更立體的決策依據。
行銷人福音!半個月費心費力花萬元做民調,抵不過AI一天生成報告
這項研究的真正價值,在於它將市場調查從勞力密集轉向AI驅動,這也意味著數位行銷進入了市場模擬(Market Simulation)的時代。以往,我們從問卷設計、樣本招募、資料回收到分析報告,至少需要半個月或更久的時間。如果想請知名的市調公司協助調查,可能需要花費好幾萬塊,成本更不在話下。
如今,SSR讓一切簡化:從設計提示詞(Prompt)開始,讓AI生成回應,然後計算語義分數,幾乎可以在一天之內就做出報告。不僅能夠產出平均意圖分數,AI還可以提供有建設性的理由。
SSR的潛力遠超出購買意圖的探測,更可延伸至多個商業領域。首先,在品牌廣告測試中,傳統的焦點團體訪談也許有些昂貴,難免也有些主觀。未來,AI可模擬不同人格來評估廣告文案。
其次,AI也可賦能新產品開發。研發團隊可快速評估多變體,例如某個護膚品品牌測試10種配方,AI預測哪款產品最受敏感肌膚族群的歡迎,可節省實體測試成本。研究顯示,SSR在個人護理領域準確率最高,但也可擴及食品、電子產品。
第三,跨文化模擬是一大亮點。對於想要進軍國際的品牌,可讓AI扮演不同地區的消費者,比較語義差異。例如,對同一款飲料,也許美國人喜歡創新的口味,但臺灣人更注重健康成分。對於想要打世界杯的台灣廠商來說,這等同於能夠快速建構全球虛擬市場,可降低一些海外擴張風險。
誰能更快掌握市場,誰就是最後的贏家
儘管前景光明,值得注意的是SSR並非完美。研究指出了幾項限制:錨點句需人工精煉,若語氣不貼近文化,模擬會偏差。例如西方世界的「強烈同意」,在亞洲可能被解讀為溫和語態。
另外,AI對某些複雜領域(好比投資理財)的知識有限,理解深度不如日常用品。而且AI缺乏真實動機,它固然能夠模擬理性決策,但容易忽略情緒衝動,好比面對黑色星期五或雙十一購物節的血拼,AI的判斷不見得精準。
模型偏誤也可能放大,倘若訓練數據偏向西方,那麼有關亞洲地區的模擬就可能失準。
不管如何,這項研究闡明了行銷未來三個重要趨勢。
從「多少人」統計轉向理解「為什麼」?
首先是市場調查研究開始從資料搜集,逐漸轉向語義推理。傳統重視「多少人選5分」,AI則會追問「為什麼選5分」?SSR的應運而生,凸顯了這個轉變,讓企業從單純投入數理統計,轉而開始重視敘事脈絡。
焦點團體「不是人」
其次,AI成為虛擬的焦點團體。想像一下,當我們召開一個會議,會議室裡坐滿了十個虛擬角色討論產品,不僅生成對話紀錄,同時也忙著進行情緒分析。此舉不僅加速創新,行銷人員更能因時制宜,根據現況來進行優化。
AI結合數據生成洞察
第三,洞察普及化。諸如全球知名的日用品生產商寶僑(P&G),已經開始探索合成數據的可行性。
這項研究證明,AI在語言層面已能模擬人類的某些決策。它不僅為市場調查帶來了新氣象,還預示一場從觀察人到模擬人的典範轉移。在AI賦能時代,真正的贏家不止是問消費者會不會買,而是懂得讓AI預測誰會買、為什麼買以及怎麼買。
