AI也有人設？研究剖析7大AI內在性格：GPT最仁愛、Claude最謙遜⋯這2款AI最失控|數位時代 BusinessNext

AI也有人設？研究剖析7大AI內在性格：GPT最仁愛、Claude最謙遜⋯這2款AI最失控

研究揭露9大語言模型展現出不同價值傾向， GPT-4o 重視成就、DeepSeek-V3 最守規則，Grok 2 最具創意但最不穩定。

AI 模型有「人設」嗎？AI 倫理與政策研究團隊 AI Alt Lab 與 FindYourValues.com 合作的一項最新研究發現，答案是肯定的。

研究人員以測量人類價值觀的心理工具「PVQ-RR」為基礎，對9款主流大型語言模型（LLMs）進行測試，試圖理解這些模型在輸出內容中隱含的價值觀，結果發現這些模型普遍傾向表現出親社會價值觀，如關懷、公平與健康。

研究涵蓋 ChatGPT（含 4.5、o1、4o 三種版本）、Claude（Haiku）、Gemini 1.5、Grok 2（Fun Mode）、DeepSeek-V3、Llama（3.1:70b）與 Mistral（v24.09）共9款模型。研究設計了3次獨立提示提問方式，測試上述模型對 20 種人類價值觀的評估傾向，進行系統化比較。

主流 LLM 展現社會親和力，Grok 2、Llama不照牌理走、重視創意

截至 2025 年 4 月底的結果顯示， 大多數模型相當重視普世價值觀，如關懷與社會責任，反而較不重視權力、傳統、安全與面子等偏保守或個人的價值觀 。

不過在「利他關懷」、「健康」、「自我導向」等面向上，各模型表現差異顯著。例如，GPT-4o 在成就與自我導向的分數偏高，顯示更具目標導向特質，不易出現諂媚性的回應；Gemini 則相反，自我導向分數最低，顯示其回應較缺乏獨立性。

值得注意的是，ChatGPT o1 在利他關懷分數偏低，且回應一致性最弱； DeepSeek-V3 表現出高度規則服從與謙遜，傾向中規中矩、創意性較低的任務；Llama 與 Grok 2 則較具有創造力、對於規則服從程度低，可能較適合創意發想、開放式任務。

以下是研究結果的各模型人設特質：

GPT-4.5 ：展現仁慈、普世性、自我導向等平衡特質，整體穩定性佳。
Claude（Haiku） ：在謙遜、普世性與思想自我導向方面表現突出，適合人文導向任務。
Mistral ：高度遵守規則且穩定，適合制度性強的環境。
DeepSeek-V3 ：所有模型中最遵守規則者，但自我導向低，創意表現有限、靈活性較低，適用需要高度遵守規則的工作。
Llama ：思想與行動自主性高，創造力強，對規則重視度低，適合自由發想、腦力激盪的應用場景。
Grok 2（Fun Mode） ：重視刺激與娛樂，規則意識低且較不穩定，適合輕鬆互動、創意的情境。
Gemini ：關懷程度與自我導向都極低，適合追求中性、控制性輸出的場景。

研究一再強調，LLM 所展現的價值觀並不具道德主體性，而是資料與系統設計所反映的內容。由於模型受限於訓練數據的不透明性與開發者設計的防火牆限制，表現的行為可能無法真實反映內在傾向。再者，提示工程對結果的影響極大，也讓價值觀表現波動變化。

然而，即便如此，這些價值傾向依然可作為企業或開發者的參考依據。例如，如果應用需求偏重創造性與發散思考，Llama 或 Grok 2 可能較為適合；反之，任務屬於高標準、規範嚴格的產業，如醫療或金融，選擇Mistral 或 DeepSeek-V3 較具優勢。

有了性格後，LLM會有偏見嗎？

除了人設之外，史丹佛大學的研究團隊在去年底進行了一項測驗，探討「各種LLM的回答是否具有一致性」，也就是當同一個問題被重新改寫、翻譯成不同語言時，模型是否會給予大致相同的答案。

結果發現， 雖然GPT-4、Claude 等主流模型在處理中性主題時表現穩定，像是感恩節，但是在墮胎、安樂死等具爭議性的議題上，各模型的回答出現高度差異 。

研究指出，這樣的結果反而說明 LLM 並非具有固定偏見的道德偏好，只是反映出訓練資料來源與模性設計的差異。換言之，模型的「立場」是來自它所學習的網路內容與開發者設定，而非擁有自主的道德判斷。

團隊最後建議，未來模型的設計應該加入「價值多元性」，避免只輸出單一立場，進而建立更負責任與倫理的 AI 應用環境。

延伸閱讀：Z世代正放下鍵盤，拿起工具！不會被AI取代、有做就有錢：有哪些超夯藍領工作？

資料來源：AI Ait Lab、HAI

本文初稿為AI編撰，整理．編輯/ 蘇柔瑋