重點一:Salesforce研究指出,頂尖AI模型如GPT-4o在創意寫作上品質無顯著差異,且普遍存在七大寫作缺陷。
重點二:研究證實,透過自動化編輯流程,AI能有效識別並修正自身初稿的缺陷。
重點三:各大AI模型皆出現重複的句法模式與用詞,暴露出其訓練數據與方法可能存在「演算法單一化」的缺陷。
Salesforce AI 研究中心近日發表一篇題為《AI寫作能否被拯救?》的研究報告,對當前大型語言模型 (LLM) 的創意寫作能力提出檢討。
為了探討AI與人類寫作的差異,該研究聘請了18位擁有藝術創作碩士 (MFA) 學位的專業作家,對1,057段由前述三大模型生成的文學小說與創意非小說段落進行深度編輯與評分。
研究發現,儘管AI技術飛速演進,但包括OpenAI的GPT-4o、Anthropic的Claude-3.5-Sonnet及Meta的Llama-3.1-70b在內的三大頂尖模型,其生成的創意寫作文本在品質上並無顯著差異。
更重要的是,專業作家在評審過程中,一致認為這些AI生成的內容普遍存在七大類寫作缺陷,顯示AI在原創性與藝術性方面,可能已觸及現有技術的天花板。
專業編輯歸納出的「AI寫作7大缺陷」
為了系統性地分析AI寫作的弊病,研究團隊在專業作家的協助下,建立了一個包含七大類別的「AI寫作缺陷分類法」。這些缺陷按被標記的頻率高至低排序,分別為:
(一) 彆扭的用詞與措辭 :佔28%,指用字不精準或語句不通順。例如AI常使用「seem to」這樣的不必要修飾語,使表達顯得不夠精確。
AI原生:where the sky seemed to hover (天空似乎盤旋的地方)
人類修改: where the sky hovered (天空盤旋的地方)
(二) 句子結構不良 :佔20%,包括流水句、句子片段、修飾語位置不當等問題。AI傾向於產生過長複雜的句子,影響可讀性和清晰度。
AI原生:As the night wore on, Z's laughter grew louder, his words slurring together like a sloppy melody. N. and I exchanged a knowing glance... (夜深了,Z的笑聲越來越大,他的話語像一段草率的旋律般含糊不清。N和我交換了一個心照不宣的眼神…)
人類修改: Z. was drinking more and more as the night went on. He laughed more loudly. His words started to slur... (隨著夜深,Z越喝越多。他笑得更大聲了。他的話開始變得含糊不清…)
(三) 不必要/冗餘的闡述:佔18%,即「過度解釋」,未能做到「點到為止」,反映了AI難以掌握什麼訊息對讀者是必要的。
AI原生:a concrete behemoth that cast long shadows over the desolate landscape (一個在荒涼景觀上投下長長陰影的混凝土巨獸)
人類修改: a concrete behemoth that cast a long shadow. (一個投下長影的混凝土巨獸。)
(四) 陳腔濫調:佔17%,使用過度俗套的比喻或情節。
AI原生:settled over her like a heavy blanket (像一條沉重的毯子籠罩著她)
人類修改: This time, though, she was alone. (不過,這一次,她獨自一人。)
(五) 華麗辭藻:指過度堆砌形容詞與副詞,顯得矯揉造作。
AI原生:The sobs emerged from this deep well of unspoken expectations, leaving behind a residue of weary resilience... (哭泣從這口潛藏期望的深井中湧出,留下了疲憊韌性的殘餘…)
人類修改:She cried. She cried for unfairness. She cried without relief. (她哭了。她為不公而哭。她哭得無法釋懷。)
(六) 缺乏具體性與細節:內容空泛,缺乏能夠創造鮮明心理圖像的具體細節。
AI原生:Dr. Arthur Steiger's fall from grace began with a series of whispered concerns... (亞瑟·史泰格醫生的失勢始於同事間一系列竊竊私語的擔憂…)
人類修改:Pain was Dr. Arthur Steiger's forte. Not inflicting it, that is, but resolving it. (疼痛是亞瑟·史泰格醫生的專長。不是製造疼痛,而是解決它。)
(七) 時態不一致:在過去、現在、未來時態間不當跳換,造成時間線混亂。
AI原生:The first snowflakes began to drift (第一片雪花開始飄落)
人類修改:The first snowflakes drifted (第一片雪花飄落了)
研究還發現,這些頂尖模型不僅問題相似,甚至連用詞偏好都驚人地一致。例如,「unspoken (潛台詞的/未說出口的)」一詞在約15%的AI生成文本中出現,而「sense of (…的感覺)」、「weight of (…的重量)」等片語也遠高於人類作家的使用頻率。
這種跨模型的語言同質化現象,可能源於它們使用了相似的訓練數據基礎(如Books3語料庫),或是存在模型以其他模型生成的合成數據進行訓練的產業現況,這為「演算法單一化 (Algorithmic Monoculture)」敲響了警鐘,可能導致AI語言表現多樣性的流失。
AI寫作有救嗎?答案是「可以教化」
儘管研究點出了頂尖模型的共同瓶頸,但這不代表AI在寫作方面不可教化。研究發現,AI其實具備自我進化的潛力。研究團隊基於專業作家的編輯回饋,建立了一套創新的「對齊模型與人類偏好」的方法,證明AI能夠透過自動化流程改善寫作力。
傳統上,訓練AI(即「對齊」)的方式是讓人類在兩個由AI生成的範例中擇一,但缺點是兩個選項可能同樣有瑕疵。 而Salesforce提出的新方法則是「透過編輯對齊 (Alignment via Edits)」,讓人類專家直接修改AI生成的文本,為AI提供了更精確、更具體的學習範本。
簡單來說,就是先讓AI生成文章,然後請人類編輯下去修改,把不通順的地方改通順、把用錯的詞換掉,透過提供「標準答案」給AI當範本,讓它更能揣摩真實人類的下筆方式。
基於上述概念,研究團隊進一步開發出一套兩階段自動化編輯管線:首先由一個AI模型「檢測」出初稿中的問題文本,再交由另一個AI模型進行「改寫」。
在一項由12位專家參與的偏好度排名評測中,結果呈現出清晰的排序: 作家編輯版本 > AI自我編輯版本 > AI原始版本。
其中,AI自我編輯後的文章,平均排名分數(1.99分)顯著優於原始文章(2.51分),雖然仍不及人類專家親自操刀的版本(1.5分),但已證明AI透過「撰寫初稿、發現問題、進行修改」的迭代過程,能有效提升最終產出的文本品質。
人類作者該如何跟LLM協作?
文章的結論指出,LLM的問世,讓人類作家不再需要與一個充滿缺陷的初稿搏鬥,而是可以由AI執行初步的「自我潤色」流程,從而為人類提供一個品質更高的起點,將人類的角色從文案校對員轉變為更高層次的創意總監。
而為建構AI成為更好的寫作輔助工具,研究提出的操作心法如下:
- 克服過度寫作 :LLM必須學會「少就是多」原則,刪減不必要的闡述,讓簡潔成為標準。
- 消除陳腔濫調 :LLM的機率性本質使其成為老梗製造機,因此未來的AI對齊工作,必須積極懲罰高機率出現的老梗文字用法。
- 掌握結構 :LLM需要更好地管理文章的流暢性、清晰度和句子結構,並學會何時以及如何有效地拆分複雜的思想。
研究中所提到的具體的優化提示詞如下:
力求原創,避開陳腔濫調與常見的套路。語言風格應簡潔、精練,避免不必要的詞藻堆砌。請著重於呈現細膩的差異與潛台詞,不必加上前言或開場白,直接開始。
結論:為AI秀出範例,是最好的調教手段
最後要說的是,AI寫作雖然目前充滿缺陷,但確實可以被「拯救」,而拯救的關鍵方法是「編輯」,而非不斷要求AI重新生成。畢竟,一個經過編輯的版本,本身就為AI提供了「哪裡錯了」以及「該如何改」的明確訊號 。
換言之,與其期待AI一次就寫出完美的文章,不如將其視為一個能快速產出草稿、但需要後續修改的助手。
延伸閱讀:AI一起玩桌遊誰最贏?廝殺15局揭隱藏性格:o3最奸詐、Gemini懂謀略,唯獨它渾身狼性
哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺
資料來源:Arxiv、Salesforce AI Research
責任編輯:李先泰