你的AI寫文案沒「人味」？研究揭7大AI寫作缺陷：愛老梗、廢話多…該如何訓練AI寫作力？|數位時代 BusinessNext

重點一：Salesforce研究指出，頂尖AI模型如GPT-4o在創意寫作上品質無顯著差異，且普遍存在七大寫作缺陷。

重點二：研究證實，透過自動化編輯流程，AI能有效識別並修正自身初稿的缺陷。

重點三：各大AI模型皆出現重複的句法模式與用詞，暴露出其訓練數據與方法可能存在「演算法單一化」的缺陷。

Salesforce AI 研究中心近日發表一篇題為《AI寫作能否被拯救？》的研究報告，對當前大型語言模型 (LLM) 的創意寫作能力提出檢討。

為了探討AI與人類寫作的差異，該研究聘請了18位擁有藝術創作碩士 (MFA) 學位的專業作家，對1,057段由前述三大模型生成的文學小說與創意非小說段落進行深度編輯與評分。

研究發現，儘管AI技術飛速演進，但包括OpenAI的GPT-4o、Anthropic的Claude-3.5-Sonnet及Meta的Llama-3.1-70b在內的三大頂尖模型，其生成的創意寫作文本在品質上並無顯著差異。

更重要的是，專業作家在評審過程中，一致認為這些AI生成的內容普遍存在七大類寫作缺陷，顯示AI在原創性與藝術性方面，可能已觸及現有技術的天花板。

專業編輯歸納出的「AI寫作7大缺陷」

為了系統性地分析AI寫作的弊病，研究團隊在專業作家的協助下，建立了一個包含七大類別的「AI寫作缺陷分類法」。這些缺陷按被標記的頻率高至低排序，分別為：

（一） 彆扭的用詞與措辭 ：佔28%，指用字不精準或語句不通順。例如AI常使用「seem to」這樣的不必要修飾語，使表達顯得不夠精確。

AI原生：where the sky seemed to hover (天空似乎盤旋的地方)
人類修改： where the sky hovered (天空盤旋的地方)

（二） 句子結構不良 ：佔20%，包括流水句、句子片段、修飾語位置不當等問題。AI傾向於產生過長複雜的句子，影響可讀性和清晰度。

AI原生：As the night wore on, Z's laughter grew louder, his words slurring together like a sloppy melody. N. and I exchanged a knowing glance... (夜深了，Z的笑聲越來越大，他的話語像一段草率的旋律般含糊不清。N和我交換了一個心照不宣的眼神…)
人類修改： Z. was drinking more and more as the night went on. He laughed more loudly. His words started to slur... (隨著夜深，Z越喝越多。他笑得更大聲了。他的話開始變得含糊不清…)

（三） 不必要/冗餘的闡述：佔18%，即「過度解釋」，未能做到「點到為止」，反映了AI難以掌握什麼訊息對讀者是必要的。

AI原生：a concrete behemoth that cast long shadows over the desolate landscape (一個在荒涼景觀上投下長長陰影的混凝土巨獸)
人類修改： a concrete behemoth that cast a long shadow. (一個投下長影的混凝土巨獸。)

（四） 陳腔濫調：佔17%，使用過度俗套的比喻或情節。

AI原生：settled over her like a heavy blanket (像一條沉重的毯子籠罩著她)
人類修改： This time, though, she was alone. (不過，這一次，她獨自一人。)

（五） 華麗辭藻：指過度堆砌形容詞與副詞，顯得矯揉造作。

AI原生：The sobs emerged from this deep well of unspoken expectations, leaving behind a residue of weary resilience... (哭泣從這口潛藏期望的深井中湧出，留下了疲憊韌性的殘餘…)
人類修改：She cried. She cried for unfairness. She cried without relief. (她哭了。她為不公而哭。她哭得無法釋懷。)

（六） 缺乏具體性與細節：內容空泛，缺乏能夠創造鮮明心理圖像的具體細節。

AI原生：Dr. Arthur Steiger's fall from grace began with a series of whispered concerns... (亞瑟·史泰格醫生的失勢始於同事間一系列竊竊私語的擔憂…)
人類修改：Pain was Dr. Arthur Steiger's forte. Not inflicting it, that is, but resolving it. (疼痛是亞瑟·史泰格醫生的專長。不是製造疼痛，而是解決它。)

（七） 時態不一致：在過去、現在、未來時態間不當跳換，造成時間線混亂。

AI原生：The first snowflakes began to drift (第一片雪花開始飄落)
人類修改：The first snowflakes drifted (第一片雪花飄落了)

研究還發現，這些頂尖模型不僅問題相似，甚至連用詞偏好都驚人地一致。例如，「unspoken (潛台詞的/未說出口的)」一詞在約15%的AI生成文本中出現，而「sense of (…的感覺)」、「weight of (…的重量)」等片語也遠高於人類作家的使用頻率。

這種跨模型的語言同質化現象，可能源於它們使用了相似的訓練數據基礎（如Books3語料庫），或是存在模型以其他模型生成的合成數據進行訓練的產業現況，這為「演算法單一化 (Algorithmic Monoculture)」敲響了警鐘，可能導致AI語言表現多樣性的流失。

AI寫作有救嗎？答案是「可以教化」

儘管研究點出了頂尖模型的共同瓶頸，但這不代表AI在寫作方面不可教化。研究發現，AI其實具備自我進化的潛力。研究團隊基於專業作家的編輯回饋，建立了一套創新的「對齊模型與人類偏好」的方法，證明AI能夠透過自動化流程改善寫作力。

傳統上，訓練AI（即「對齊」）的方式是讓人類在兩個由AI生成的範例中擇一，但缺點是兩個選項可能同樣有瑕疵。 而Salesforce提出的新方法則是「透過編輯對齊 (Alignment via Edits)」，讓人類專家直接修改AI生成的文本，為AI提供了更精確、更具體的學習範本。

簡單來說，就是先讓AI生成文章，然後請人類編輯下去修改，把不通順的地方改通順、把用錯的詞換掉，透過提供「標準答案」給AI當範本，讓它更能揣摩真實人類的下筆方式。

基於上述概念，研究團隊進一步開發出一套兩階段自動化編輯管線：首先由一個AI模型「檢測」出初稿中的問題文本，再交由另一個AI模型進行「改寫」。

在一項由12位專家參與的偏好度排名評測中，結果呈現出清晰的排序： 作家編輯版本 > AI自我編輯版本 > AI原始版本。

這張圖描繪了一個三步驟的自動化流程：從真實文章中提取內容 -> 用 AI 將內容轉化為問題 -> 再用 AI 針對問題生成答案。透過這種方式，可以高效地創造出大量高品質、類似人類對話的「問題-答案」組合，用來訓練和優化 AI 模型。

圖／ Salesforce

其中，AI自我編輯後的文章，平均排名分數（1.99分）顯著優於原始文章（2.51分），雖然仍不及人類專家親自操刀的版本（1.5分），但已證明AI透過「撰寫初稿、發現問題、進行修改」的迭代過程，能有效提升最終產出的文本品質。

人類作者該如何跟LLM協作？

文章的結論指出，LLM的問世，讓人類作家不再需要與一個充滿缺陷的初稿搏鬥，而是可以由AI執行初步的「自我潤色」流程，從而為人類提供一個品質更高的起點，將人類的角色從文案校對員轉變為更高層次的創意總監。

而為建構AI成為更好的寫作輔助工具，研究提出的操作心法如下：

克服過度寫作 ：LLM必須學會「少就是多」原則，刪減不必要的闡述，讓簡潔成為標準。

消除陳腔濫調 ：LLM的機率性本質使其成為老梗製造機，因此未來的AI對齊工作，必須積極懲罰高機率出現的老梗文字用法。

掌握結構 ：LLM需要更好地管理文章的流暢性、清晰度和句子結構，並學會何時以及如何有效地拆分複雜的思想。

研究中所提到的具體的優化提示詞如下：

力求原創，避開陳腔濫調與常見的套路。語言風格應簡潔、精練，避免不必要的詞藻堆砌。請著重於呈現細膩的差異與潛台詞，不必加上前言或開場白，直接開始。

結論：為AI秀出範例，是最好的調教手段

最後要說的是，AI寫作雖然目前充滿缺陷，但確實可以被「拯救」，而拯救的關鍵方法是「編輯」，而非不斷要求AI重新生成。畢竟，一個經過編輯的版本，本身就為AI提供了「哪裡錯了」以及「該如何改」的明確訊號。

換言之，與其期待AI一次就寫出完美的文章，不如將其視為一個能快速產出草稿、但需要後續修改的助手。

延伸閱讀：AI一起玩桌遊誰最贏？廝殺15局揭隱藏性格：o3最奸詐、Gemini懂謀略，唯獨它渾身狼性
 哪一款AI最會讀書？冠軍「不是ChatGPT」：5款主流AI大PK，只有「它」沒出現幻覺

資料來源：Arxiv、Salesforce AI Research

責任編輯：李先泰

AI 自動化，從行政細節釋放組織戰力

轉型需要夥伴，而賴志達評估合作夥伴的標準很明確：技術能力是基本，產業知識（Domain Know-how）的深度是關鍵，回饋速度更是最終決定因素。2025 年的未來商務展上，良興選擇攜手 Data-DI，看重的正是其「策略諮詢 + AI 產品 + 落地陪跑」三軌並行的實施能力。

很快的，良興與 Data-DI 合作的第一個專案，就落在最耗費人力、卻最常被忽視的環節：會議記錄。「會議如果沒有產值、沒有效果，對企業很傷！」賴志達說，他每天參加許多會議，但跨單位協作的會議記錄長期依賴人工聆聽與逐字整理，常出現人名誤植、決策遺漏、行動項目無人追蹤，讓會議效果大打折扣。

為了解決會議記錄的痛點，Data-DI 業務副總包威棣指出，在導入工具以前，團隊須先釐清三件事：場景是否具備落地價值、哪些流程節點適合 AI 介入，以及以終為始地掌握客戶真正想要的輸出樣貌。這些看似基本的提問，都決定 AI 能否精準落地。

確認方向後，良興與 Data-DI 成功導入 AI 會議記錄自動化系統，透過模糊比對技術校正語音辨識誤差，並將生成的雙版本報告直接回存至既有資料庫，不僅將行政人員從重複性作業中釋放，也為後續的 AI 應用奠定扎實的系統整合基礎。

賴志達分享，現在他去外部開會也會用這個工具，運用 AI 把錄音轉文字、再整理成簡報，很快就能完成，更令外部夥伴驚艷。「我認為這是很成功的案子！也提醒想做 AI 的老闆們，與其急著搞大架構，不如先從小工具讓公司嘗試 AI，建立理解和認同。」

AI 把資深員工大腦轉化為資產

補完行政效率的缺口後，良興接著切入更深層的營運核心：知識傳承。過去，頂尖銷售經驗長期鎖在少數資深員工身上，新人培訓耗時三個月，員工離職即帶走知識資本。與此同時，網路資訊發達，消費者進店前早已掌握基本規格，3C 通路門市人員要如何發揮更多價值？「我要門市的人不是死背規格，而是面對客人時，能用客人能理解的方式對話。」賴志達說。

為此，Data-DI 協助良興建置 AI 門市教育訓練系統。系統透過六大自動化關卡，串接教材生成、審核上架、AI 銷售對練與成績回報，主管僅需在核心節點審核；員工透過手機語音對練，系統依口吻、專業度、回應力等維度自動評分。賴志達表示，目標是將新人培訓期縮短至一個月，讓數十年累積的銷售智慧轉化為可複製、可傳承的企業資產。

然而，要讓這套系統真正運作，得先解決兩個根本問題：資料從哪裡來？以及訓練如何更準確？

「以前大數據時代，講的是資料要大、全、細、實；現在 AI 要做到的是準（準確）、合（合乎場景）。」包威棣說。良興不同廠商提供的素材品質參差不齊，Data-DI 除了整合內部資料，也補充加入外部市場評測內容以填補空缺，再透過人員審核機制過濾雜訊，搭配 agent 架構的多層步驟與知識限定，確保系統能精準提煉對應品類的訓練素材。

賴志達則看得更遠：「這些教育訓練的內容，也將成為公司未來訓練機器人很好的原料。」

Data-DI 陪跑型顧問，帶領企業 AI 轉型

良興與 Data-DI 合作的兩個專案中，雙方共同克服了長提示詞邏輯混亂、AI 幻覺污染知識庫、逐字稿讀取逾時等技術難題。邁向下一步，賴志達表示，公司各部門很早就建置 Power BI 報表，但數據豐富不等於決策清晰。「數據是土壤，如果沒有梳理，就沒有用了。」因此，他的下一個目標是活化數據資本、推動行銷自動流，以精實的人力持續驅動成長。

包威棣則從顧問視角歸納兩個觀察：AI 導入需要高層認同、由上而下推進，像賴志達這樣持續引領良興走在業界前端的決策者，就是不可或缺的推手；而單點工具的價值，終究要累積成組織體質的轉變才算真正落地。「就像會議記錄改變了會議當責的結構，人員訓練改變了知識傳承的方式。從點狀應用走向企業變革，這種決策思路才是 AI 真正深入落地產生價值的關鍵。」

最後，對於仍在觀望AI應用的企業，他則建議：「未來 AI 導致的落差只會愈來愈大，人會變成超級工作者，企業會變成超級企業。開始做就對了，先做一個三個月的小任務，降低落差、再急起追上。」從痛點切入、小步快跑，讓組織在實作中累積對 AI 的理解與信任，這正是 Data-DI 的陪跑哲學。

有關更多 Data-DI 相關資訊，請查詢網站：https://www.data-di.com/