維基百科勝在知識結構清晰,ChatGPT長於具體問題,雙方未必不可調和。
22年前,2001年初,維基百科Wikipedia橫空出世,在其後的網路時代,成為人們獲取知識的重要平台。
但在剛開始,人們對維基「人人可編輯」的組織形式產生過質疑。甚至有電視主持人諷刺其為「wikiality」,即如果在維基百科上編造條目,只要有足夠多的人同意,它就會成為現實。
後來,隨著《自然》(Nature)雜誌的調查研究,發現維基百科準確度接近大英百科全書,Google 開始把維基百科放到搜尋結果的首項,維基社區和內容貢獻者也持續壯大,維基百科用了很多年時間終於取得了公眾的信任。
誕生之初遭到質疑,越來越多人參與去完善,而後平反收到大眾認可,繼而成為日常的工具,這一過程,僅誕生半年的ChatGPT 正在經歷,不僅於此,它還成為了維基百科的挑戰者。
不久前,維基媒體基金會召開2023-2024年度計劃的電話會議,會議中提及了35次AI,討論的主題也是圍繞ChatGPT帶來的挑戰。
但維基百科所擔心的挑戰,並不是被ChatGPT 取代。而是更深刻地考驗:未來的維基百科,會由ChatGPT 來撰寫嗎?
維基百科的內容哪裡來的?
要想知道ChatGPT能否撰寫維基百科,得先知道維基百科目前內容來源於哪裡。
維基百科主要是由來自網路上的志願者共同合作編寫而成,任何使用網路進入維基百科的用戶都可以編寫和修改裡面的文章。它是網路上一個極大的自由內容、公開編輯、多語言的網路百科全書協作計劃。
截至2021 年初,所有語種的維基百科條目數量達5500 萬條,如何確保內容上的準確,全靠維基社群志願者們的篩查。
在ChatGPT 出現前,維基百科已經長期在用AI 去減少一些人力成本。應用最多的就是把現有條目直接機器翻譯,再由人工編輯校對。
2016 年時,資深科學家Aaron Halfaker 開發了一套開源機器學習演算法,可以自動識別維基百科里那些惡意破壞條目和編輯假消息的行為;2020 年,MIT 的研究人員也為維基百科推出過基於AI 的修改功能,可以精確定位維基百科句子中的特定資訊,並自動替換為類似於人類編輯的語言。
以及如維基社群所述,人工智慧非常擅長總結把一篇很長的技術類條目,總結成兒童都能理解的版本,讓AI 去生成兒童版的維基百科效果很好。
翻譯、檢查、概括簡化已有內容,維基百科一直以來對AI 的應用僅限於此,直到大型語言模型ChatGPT 的出現。
目前仍以文字方式互動為主的ChatGPT,除了回答用戶直接的提問以外,還可以用於甚為複雜的語言工作,包括自動生成文本、自動問答、自動摘要等等。
ChatGPT可以寫出相似真人的文章,並在許多知識領域給出詳細和清晰的回答。哪怕ChatGPT 生成內容的事實準確度還需要人工去二次查閱,但這時維基百科面臨的問題已經很明顯了:志願者能否用ChatGPT來撰寫維基百科條目?
AI編寫維基百科,可以嗎?先從「能不能」和「想不想」思考起
紐約市維基媒體分會的老維基人Richard Knipel 就用ChatGPT在維基百科上起草了一個名為「藝術作品標題」的新條目,Knipel 表示,ChatGPT 給出的版本一般但語法正確,定義了藝術作品標題的概念,給出了從古至今的例子。他在草稿基礎上只做了輕微修改。
但另一位編輯在條目上標註,將會進行大量修改並完善。如今,我們再點進這一條目,會發現它增加了大量內容和理論索引,還梳理出了目錄,給出了圖片案例。像Knipel 這樣的維基人認為,ChatGPT 可以作為生成維基百科條目草稿、骨架的工具,在此基礎上,人工再驗證內容,編輯和充實條目。
但另一派維基人則認為,在維基百科條目的創作裡ChatGPT 應該完全被禁用。一位維基百科編輯就表示「我們應該強烈呼籲不使用AI工具來生成條目草稿,即使這些條目隨後會被人工審閱。ChatGPT 太擅長引入那些看起來很有道理的謊言。」
但另一派也反駁這種說法,就像Knipel認為,修改並豐富不完善的資訊,這就是維基百科在實踐中一直運作的方式。ChatGPT 將繼續存在並飛速發展,利用它同時強調人工干預的必要性怎麼就不行呢?把ChatGPT 上來就視作洪水猛獸實在有些偏頗。
但在想不想之前,我們先看看能不能。ChatGPT還夠不夠格直接編寫維基百科呢?
3月30日,維基百科創辦人Jimmy Wales在接受Evening Standard採訪時討論了這個議題。 Wales認為,讓ChatGPT能獨立寫一個完整的維基條目,目前還有一段距離,但距離多遠就難說了。「ChatGPT 的一大問題是會胡編亂造,業內把這種情況稱為hallucinating(幻覺)——我稱之為編瞎話。」 (One of the issues with the existing ChatGPT is what they call in the field 『hallucinating』—I call it lying.)
「ChatGPT 有一種憑空捏造的傾向,這對維基百科來說真的不太行。」Wales在採訪裡說道。實踐中也是如此,你在維基百科上搜一個詞,維基百科可能會反饋「該條目不存在」,但你問ChatGPT,它可能會給你生成一段沒來由的假消息。
ChatGPT會「說瞎話」,這種事已經不新鮮了。但ChatGPT 誕生僅半年,它的自我迭代能力已經令人咋舌,讓ChatGPT「句句吐真言」,似乎只是時間問題,那維基百科現在擔憂的是什麼呢?
人力有限,演算力「無限」
維基百科團隊並沒有那麼擔心內容到底來源於人類還是AI, 它擔心的是內容品質是否過關 。
在維基媒體基金會在電話會議總結報告裡,「挑戰」被放到了開篇,其中最大比重的部分,也是維基百科團隊最大的擔憂在於: 維基百科湧入大量AI生成的內容,把真正高品質的、正確的資訊給淹沒了。
「Wiki項目有大量高品質的、可靠的,結構化的、分類好的內容。這就是我們帶給世界的價值。最讓我害怕的不是人們使用GPT之類的大語言模型來獲取知識,而是需要巡查的AI生成的內容會爆炸式增長。」
對高品質內容來說,創作比消費的時間成本高很多,就像一篇較為完整的維基條目,需要許多人參與撰寫,花許多時間,走過很多流程後完成,對讀者來說幾分鐘就閱讀完了。
像維基百科這種平台,為了保證內容品質,還需要專業人士核查一條條目中每個資訊、數據、引用是否來源準確,篩查和編輯的成本同樣很高。因此AI生成內容越多,人工核查的時間也更長。而且哪怕ChatGPT給出了正確的結論,但它並不會直接給出結論的論據來源何處,人工還需要再找到論據。到最後,修正可能比撰寫耗時更長。
目前維基百科志願者們已經發現了許多ChatGPT 自動生成內容上的問題。 比如ChatGPT很容易太籠統地概括定義,導致表意不明。還有ChatGPT遣詞造句過於肯定,不夠匹配維基百科想呈現的客觀中性的文字風格。
最重要的是信源難以查詢,維基百科的可信度和擴展閱讀性,很大程度上是基於條目底下豐富的資訊參考來源,但ChatGPT 不會主動提供參考,甚至會憑空捏造。
擔任了20年維基百科志願編輯的Andrew Lih 在用ChatGPT 起草新條目時就發現,ChatGPT 概述定義做得很不錯,但它所提供的消息來源於《福布斯》、《衛報》、《今日心理學》, 但Lih仔細查閱後發現,這些來源文章並不存在,甚至ChatGPT給出的URL都是自動生成找不到頁面的假連結。
綜合以上,維基百科團隊直接表示,AI生成內容的速度和效率,可能會超出項目的運行能力。
除此之外,還有許多維基百科團隊會擔心的點,比如如今的維基百科貢獻者裡,使用英語的白人男性依舊是主體, 維基內容已帶有語言和內容偏見,ChatGPT靠吸納網路資訊為養料的AI 機器,生成出的內容會進一步放大偏見 。
維基百科團隊也無法把握志願者對AI 工具使用的傾向。Lih就認為,維基人不缺動力,缺的是時間,ChatGPT 生成的糟糕草稿,可以激發維基志願者的修改欲。這也符合維基之父Ward Cunningham 所提出的「坎寧安定律」:在網路上得到優秀答案的最佳方法不是去提問,而是發布一個錯誤的答案。
維基百科團隊還擔心,當維基百科充斥著AI 生成的內容時,用戶們會降低對它資訊的信任度,轉而去信任更有「人類作者」標識的媒體內容,比如會出鏡的影片,標記了作者的媒體報刊。
維基百科和ChatGPT,怎麼共存?
維基百科和ChatGPT有很多相似性,比如都以文本為主,試圖「回答一切」。但二者最顯著的區別,在於 回答方式的不同 。
維基百科是有框架、系統、詳細索引的百科式資訊,你點進一個條目,可以從最簡單的概括式介紹了解到其歷史的變化,通過條目裡豐富的擴展鏈接,可以在縱向裡深入了解,也能在橫向裡在不同條目之間跳轉,擴展對一整個領域的了解。
ChatGPT目前呈現出的還是提問式的互動,需要用戶明確了解自己想知道的問題,向外擴展也是需要建立在ChatGPT 給出的回答之上,進一步詢問。
不同用戶獲取資訊的傾向不同,選擇工具也不同,維基百科無法做到ChatGPT一樣能回答非常具體的問題,ChatGPT 也不會像維基百科一樣有那麼精準且梳理好的知識類資訊。 這二者的使用方式,就像我們選擇閱讀教科書,還是直接向教授提問。
就像維基百科並沒有因為搜尋引擎Google的崛起而磨滅,反而它會出現在Google搜尋結果的第一條和邊欄上。
維基百科團隊也並沒有如Google一般有那麼大的危機感,在年度會議裡,雖然開篇點了ChatGPT 帶來的挑戰,但整個會議更多的時間留給了「機會」。
AI帶給維基百科的機會
「當網路上有大量AI 生成的內容時會發生什麼?在一個由趙個低品質、低可信度的頁面組成的網路,創建大模型的人和用戶都需要去找到可靠的資訊,他們可能會更多地使用維基百科。 」這就是維基人眼中的「機會」。
利用大語言模型去查bug、翻譯、內容總結、豐富媒體形式,比如GPT-4中體現的影片生成,AI生成的圖片也可以放到很多抽象概念的條目裡,增加可讀性,還可以在文本和語音之間互相轉換。
但以上的前提,都是不能讓大語言模型打打輔助,不能喧賓奪主。「維基百科是關於人類聚集在一起試圖定義真相。這些工具不可靠,會分散我們對實際任務的注意力。我們應該小心要以多快的速度追趕這一趨勢,而不是放棄它。我們應該關注創造知識的人。」
維基百科團隊的態度,也折射了我們當下對AI的審慎態度。 沒有被取代,想充分利用AI 的同時不夠信任它,想發揮AI的最大價值,但真正有價值的內容又不敢輕易交付,難以放下人類本位的核心概念,謹慎地靠近,小心地追趕。
維基百科如何和大語言模型共存,或許就回答了我們人類如何與AI共存。
本文授權轉載自:極客公園
責任編輯:傅珮晴、林美欣