維基百科是人人皆可編輯的線上百科全書,是網路最多人造訪的網站之一。這種群眾外包創作的模式徹底改變了我們獲取資訊的方式,但是也引發了傳統百科全書沒有遇到過的問題:故意用虛假、偽造的資訊破壞和污名化詞條的行為,所謂的 vandalism。
過去維護維基百科的 Wikimedia Foundation 由於人手不足,在對付此類行為上往往疲於奔命。不過現在資深科學家 Aaron Halfaker 已經想到了對付的辦法,他開發了一個人工智慧引擎,可以識別此類蓄意破壞行為。
你可能會想既然這樣那小編是不是要丟工作了?因為機器可以取代人類(有人預測 AI 會取代人類 47%的工作)。不過 Halfaker 的專案目的卻是要增加人類的參與。維基百科研究總監 Dario Taraborelli 說該專案的目的是把人的注意力分配到最需要的地方。
這是怎麼回事呢?
雖然維基百科人人可用編輯,但在過去,如果作為新手的你想對重要的維基條目進行變更,往往會收到一條自動回復稱不允許你做出變更,除非使用者遵守一套嚴格的規則要求,從某種程度來說,這屬於嚴進寬出。這一點把很多人排除在維基百科日常編輯的大門外。而據調查顯示,維基百科的參與程度已經開始出現下降。
Halfaker 現在希望能讓維基百科對編輯新手更友好。他的專案叫做 Objective Revision Evaluation Service(客觀修訂評估服務,ORES),專案利用了一套名為SciKit Learn的開源機器學習演算法來自動識別哪些為蓄意破壞的修訂行為,但同時又不會驅逐那些正當的參與者。換言之,嚴進寬出變成了寬進嚴出。
圖說:ORES專案的Logo,圖片來自:Wikimedia
這套系統的識別主要靠對特定關鍵字及其變體,以及特殊鍵盤模式的識別。比方說,系統能夠識別一大段異常的文字(如單詞之間沒有空格等等)。從技術的角度來說,這是相當簡單的機器學習案例,但卻很有效。
事實上,儘管系統無法識別那些精心編造的虛假條目,但結果證明絕大部分的破壞行為都不是很聰明,模式基本一樣(因為精心編撰虛假條目同樣需要精力)。
那 AI 能不能自己透過機器學習來編撰百科知識呢?儘管 Google、Facebook 等公司的深度學習在圖像識別、語音辨識等方面取得了一些進展,但近期內看機器還是無法具備這方面的能力。維基百科的這套 AI 的目的是驅走劣幣(破壞行為),讓更多的良幣(人類)更方便地編輯條目,從這個意義上來說,AI 也許是給人類創造了更多的機會。
文章授權轉載自:36 氪
延伸閱讀:
1. AI語音助理不夠看!Facebook新服務M,以真人混科技迎戰Siri
2. 當A.I.遇見大數據 行銷服務的未來在哪裡?
3. Google 用新 AI「RankBrain」來回答含糊的問題