台灣政壇正以前所未有的規模,發起全民追論文的運動。先不論爭吵的內容有無依據,但從抄襲的有無、數量,甚至到實驗圖片的造假,的確啟發了一批資料科學家或IT工程師投入。
還記得以前當助教的時候,收到同學的課堂報告,只能先隨機丟幾段到google,排除掉有部分雷同的作業。現在,人工智慧的出現的確能比工人智慧來得更方便。例如,國內的雲書苑公司,發表的「快刀系統」,可以利用AI檢測段落,甚至行文風格,用來比對一般文章、學位論文,在國際上更大的學術市場而言,自然有更多前仆後繼的公司加入。
今(2022)年9月,印度新創公司IEM LABS最近發表了一款跨50個語言的抄襲檢查服務,在此之前,這家公司還提供了各式各樣的軟體服務。其在新聞上宣稱的抄襲檢查服務,則來自於因為要生成大量的AI文章,而建立的資料庫。
另一家以色列新創Copyleaks,則是在今年4月份宣布完成了600萬美元的募資,並宣告擁有100種語言的比對功能,客戶涵蓋Stanford大學、BBC,而BBC與Cisco則與之合作來檢測內容侵權的可能性。在商業模式上,這些公司當然不太可能只靠檢查抄襲與否維持或擴張。就像雲書苑的創辦人曾經公開提到,學術論文的產出旺季,多半就是畢業季、寒暑假等。所以無論是IEM LABS或Copyleaks,都是將其作為一個產品,並且擁有其他多個收費服務。
「忘記引用」不再是藉口,Grammarly幫了研究生大忙
與烏克蘭淵源深厚獨角獸公司Grammarly,便是一個非常成功的案例。Grammarly的代表性產品,便是使用語意分析工具,協助使用者在撰寫文章時,確認文法與行文是否有誤;目前,全球已經有50萬網站或者客戶,包含Google Docs、Gmail、LinkedIn或Facebook皆已使用Grammarly的產品,提醒使用者是否需要修改文法或拼字。有了這些大量的橫跨商業與學術的文字資料庫,Grammarly公司開始免費提供Plagiarism Checker(相似度檢測)給學生與學術工作者。甚至在今年9月,宣布新增研究論文引用、排版的工具,涵蓋了APA(常用於科學與心理學)、MLA (常用於人文學科)或Chicago/Turabian(常用於商業、藝術等領域)的風格選項。除了讓莘莘學子與研究人員不要再為引用格式耗費時間,想必也讓「忘記引用」的藉口更難成立。
在自然科學,尤其是生醫領域,則開發出了預防造假的AI服務,但是是用於複雜度更高的圖片比對。美國癌症研究協會(American Association for Cancer Research,AACR)指出,複製圖片是該期刊在2016-2020年間,最主要撤回文章的原因。根據The Register的報導,AACR開始求助於以色列新創公司Proofig的圖片比對服務。AACR從1367篇初步認可的手稿中,利用AI找出了208個需要二次確認的案例,並且聯絡作者。該篇報導提到,208個問題中,大多是無傷大雅的問題,但是仍然有4篇退回。另一家在維也納的新創公司ImageTwin,則因為協助荷蘭微生物學家Elisabeth Bik進行大量科研誠信檢查,也開始浮出檯面。
通通交給AI就好?要落地還得克服這些難題
Proofig或ImageTwin等提供的軟體,檢測的內容包含分子生物學常用的西方墨點法(western blotting),這些單色、形狀相似的條紋,肉眼要分辨的難度很高,但對AI而言,可以幫助科學家更好地進行初步過濾的工作。然而,回到商業模式的問題,仍然有許多不確定性。
首先,AI辨識的精準度仍然不是很高。這有可能是期刊論文的專業圖片資料取得有限、成本也較高(例如付費期刊與開放式期刊的差異),導致模型訓練受到的限制。在實務上,依然需要人工輔助判別。同時,AI目前仍然沒有辦法比對多個期刊之間的圖片。
其次,一些大型期刊出版公司如Frontiers、Wiley、PLOS, Elsevier與Nature都在測試自家的AI檢測計畫。尤其Frontiers公司發布的AIRA(Artificial Intelligence Review Assistant),宣稱在其內部測試中,只有10%的檢測結果需要重新確認;Frontiers並未透露是何種學科的文章。
最後,則是定價與收費問題。儘管查詢圖片的重製、複製與重複使用,是相關期刊的剛需,但費用較抄襲檢查來得高。Proofig的官網定價顯示,個人使用版本,檢查一次一篇論文的120個子圖像,定價為99美元,對於學術或者期刊工作者而言,不太可能以個人的名義頻繁支付。當然,這種B2B的定價,必定需要由業者與期刊出版公司進行談判。
綜上所述,我們可以發現,論文抄襲或者造假的問題並不是只有台灣獨有,甚至頂尖的期刊、出版公司,都正絞盡腦汁地利用科技工具來輔助解決。然而,這些工具的使用,放諸整個AI的商業模式進程,終歸是偏向小眾的應用。儘管如此,如果促成了各國研究單位、教育機構與AI公司攜手發展成新的產業,這些違反學術倫理的案例,也能算是產業推手呢?
《數位時代》長期徵稿,針對時事科技議題,需要您的獨特觀點,歡迎各類專人士來稿一起交流。投稿請寄edit@bnext.com.tw,文長至少800字,請附上個人100字內簡介,文章若採用將經編輯潤飾,如需改標會與您討論。
(觀點文章呈現多元意見,不代表《數位時代》的立場)
責任編輯:侯品如