一項近日發表於《科學》的研究指出,像ChatGPT 這樣的人工智慧(AI)工具正在大幅增加論文產量。但也有不利的一面,AI生成的文本雖然文筆流暢,卻並沒有增加多少科學價值。此類文本數量的不斷增加,使同行評議、資金決策和科研監督變得複雜,因為越來越難區分有意義的研究成果和低價值的內容。
自2022年末ChatGPT廣泛投入使用後,許多研究人員都表示,可以借助這些新工具完成更多工作。與此同時,期刊編輯們發現,文筆流暢但沒有多少科學價值的投稿數量激增。
為了探究大語言模型(LLM)如何影響科學出版,美國康奈爾大學的尹易安(音)團隊收集了2018年1月至2024年6月arXiv、bioRxiv 和社會科學研究網(SSRN)這3個主要預印本平臺公佈的200 多萬篇論文,涵蓋了物理科學、生命科學和社會科學領域。這些論文尚未經過同行評議。研究人員將其中2023 年前據推測由人撰寫的論文與AI生成的文本進行了比較。通過對比,他們構建了一個模型,旨在標記可能借助LLM撰寫的論文。利用這個檢測器,他們估計了哪些作者可能使用LLM 進行寫作,並追蹤了這些科學家利用AI工具前後投遞的論文數量及是否被科學期刊接收。
研究結果表明,使用LLM可以顯著提升科研生產力。在arXiv上,被標記為使用了LLM的科學家公佈的論文數量比那些未使用AI的科學家多出約1/3,而在bioRxiv和SSRN上,這一增幅超過了50%。特別是對於那些英語非母語的科學家來說,這種提升尤為顯著。例如,使用LLM的亞洲機構研究人員比未採用該工具的研究人員,在不同預印本網站公佈的論文數量多了43.0%~89.3%。尹易安預計,這最終可能改變全球科研生產力格局,使那些因語言障礙而受阻的地區迎頭趕上。
該研究還指出,在文獻檢索和引文構建方面,AI工具可能具有潛在優勢——它們在呈現較新論文和相關書籍方面比傳統搜索工具表現更佳。“使用LLM的人能夠接觸更多樣化的知識,這或許能激發更多富有創意的想法。”論文第一作者Keigo Kusumegi說。
儘管LLM能幫助人創作出更多的手稿,但也讓人更難以判斷哪些是真正高質量的科學研究。尹易安表示,這種寫作品質與研究品質之間的差距可能會產生嚴重後果。編輯和審稿人可能更難識別出最具價值的投稿,而大學和資助機構可能會發現,單純的發表數量已不能反映科學貢獻。
研究人員強調,這些發現是觀察性的結果。下一步,他們希望採用控制實驗等方法來測試因果關係。
來源:中國科學報