美國西奈山伊坎醫學院一項最新研究發現,無論是放射科醫生還是多模態大語言模型(LLM),都難以輕易區分由人工智慧(AI)生成的深度偽造X光影像與真實醫學影像。研究人員表示,這一發現凸顯了AI生成醫學影像可能帶來的醫療安全與網路安全風險。相關論文發表於最新一期《放射學》雜誌。
“深度偽造”是指看似真實但實際上由AI生成或篡改的視頻、照片、圖像或音頻。AI生成的X光片真實度極高,能以假亂真,可能被用於醫療欺詐,例如偽造骨折影像用於訴訟取證。如果駭客入侵醫院系統並植入合成醫學影像,還可能篡改診斷結果,甚至破壞電子病歷系統的可信度。
在這項回顧性研究中,來自美國、法國、德國、土耳其、英國和阿聯酋6個國家12家醫療中心的17名放射科醫生參與測試。研究共分析264張X光影像,分為兩組:第一組數據包含多個解剖部位的真實影像以及由ChatGPT生成的影像;第二組數據為胸部X光片,其中一半為真實影像,另一半由斯坦福醫學院研究人員開發的開源生成式AI擴散模型RoentGen生成。
結果顯示,在未被告知研究目的的情況下,僅有41%的醫生主動識別出AI生成圖像。在明確告知後,醫生區分真實與偽造影像的平均準確率為75%。
與此同時,GPT-4o(OpenAI)、GPT-5(OpenAI)、Gemini 2.5 Pro(穀歌)以及Llama 4 Maverick(Meta)四種多模態大模型也進行了識別測試,其準確率在57%—85%之間。即便是參與生成這些深度偽造影像的GPT-4o模型本身,也無法識別全部偽造影像。
研究人員總結稱,AI生成的醫學影像往往存在一些“過於完美”的特徵,例如骨骼表面過於光滑、脊柱過直、肺部過度對稱、血管分佈過於均勻,以及骨折斷面異常整齊等。
為降低風險,研究團隊建議,應在醫學影像中嵌入不可見數字浮水印、增加加密簽名等技術手段,以防止影像被篡改,同時加強醫學影像AI鑒別能力培訓。
【總編輯圈點】
其實,最先出現類似問題的是文字領域。AI從人類語料庫中學習如何寫作,人類又試圖從AI生成內容中揪出“機味”。如今,人類原創的內容和AI撰寫的內容混在一起,已難以分辨。如今,同樣的難題又進入圖像領域。資深醫生和大模型自己,都難以準確判斷哪些醫學影像被AI動了手腳。這項研究給醫療安全敲響了警鐘,它甚至可能動搖整個醫療系統的可信度。我們看到,AI的深度滲透,正給所有行業帶來前所未有的挑戰。
來源:中國科技日報