人類基因組裏包含著超過30億個堿基對,如何從中高效、系統地解讀出與健康、疾病、體質特徵相關的奧秘,一直是現代生物學面臨的巨大挑戰。人工智慧基礎模型正成為突破這一瓶頸的關鍵力量。
1月13日,在上海“模速空間”,基因底座大模型SNPbag正式發佈,該模型旨在解決當前基因組學研究中面臨的計算效率低、數據碎片化以及預測能力不足等難題,試圖通過AI技術“讀懂”DNA與人類生命特徵之間複雜的關聯。模型作者包括上海飛瀑智能科技有限公司、德國萊比錫大學、華大基因研究院、中國科學院等多家單位的研究人員。
人類的DNA序列有99.9%是完全相同的,剩下0.1%的差異造就了我們每個人獨一無二的體質、外貌和疾病易感性。這些差異大多以單個堿基變化的形式存在,即單核苷酸多態性(SNP)。SNPbag正是專為分析這些關鍵差異位點而設計的。
該模型的作者們在相關論文中提到,基於Transformer架構的大語言模型已經改變了生物醫學研究。在蛋白質組學中,AlphaFold 能夠準確預測蛋白質結構並加速藥物發現。在單細胞轉錄組學中,Geneformer、scGPT 和 scBERT 等模型支持細胞類型注釋以及擾動回應預測。在基因組學中,包括 Nucleotide Transformer和 EVO在內的模型能夠處理跨多物種的完整基因組序列,用於注釋基因組元素。
“相比之下,對於單一物種的基因組數據,例如人類基因組,仍然缺乏能夠應對個體之間巨大基因組變異的人工智慧基礎模型。” 該論文寫道。
“我們訓練模型的數據,就是這0.1%的人與人之間的基因差別,那些99.9%重複的部分被拿掉了。”該模型的作者之一徐國華告訴記者,“這使得我們能夠節省海量的算力,這也是它與其他一些基因組模型的核心區別之一。”
徐國華曾在德國馬克思·普朗克演化人類學研究所做研究,師從2022年諾獎得主、生物學家斯萬特·佩博(Svante Pääbo)。他告訴記者,目前僅用SNP數據進行訓練的基因大語言模型只有SNPbag,其研發難度主要在於開發者需要對遺傳學和大模型都非常瞭解。
該模型的另一位作者、飛瀑科技創始合夥人兼首席科學家唐鯤在發佈會上表示,團隊成員的背景多樣,包括腫瘤醫學、計算生物學等,“既要懂生物又要懂計算,只有這樣的團隊能把它做出來。”
與當前主流的語言大模型(如ChatGPT)類似,SNPbag也採用了強大的Transformer架構。研究團隊用100萬個模擬基因組數據對一個擁有8.4億參數的模型進行預訓練,讓AI通過“完形填空”的方式學習基因組中約600萬個常見SNP位點之間複雜的相互關聯規律,理解遺傳的“語法”。通過這種學習,SNPbag構建起了一個能貫通多種遺傳分析任務的底層能力。
發佈會上,唐鯤列舉了該模型的多種用處。過去,要分析一個人的祖源、推斷其與其他人的親緣關係、或補全基因測序中的缺失數據,研究者需要使用不同的統計軟體,過程耗時且相互獨立。SNPbag則將這些任務整合到一個統一的平臺之上,模型只需經過少量微調,就能勝任多種下游任務。
發佈會演示顯示,該模型能精准區分出遺傳背景高度相似的人群,也能可靠地推斷出遠至12代的親緣關係,其性能在部分任務上已達到或超過傳統方法的水準,而計算速度則實現了數十倍乃至上百倍的提升。
SNPbag還展示了一項極具潛力的功能——高效的基因組壓縮和加密。一個人的全基因組SNP原始數據包含數百萬行記錄,給表型預測帶來巨大挑戰。SNPBag模型能將這些海量資訊壓縮成38萬個數字,還保留了95%以上的核心遺傳資訊。

經過壓縮後的個人基因組資訊。圖片來自SNPbag論文
徐國華表示,這38萬個數字能夠極大降低後續的開發難度,SNPBag有望通過壓縮的基因組訓練出很多預測表型的能力。此外,一個人的基因組壓縮,還能存儲在一個僅有0.75MB大小的檔中。這意味著,未來個人的基因組“身份證”或許可以輕鬆地存儲在U盤或手機中,在保障數據隱私和安全的前提下,極大地便利了大規模科研協作和臨床應用。
“這個模型是一個起點。”唐鯤表示,其最終目標是建立從基因型到表型(即身高、相貌、疾病風險等個體特徵)的精准預測能力。唐鯤團隊之前曾開發通過DNA資訊預測外貌的演算法,在刑偵等領域大有用處。他告訴記者,採用新的底座模型後,有望提升面部還原演算法的準確度和泛化能力。
來源:中國澎湃新聞