zh-CN ZH-CN en EN
English
  • 首頁
  • 頭條新聞
  • 聚焦英國
  • 經濟觀察
    • 金融
    • 证券
    • 商业市场
    • 公司
    • 能源
    • 汽車
    • 科技
    • 醫藥
  • 全球連線
    • 軍事
    • 政治
    • 文体
  • 中國視野
  • 全球精英連線
  • 電子報紙
  • 新聞資訊
  • 旅遊
  • 英中投资
  • 深度· 言論
  • 視頻
  • 首頁
  • 頭條新聞
  • 聚焦英國
  • 經濟觀察
    • 金融
    • 证券
    • 商业市场
    • 公司
    • 能源
    • 汽車
    • 科技
    • 醫藥
  • 全球連線
    • 軍事
    • 政治
    • 文体
  • 中國視野
  • 全球精英連線
  • 電子報紙
  • 新聞資訊
  • 旅遊
  • 英中投资
  • 深度· 言論
  • 視頻
没有结果
查看所有结果
SKY ECONOMY NEWS
没有结果
查看所有结果
您當前的位置 : 科技 > 文章内容 返回
SNPbag基因大模型發佈:親緣關係判定效率較傳統方法提高數十倍
发布:2026-01-15
  • AI通過“完形填空”的方式學習基因組中約600萬個常見SNP位點之間複雜的相互關聯規律,理解遺傳的“語法”。

人類基因組裏包含著超過30億個堿基對,如何從中高效、系統地解讀出與健康、疾病、體質特徵相關的奧秘,一直是現代生物學面臨的巨大挑戰。人工智慧基礎模型正成為突破這一瓶頸的關鍵力量。

1月13日,在上海“模速空間”,基因底座大模型SNPbag正式發佈,該模型旨在解決當前基因組學研究中面臨的計算效率低、數據碎片化以及預測能力不足等難題,試圖通過AI技術“讀懂”DNA與人類生命特徵之間複雜的關聯。模型作者包括上海飛瀑智能科技有限公司、德國萊比錫大學、華大基因研究院、中國科學院等多家單位的研究人員。

人類的DNA序列有99.9%是完全相同的,剩下0.1%的差異造就了我們每個人獨一無二的體質、外貌和疾病易感性。這些差異大多以單個堿基變化的形式存在,即單核苷酸多態性(SNP)。SNPbag正是專為分析這些關鍵差異位點而設計的。

該模型的作者們在相關論文中提到,基於Transformer架構的大語言模型已經改變了生物醫學研究。在蛋白質組學中,AlphaFold 能夠準確預測蛋白質結構並加速藥物發現。在單細胞轉錄組學中,Geneformer、scGPT 和 scBERT 等模型支持細胞類型注釋以及擾動回應預測。在基因組學中,包括 Nucleotide Transformer和 EVO在內的模型能夠處理跨多物種的完整基因組序列,用於注釋基因組元素。

“相比之下,對於單一物種的基因組數據,例如人類基因組,仍然缺乏能夠應對個體之間巨大基因組變異的人工智慧基礎模型。” 該論文寫道。

“我們訓練模型的數據,就是這0.1%的人與人之間的基因差別,那些99.9%重複的部分被拿掉了。”該模型的作者之一徐國華告訴記者,“這使得我們能夠節省海量的算力,這也是它與其他一些基因組模型的核心區別之一。”

徐國華曾在德國馬克思·普朗克演化人類學研究所做研究,師從2022年諾獎得主、生物學家斯萬特·佩博(Svante Pääbo)。他告訴記者,目前僅用SNP數據進行訓練的基因大語言模型只有SNPbag,其研發難度主要在於開發者需要對遺傳學和大模型都非常瞭解。

該模型的另一位作者、飛瀑科技創始合夥人兼首席科學家唐鯤在發佈會上表示,團隊成員的背景多樣,包括腫瘤醫學、計算生物學等,“既要懂生物又要懂計算,只有這樣的團隊能把它做出來。”

與當前主流的語言大模型(如ChatGPT)類似,SNPbag也採用了強大的Transformer架構。研究團隊用100萬個模擬基因組數據對一個擁有8.4億參數的模型進行預訓練,讓AI通過“完形填空”的方式學習基因組中約600萬個常見SNP位點之間複雜的相互關聯規律,理解遺傳的“語法”。通過這種學習,SNPbag構建起了一個能貫通多種遺傳分析任務的底層能力。

發佈會上,唐鯤列舉了該模型的多種用處。過去,要分析一個人的祖源、推斷其與其他人的親緣關係、或補全基因測序中的缺失數據,研究者需要使用不同的統計軟體,過程耗時且相互獨立。SNPbag則將這些任務整合到一個統一的平臺之上,模型只需經過少量微調,就能勝任多種下游任務。

發佈會演示顯示,該模型能精准區分出遺傳背景高度相似的人群,也能可靠地推斷出遠至12代的親緣關係,其性能在部分任務上已達到或超過傳統方法的水準,而計算速度則實現了數十倍乃至上百倍的提升。

SNPbag還展示了一項極具潛力的功能——高效的基因組壓縮和加密。一個人的全基因組SNP原始數據包含數百萬行記錄,給表型預測帶來巨大挑戰。SNPBag模型能將這些海量資訊壓縮成38萬個數字,還保留了95%以上的核心遺傳資訊。

經過壓縮後的個人基因組資訊。圖片來自SNPbag論文

徐國華表示,這38萬個數字能夠極大降低後續的開發難度,SNPBag有望通過壓縮的基因組訓練出很多預測表型的能力。此外,一個人的基因組壓縮,還能存儲在一個僅有0.75MB大小的檔中。這意味著,未來個人的基因組“身份證”或許可以輕鬆地存儲在U盤或手機中,在保障數據隱私和安全的前提下,極大地便利了大規模科研協作和臨床應用。

“這個模型是一個起點。”唐鯤表示,其最終目標是建立從基因型到表型(即身高、相貌、疾病風險等個體特徵)的精准預測能力。唐鯤團隊之前曾開發通過DNA資訊預測外貌的演算法,在刑偵等領域大有用處。他告訴記者,採用新的底座模型後,有望提升面部還原演算法的準確度和泛化能力。

來源:中國澎湃新聞

上一篇:英國體育官員稱,從人性角度理解普雷斯科德退出增強運動會決定情有可原
下一篇:侯建國會見英國皇家學會會長Paul Nurse
相關推荐
  • 生成式人工智慧監管迫在眉睫
    链接阅读
  • 中國科研團隊首次直接證實量子力學預言的米格達爾效應
    链接阅读
  • 德國計畫採取措施打擊有害的人工智慧圖像篡改行為
    链接阅读
  • 嫦娥六號玄武岩為揭示月球地質演化歷史提供關鍵線索
    链接阅读
  • 新型合成皮膚同時改變質地與顏色,有望用於偽裝、柔性機器人及先進顯示等技術領域
    链接阅读
  • 臺積電第四季度營收增長 20%,超出預期
    链接阅读
  • 科學家揭示大腦如何“協奏”出你的面部表情
    链接阅读
  • 2026十大AI技術趨勢 :AI邁入物理世界,從預測辭彙走向預測世界狀態
    链接阅读

歡迎瀏覽閱讀星空經濟新聞華文網

投稿郵件:
news@skyeconomymedia.com

特朗普對部分人工智慧晶片徵收25%關稅

2026-01-15

特朗普行使赤裸裸的權力顛覆世界秩序,令友邦與敵對國家皆措手不及

2026-01-14

歐盟與南共市達成貿易協定 凸顯特朗普強硬外交在拉美受限

江南小城冰雪熱

特朗普稱與伊朗有貿易往來的國家將面臨25%的美國關稅

2026-01-13

特朗普考慮如何回應伊朗鎮壓行動,德黑蘭稱與美國保持溝通管道暢通

關於我們

星空經濟新聞華文網是一家專注於提供英中兩國最新資訊的新聞媒體,作為英中新聞分享的領導者,我們致力於打造一個全球化、多元化的新聞環境,旨在搭建東西方文化橋樑,連接同一星空下的每一處角落。

聯絡我們

編 輯 部:KINGTON UNITED KINGDOM HR5 3DJ
電子郵箱:skyeconomyandmediagroup@gmail.com

總编寄语

穿越天際,照亮世界,星空新聞,不負每一份關注。
友情:英國駐中國大使館 中國駐英國大使館 新華網 中國日報 鳳凰網 中國僑網 歐洲時報 俄羅斯龍報
没有结果
查看所有结果
  • 首頁
  • 頭條新聞
  • 聚焦英國
  • 經濟觀察
    • 金融
    • 证券
    • 商业市场
    • 公司
    • 能源
    • 汽車
    • 科技
    • 醫藥
  • 全球連線
    • 軍事
    • 政治
    • 文体
  • 中國視野
  • 全球精英連線
  • 電子報紙
  • 新聞資訊
  • 旅遊
  • 英中投资
  • 深度· 言論
  • 視頻

© 2023 SEMG.