據《自然》報導,穀歌DeepMind新開發的人工智慧(AI)模型AlphaGenome可以幫助科學家解析基因組序列中的“暗物質”——非編碼區,瞭解它們如何影響細胞內部運作並導致癌症等疾病的發生。目前,從事非商業工作的研究人員可以使用編程介面通過DeepMind的伺服器訪問該模型。這個AI模型在 6 月 25 日的預印本中進行了描述。
2001年,《自然》發表由美、英、日、德、法、中六國科學家共同完成的人類基因組序列草圖。然而直到現在,約31億個堿基對中的許多仍然是待解之謎。
在長長的人類基因組序列中,98%是不直接參與蛋白質編碼合成的基因,即非編碼區,但它們可以影響蛋白質活性,並包含了大量與疾病相關的變異位點。這一部分尤其讓科學家感到頭疼。
弄清楚DNA序列的作用很難,因為沒有現成的答案,就像AlphaFold預測蛋白質3D結構一樣。從吸引一組細胞機器附著在染色體的特定部分並將附近的基因轉錄為RNA分子,到吸引影響基因表達發生地點、時間和程度的轉錄因數,單個DNA片段具有許多相互關聯的作用。例如,許多DNA序列通過改變染色體的3D形狀來影響基因活性,從而限制或簡化轉錄機器的訪問。
幾十年來,科學家開發了數十種AI模型來理解基因組。其中許多都集中在單個任務上,例如預測基因表達水準或確定外顯子是如何被剪切並拼接到不同蛋白質中的。而AlphaGenome正是一個“一體化”解釋DNA序列的工具。
AlphaGenome可以處理多達100萬個DNA堿基,這可能包括一個基因和無數個調節元件,並能針對多種生物特性進行數千次預測。而且,AlphaGenome在預測過程中對單個DNA堿基的變化十分敏感,這意味著科學家可以預測突變的影響。
DeepMind研究人員利用AlphaGenome分析了先前研究中發現的一種白血病患者的不同突變。該模型準確預測了非編碼區突變間接啟動了附近的一個基因,後者是這種癌症常見的驅動因素。
不過,研究人員表示,AlphaGenome僅基於人類和小鼠的基因組,以及其他相關實驗數據進行訓練,還沒有測試它在其他生物中的有效性。此外,AlphaGenome預測的準確性還有提升的空間。例如,該模型難以識別位於10萬多個堿基對以外的目標基因序列。
美國冷泉港實驗室的計算生物學家Peter Koo說,AlphaGenome和類似的模型尚未捕捉到不斷變化的細胞性質如何影響DNA序列的功能。因為這些模型只能在一個固定環境中進行預測,而細胞是動態的:蛋白質水準、DNA上的化學標籤和其他條件會隨著時間或細胞類型的不同而變化,這可能會改變同一序列的行為方式。
來源:中國科學報