互聯網有穀歌,如今生物學領域有了MetaGraph。這款搜索引擎能夠快速篩選公共資料庫中儲存的海量生物數據。相關研究成果10月8日發表於《自然》。
“這是一項了不起的成就。”法國巴斯德研究所的Rayan Chikhi表示,“他們為分析原始生物數據設定了一個新標準。”這些數據包括DNA、RNA和蛋白質序列,來源於可能包含千萬億級DNA堿基的資料庫,相當於拍位元組(1拍位元組=1000萬億位元組)的資訊,其數量甚至超過穀歌龐大索引中的所有網頁。
儘管MetaGraph被視為“DNA穀歌”,但Chikhi更傾向於將其比作“YouTube搜索引擎”,因為它背後的計算任務難度更高。就像在YouTube上搜索時,能夠檢索到所有以“紅色氣球”為特徵的視頻,即使這一關鍵字並未出現在標題、標籤或描述中。MetaGraph同樣無需提前對基因模式進行明確標注,就能找到隱藏在龐大測序數據集深處的這些模式。
開發MetaGraph的初衷是為了解決測序數據集的可及性問題。過去幾十年間,生物資料庫的規模呈爆炸式增長,卻給使用這些數據的科學家帶來了挑戰——原始測序讀數碎片化、雜訊多,且數量龐大,無法直接檢索。加拿大多倫多大學的Artem Babaian指出:“矛盾的是,數據量反而成了我們實際使用這些數據的最大障礙。”
論文共同通訊作者、瑞士蘇黎世聯邦理工學院的André Kahles表示,MetaGraph能夠幫助研究人員向序列讀取檔案庫(SRA)這樣的資料庫提出生物學問題。SRA作為一個公共資料庫,包含的DNA堿基已超過10億億個。
研究團隊借助數學“圖譜”解決了數據檢索難題。這種圖譜能將重疊的DNA片段連接起來,就像圖書索引中排列的使用相同辭彙的句子一樣。
研究人員整合了7個公共資助資料庫的數據,構建出涵蓋病毒、細菌、真菌、植物、動物,也包括人類在內的所有生物類群的序列集,其中包含1880萬個獨特的DNA和RNA序列集,以及2100億個氨基酸序列集。同時,他們還為這些序列開發了一款搜索引擎,用戶只需通過文本提示,就能檢索這些整合後的原始數據檔案。
“這是一種與這類數據交互的全新方式。”Kahles說,“數據雖然經過壓縮處理,但可實現即時訪問。”
為證明MetaGraph的實用價值,研究團隊利用它對全球241384個人類腸道微生物組樣本進行了檢索,旨在尋找全球抗生素耐藥性的基因標誌物。這項研究是在前期工作基礎上開展的。此前研究人員曾利用舊版MetaGraph追蹤過全球主要城市地鐵系統中細菌菌株的耐藥基因。據團隊介紹,在一臺高性能電腦上完成這項分析僅需約1個小時。
MetaGraph並非目前唯一的大規模序列檢索工具。例如,Chikhi和Babaian共同開發了一個名為Logan的平臺,能將數十億條短測序讀數拼接成更長、更有組織的DNA片段。這種設計架構使其能在比MetaGraph更大規模的測序讀數集合中,識別出完整基因及其變異。Chikhi表示:“我們的工具功能較少,但性能更強。”
憑藉更廣的檢索範圍,Logan幫助研究人員發現了2億多個天然存在的“噬塑酶”變體,這些變體來源於多種細菌、真菌和昆蟲,其中部分變體的活性甚至優於實驗室設計的酶。9月,這一發現公佈於預印本bioRxiv。
Babaian認為,這類發現離不開開源檢索工具及其依託的公共測序數據庫。目前,一些生物資料庫正面臨資金削減的威脅,他強調,這些檢索技術的創新恰恰凸顯了“開放數據共用至關重要”。“這些資源正在推動全球科學進步,並開啟了一個全新的‘拍位元組級基因組學’領域。”
來源:中國科學報