近日,由中國電腦學會主辦的第21屆全國高性能計算學術大會在內蒙古鄂爾多斯召開。大會上,中國工程院院士、中國電腦學會理事長孫凝暉在題為《AI(人工智慧)賦能科學發現》報告中,分享了對這一備受關注話題的思考。
“第五範式”登上歷史舞臺
孫凝暉首先談到,“科學智能”是AI for Science,即“AI賦能科學發現”。這一研究範式的出現,始於AlphaFold在蛋白質結構預測上的突破。2020年,AlphaFold在CASP14大賽中成功預測了2/3的目標蛋白結構,開啟了基於AI預測蛋白、核酸等分子結構的歷史進程。
2024年諾貝爾物理學獎和化學獎授予AI基礎理論和科學發現領域的科學家,展現了對AI的“偏愛”。孫凝暉認為,這標誌著國際學術界公認AI技術已進入科學領域,“代表著科研範式的重大改變”。
“融合大模型、大算力、大數據和大團隊服務等特點的科學研究,對科學發現的作用就像大科學裝置一樣,是一個新範式。”孫凝暉說,新範式的形成,除了“大模型、大算力、大數據”外,還離不開物理、化學、生物、AI等各領域科學家和工程師團隊的長期工作,以及企業資金的支持。
孫凝暉表示,在“AI賦能科學發現”之前,現代科學活動存在4種範式,即基於實驗觀察的科學實驗範式、依賴科學家的理論推演範式、借助計算設備的科學計算或數值模擬範式、基於實驗和理論數據計算的科學數據範式。如今,“AI賦能科學發現”當屬“第五範式”,正登上歷史舞臺。
幫助科學家從“增肌強體”到“賦予大腦”
AI如何賦能科學發現?孫凝暉提出,從資訊化視角看,“AI賦能科學發現”的核心在於構建觀測(Observe)、模擬(Orient)、猜想(Hypothesis)與實驗(Verify)4個環節,並將數據驅動和智能演算法驅動引入這4個環節,形成“OOHV全環的AI賦能”。
“在這4個環節中,資訊技術總能發揮作用,讓知識獲取、分享、檢索、交換更方便,讓資訊抽取更簡單。”孫凝暉談到,推演模擬環節本質上是“高性能計算+AI”,而機器學習、大模型能通過處理科學數據發現規律、驗證猜想,此外,觀察和實驗未來也可依靠具身智能。
從具體案例看,孫凝暉認為,資訊學科的主要任務是提供工具。他有一個形象的比喻:資訊技術賦能科學的手段如同從“增強肌肉(算力)”到“提供營養”(數據),如今正朝著“賦予大腦”(AI)的方向進化。
“‘AI賦能科學發現’更大的作用是突破人類認知極限,這也是科學研究的最高追求。”孫凝暉說,人類在第三範式和第四範式下都有許多突破認知極限的工作,比如通過科學計算,我們既能做公里級精度的中短期天氣預報,也能做全球尺度的氣候變化預測;通過數據解析,人類得以從基因組層面認識自己,利用天文望遠鏡摸到黑洞的“脈搏”。如今,在“第五範式”下也有突破人類認知極限的工作。
不過,孫凝暉提醒,AI工具並不是萬能的,科學發現依然離不開高性能計算這一基礎手段。同時,在解決實際科學問題時,如何對齊“AI賦能科學發現”共性工具的科學語義,將成為一個關鍵問題。
嶄新的方法論和學術生態正在形成
孫凝暉剖析了“AI賦能科學發現”面臨的數據、模型和計算問題。“科學數據大概來自4個方面,即理論數據、觀測數據、實驗數據和知識數據,‘AI賦能科學發現’數據集不僅需要長期積累,還需要關注數據的AI-Ready化與成熟度。”孫凝暉表示。
在模型方面,孫凝暉提到,OpenAI將實現通用人工智慧的路徑分為5個階段:對話者、推理者、代理者、創新者、組織者。這5個階段對應的AI依次加入了數據驅動、知識嵌入、物理約束、人機協同、群體智能的能力。目前,“AI賦能科學發現”的能級正處於“數據驅動+知識嵌入+物理約束”的三輪驅動階段。
在孫凝暉展示的能級圖中,AI進階像“單車”到“高鐵”那樣循序漸進。僅靠數據驅動的AI仿佛“單輪車”,隨著知識嵌入,AI成了“自行車”;加入物理約束後,AI堪比“三輪摩托車”;而隨著人機協同、群體智能等更多“車輪”的加入,AI有望變成“跑車”“高鐵”,將大大加速人類科學發現的進程。
在計算問題上,孫凝暉提到,衡量計算有兩個關鍵維度,即精度和架構。“AI賦能科學發現”不僅需要高精度計算,還需要能夠降低負載的融合架構。他表示,未來智算的融合架構是什麼樣,成為電腦科學家需要思考的問題。
孫凝暉展望說,隨著算力集群的堆疊、數據來源的多樣化、模型參數規模等的進一步提升,未來算力將進化成為Z級(每秒可進行1021次浮點運算)智能超算,數據方面將發展為由海量常識數據、高質量理論數據、實驗數據及增強數據來解決更複雜的問題,模型方面將出現一個參數量超過千億的通用科學智能大模型。
孫凝暉認為,隨著AI技術對科學研究範式的重構,新研究工具鏈湧現,頂級期刊開設專欄,全球頂尖機構成立相關或專門研究單元,嶄新的“AI賦能科學發現”方法論和學術生態正在形成。
來源:中國科學報