太初元碁×百度螺旋槳×神威數(shù)智 | 國內首個成功復現(xiàn)AlphaFold3

“
近年來,大模型技術在生物信息學領域取得了眾多突破性進展,引起全球的廣泛關注,特別是在蛋白質結構預測方面的革命性成就,贏得了科學和產業(yè)界的高度認可。其中,AlphaFold系列模型擁有預測蛋白質單鏈、復合體以及復雜生物分子結構的能力,其準確性堪比真實實驗,極大地促進了生命科學的發(fā)展。特別是AlphaFold3能夠預測生物分子間的相互作用,極大助力于藥物研發(fā)合成,但由于算法未開源,限制了其在更廣泛的科研領域中的應用和發(fā)展。盡管有團隊嘗試根據(jù)AlphaFold3的論文進行復現(xiàn),但目前也僅完成了代碼部分,尚未實現(xiàn)實際訓練,因此尚未能應用于實際科研中。

太初元碁與百度螺旋槳團隊以及神威數(shù)智組成的聯(lián)合研發(fā)團隊成功完成AlphaFold3模型的全復現(xiàn)工作,突破DeepMind在該領域的技術高地。此次AlphaFold3的國產化復現(xiàn),不僅是一次技術革新,更是我國科技生態(tài)建設的重要里程碑,提升了國產大模型研發(fā)技術在全球AI大模型領域的競爭力。

試用申請
AlphaFold3模型最新試用版本已于8月28日上線,
歡迎對AlphaFold3或聯(lián)合研發(fā)團隊相關工作感興趣的科研機構和商業(yè)公司
通過郵箱:husl@tecorigin.com 與我們聯(lián)系。
也可點擊底部“閱讀原文”,獲取試用鏈接,
或復制下方鏈接:http://223.108.218.41:8067/ 在瀏覽器中打開,
即可搶先試用!
具體技術性能
聯(lián)合研發(fā)團隊克服了一系列挑戰(zhàn),如:模型結構復雜、數(shù)據(jù)高度復雜,訓練和運行所需的計算資源龐大等。在模型層面,AlphaFold3相較于AlphaFold2,增加了原子級建模,使得整體結構更加復雜,計算量也顯著增加。同時,AlphaFold3采用了擴散模型進行所有原子坐標的端到端推理。在數(shù)據(jù)處理方面,AlphaFold3不僅需要建模蛋白質,還必須處理小分子配體、核酸和離子等多種生物分子,復雜的數(shù)據(jù)預處理和大規(guī)模自蒸餾數(shù)據(jù)生成對模型性能的提升至關重要。
小分子配體
數(shù)據(jù)集PoseBusters:一個用于評估配體對接算法的基準數(shù)據(jù)集, PoseBusters V1包含428個結構,PoseBusters V2是排除了與多個生物分子單元內距離小于5.0?的配體數(shù)據(jù)后,精簡的308個結構。 對比的基線方法分為三類:不指定真實蛋白質結構的方法、指定已知蛋白質結構的方法,以及指定活性位點殘基的方法。

▲ 圖1 PoseBusters V1數(shù)據(jù)集上AlphaFold3復現(xiàn)工作與同類模型的精度表現(xiàn)

▲圖2 PoseBusters V2數(shù)據(jù)集上AlphaFold3復現(xiàn)工作與同類模型的精度表現(xiàn)

▲圖3 Alphafold3復現(xiàn)工作與同類模型的PoseBusters V2 quality check精度對比
核酸分子
由于核酸分子的結晶結構數(shù)量很少,完全無人為干預地自動化地準確預測其結構一直是一個巨大的挑戰(zhàn)。
對于核酸分子效果的評估,復現(xiàn)工作在CASP15(蛋白質結構預測領域的重要國際競賽)中有結晶結構的RNA樣本及從Protein Data Bank(PDB)中最新收集的41個RNA分子和41個DNA分子進行評測。
結果顯示:復現(xiàn)工作在CASP15的RNA樣本的精度雖然還不及有人工干預的方法AIchemy_RNA2,但在能夠完全自動化推理的RNA模型當中,已經達到了與AlphaFold3相當?shù)乃?。在從PDB最新收集的RNA和DNA的結構預測上,復現(xiàn)工作的精度亦是極具競爭力,遠超專門為核酸分子結構預測所設計模型RoseTTAFold2NA和另一個全原子生物分子結構預測模型RoseTTAFold-AllAtom。

▲圖4 Alphafold3復現(xiàn)工作與同類模型在CASP15上的精度對比

▲圖5 Alphafold3復現(xiàn)工作與同類模型在PDB RNA-only與PDB DNA-only數(shù)據(jù)集上的LDDT評估值對比
蛋白質
在蛋白質-蛋白質復合體結構預測領域,盡管AlphaFold-Multimer在先前模型的基礎上實現(xiàn)了顯著的進步,但其成功率和準確性仍有進一步提升的空間。聯(lián)合研發(fā)團隊的復現(xiàn)工作在此基礎上進一步優(yōu)化了預測能力,展現(xiàn)出更為優(yōu)異的性能。
結果顯示:復現(xiàn)工作在蛋白質-蛋白質復合體結構預測方面已經略微超越了AlphaFold-Multimer的表現(xiàn),展示出更強的預測能力。然而,與AlphaFold3相比,復現(xiàn)工作仍存在一定的性能差距。因此,未來的研究工作將繼續(xù)致力于優(yōu)化和迭代,以縮小這一差距,力求在復現(xiàn)工作的預測精度和成功率上進一步提升。

▲ 圖6 Alphafold3復現(xiàn)工作與同類模型在蛋白質結構預測任務上的Docka分值對比

模型置信度

▲ 圖8 Alphafold3復現(xiàn)工作在小分子配體-蛋白質數(shù)據(jù)集上的預測置信度分布

▲ 圖9 Alphafold3復現(xiàn)工作在蛋白質-蛋白質復合體數(shù)據(jù)集上的預測置信度分布

▲圖10 Alphafold3復現(xiàn)工作在RNA分子數(shù)據(jù)集上的預測置信度分布



