智算未來·科創(chuàng)共建 | 太初元碁攜手湖南大學(xué),共建計(jì)算基因組學(xué)新生態(tài)

在全球科技競爭日益激烈的今天,自主算力已成為國家科研創(chuàng)新的關(guān)鍵基礎(chǔ)設(shè)施。在此背景下,高校和科研機(jī)構(gòu)作為基礎(chǔ)創(chuàng)新研究的策源地,正發(fā)揮著不可替代的作用。

基于太初AI加速卡,自研 DNA 語言模型 MxDNAPro
MxDNAPro 模型是一個(gè)專門閱讀理解DNA語言的人工智能大模型,能夠深度解讀 DNA:快速精準(zhǔn)地找出 DNA 最可能導(dǎo)致疾病的遺傳變異、預(yù)測出哪些DNA區(qū)域或分子可能成為治療疾病的新靶點(diǎn)。
該自研 MxDNAPro 模型在多項(xiàng)基因功能預(yù)測任務(wù)中表現(xiàn)優(yōu)異,超越主流模型,并能夠顯著提升計(jì)算效率,為復(fù)雜基因序列精準(zhǔn)建模和DNA語言潛在規(guī)律探索開辟了新范式。

MxDNAPro 模型首創(chuàng)自主學(xué)習(xí)劃分token策略,通過可變形卷積與稀疏專家模塊,讓模型自行識別生物學(xué)意義片段;并引入交叉注意力(Cross-Attention)機(jī)制,實(shí)現(xiàn)任意輸入/輸出長度的精準(zhǔn)對齊;同時(shí)基于八張?zhí)魽I加速卡的多卡并行訓(xùn)練和 FlashAttention 算子庫,提升訓(xùn)練吞吐量、縮短訓(xùn)練時(shí)間。

MxDNAPro 模型的平均性能,相較 DNABERT-2 模型,AUC 提高約 1.9%;組蛋白標(biāo)記預(yù)測,相較 DNABERT-2 模型,AUC 提高約 3.4%;并形成一套可復(fù)用、可加速、可解釋的 DNA 語言模型訓(xùn)練框架。

基于太初AI加速卡,自研遺傳變異模型 SNPBERT
SNP 是基因組中最普遍且與復(fù)雜遺傳疾病關(guān)聯(lián)最緊密的變異類型。SNPBERT 模型開創(chuàng)性地借鑒自然語言處理思想,將 DNA 序列視作“語言”,利用 Transformer 架構(gòu)精準(zhǔn)捕捉單堿基的復(fù)雜上下文關(guān)系。
該自研 SNPBERT 模型實(shí)現(xiàn)了高精度的基因型填充(imputation),大幅提升了下游疾病關(guān)聯(lián)研究與功能預(yù)測的準(zhǔn)確性,為解鎖疾病機(jī)制和推動(dòng)個(gè)性化健康管理提供關(guān)鍵洞見。

SNPBERT 模型通過 Byte Pair Encoding 的 token 詞匯本進(jìn)行編碼,并在此基礎(chǔ)上采用 RoPE(Rotary Position Embedding)對 token 位置進(jìn)行編碼;基于 Transformer 框架,創(chuàng)新性地引入父系/母系雙掩碼自監(jiān)督預(yù)訓(xùn)練,實(shí)現(xiàn)等位基因級的并行堿基預(yù)測;并分別編碼父系與母系兩條單倍型序列,在同一位置同步掩碼并預(yù)測堿基,解碼后形成精準(zhǔn)的基因型推斷;同時(shí)基于八張?zhí)魽I加速卡的多卡并行訓(xùn)練和 FlashAttention 算子庫,提升模型訓(xùn)練速度。

SNPBERT 模型訓(xùn)練時(shí)間縮短 50%;整體吞吐量提升 80%;并借助太初元碁的 FP16/FP8 混合精度訓(xùn)練,GPU 顯存占用降低約 30%;batch size 從 128 增大至 256。

基于太初AI加速卡,復(fù)現(xiàn)核糖體圖譜預(yù)測模型 Translatomer
基因表達(dá)調(diào)控涉及轉(zhuǎn)錄和翻譯,當(dāng)前疾病遺傳研究更多關(guān)注遺傳變異對轉(zhuǎn)錄過程的影響,而忽視對翻譯過程的影響。Translatomer 模型通過基因序列和轉(zhuǎn)錄組數(shù)據(jù),能夠精準(zhǔn)預(yù)測核糖體圖譜,并挖掘影響翻譯過程的疾病相關(guān)遺傳變異,顯著降低高昂的核糖體印記測序成本,提高研究效率,進(jìn)而加速疾病遺傳機(jī)制研究成果的轉(zhuǎn)化與應(yīng)用。

基于TecoPyTorch的高度兼容性和太初元碁已適配的PyTorch Lightning框架,團(tuán)隊(duì)成員在《TecoPyTorch遷移手冊》的指引下,3小時(shí)即完成Translatomer 模型在太初AI加速卡上的復(fù)現(xiàn)。并進(jìn)一步,在TecoPyTorch上開啟了DDP 分布式訓(xùn)練,將訓(xùn)練時(shí)長縮短為單卡A100的1/3。最終,復(fù)現(xiàn)后模型的預(yù)測準(zhǔn)確度較傳統(tǒng)方法提升了62%。

合作感受
本次合作,湖南大學(xué)的合作者均表示:
● 國產(chǎn)卡體驗(yàn)好,算子深度適配:在高性能計(jì)算方面的知識得到了顯著積累,之前一直是使用 Nvidia 的計(jì)算卡,現(xiàn)在體驗(yàn)到國產(chǎn)卡也非常不錯(cuò)。太初AI加速卡同樣支持 flash-attention 的加速訓(xùn)練算子,這點(diǎn)非常給力。
● 性能強(qiáng)勁,遷移成本低:太初AI加速卡性能強(qiáng)勁,多卡并行訓(xùn)練 Translatomer 模型,極大地縮短了訓(xùn)練時(shí)長。同時(shí)核糖體圖譜預(yù)測模型中主要使用的 PyTorch Lightning 庫,太初AI加速卡也均支持,復(fù)現(xiàn)效率高。
● 教程詳細(xì)、易于上手:太初元碁提供的教程詳盡且易于上手。這些教程不僅系統(tǒng)地介紹了 SDAA 的基本概念,還通過實(shí)例引導(dǎo)我快速實(shí)踐,極大地降低了學(xué)習(xí)門檻,使我在短時(shí)間內(nèi)能掌握核心知識。
● 工程師專業(yè)素養(yǎng)過硬,響應(yīng)迅速:代碼開發(fā)過程中遇到的問題,太初元碁的工程師們能夠在生態(tài)支持群中快速響應(yīng),第一時(shí)間給出解決方案,非常高效。
從驅(qū)散病魔的第一顆火種到抗生素革命再到基因組解碼,醫(yī)療創(chuàng)新的每次躍遷都在重構(gòu)人類文明的坐標(biāo)。當(dāng)前中國科技的版圖在加速擴(kuò)張,太初元碁正在做的,不是簡單地提供算力資源,更是為科學(xué)技術(shù)埋下創(chuàng)新的種子。
太初元碁將持續(xù)向高校青年教師、博士、研究生團(tuán)隊(duì)提供國產(chǎn)AI算力資源,并提供豐富的學(xué)習(xí)資源、專業(yè)的技術(shù)支持團(tuán)隊(duì),同時(shí)優(yōu)秀的科研項(xiàng)目會(huì)通過太初元碁官網(wǎng)、行業(yè)峰會(huì)、媒體渠道進(jìn)行案例宣傳,對具備商業(yè)化潛力的成果,優(yōu)先提供產(chǎn)業(yè)資源對接,加速從實(shí)驗(yàn)室到市場的跨越。
如果您的研究方向涵蓋AI基礎(chǔ)算法、垂直行業(yè)應(yīng)用,可提交研究計(jì)劃(涵蓋所需模型、數(shù)據(jù)量、項(xiàng)目時(shí)間)至郵箱 [ tecodeveloper@tecorigin.com ],期待與您的合作。
湖南大學(xué)生物學(xué)院計(jì)算基因組學(xué)課題組的羅宵教授帶領(lǐng)團(tuán)隊(duì)與太初元碁開展深度合作,強(qiáng)化國產(chǎn)AI算力在生物信息學(xué)領(lǐng)域的應(yīng)用效能,推動(dòng)構(gòu)建自主可控的生物信息學(xué)硬件生態(tài),打破國外技術(shù)壟斷,為我國生命科學(xué)研究的獨(dú)立創(chuàng)新發(fā)展筑牢根基:
● 羅宵教授:湖南大學(xué)生物學(xué)院博士生教授,博士生導(dǎo)師。長期從事計(jì)算基因組學(xué)與生物信息學(xué)研究。近五年開發(fā)了多個(gè)生物信息學(xué)算法軟件及人工智能模型,用于基因組測序糾錯(cuò)、組裝及表型預(yù)測等。主要研究方向:單倍型(端到端)基因組組裝、圖泛基因組、人工智能與大模型驅(qū)動(dòng)的生物表型預(yù)測與解讀(該團(tuán)隊(duì)長期招聘博士研究生和博士后,有意者可聯(lián)系羅宵教授 xluo@hnu.edu.cn)。
● 楊城:湖南大學(xué)信息科學(xué)與工程學(xué)院博一在讀,主要方向:基因組大語言模型的預(yù)訓(xùn)練。以第一/共一作者身份在國際權(quán)威期刊發(fā)表4篇論文,曾榮獲研究生國家獎(jiǎng)學(xué)金(2022)、省人工智能創(chuàng)新大賽三等獎(jiǎng)(2021)。
● 凌雷:湖南大學(xué)生物學(xué)院博一在讀,研究方向:多組學(xué)整合、全基因組預(yù)測。曾任職于國內(nèi)頭部蛋白質(zhì)組學(xué)企業(yè)杭州景杰生物,擔(dān)任高級生物信息工程師,研發(fā)落地多項(xiàng)前沿生信AI產(chǎn)品;在生物信息學(xué)高水平期刊Genomics, Proteomics & Bioinformatics (IF = 11.5) 發(fā)表論文;此外,將AI應(yīng)用于生態(tài)地理學(xué)相關(guān)研究,發(fā)表2篇SCI論文。



