文/劉育英
中國(guó)初創(chuàng)公司深勢(shì)科技近日推出蛋白結(jié)構(gòu)預(yù)測(cè)工具Uni-Fold,在中國(guó)國(guó)內(nèi)首次復(fù)現(xiàn)谷歌Alphafold2全規(guī)模訓(xùn)練并開源訓(xùn)練、推理代碼。深勢(shì)科技創(chuàng)始人在接受中新社國(guó)是直通車專訪時(shí)表示,人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)這一突破,將給新藥研發(fā)等領(lǐng)域帶來新的突破。
今年夏天,用人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)取得里程碑式進(jìn)展。
谷歌的AlphaFold2和華盛頓大學(xué)的RoseTTAFold工具,成功根據(jù)氨基酸序列預(yù)測(cè)了生命基本分子——蛋白質(zhì)的三維結(jié)構(gòu)。利用實(shí)驗(yàn)室手段可能需要數(shù)年的研究才能解析一個(gè)蛋白質(zhì)結(jié)構(gòu),利用計(jì)算結(jié)構(gòu)模型最快只需10分鐘。
預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)為什么重要?深勢(shì)科技創(chuàng)始人兼首席科學(xué)家張林峰解釋說,蛋白質(zhì)是組成生命體的重要物質(zhì)基礎(chǔ)。不同的蛋白質(zhì)通過折疊形成不同的三維結(jié)構(gòu),執(zhí)行多種多樣的生理功能。癌癥、癡呆等幾乎所有疾病,都與細(xì)胞內(nèi)蛋白質(zhì)結(jié)構(gòu)變化相關(guān),如果能夠掌握蛋白質(zhì)結(jié)構(gòu)的變化,將對(duì)疾病的預(yù)防、治療等帶來重要影響。
從氨基酸序列到對(duì)應(yīng)蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測(cè)問題,被認(rèn)為是生物學(xué)領(lǐng)域最具有挑戰(zhàn)性的問題之一。
在過去幾十年的研究中,科學(xué)家們?yōu)樘綔y(cè)蛋白質(zhì)結(jié)構(gòu)發(fā)展出三大實(shí)驗(yàn)手段:X射線晶體學(xué)、核磁共振和冷凍電鏡。但實(shí)驗(yàn)方法成本高、周期長(zhǎng)。目前人類已知有數(shù)十億氨基酸序列,但還原出結(jié)構(gòu)的只有十幾萬。生物學(xué)發(fā)展因此頗受掣肘。
AI的發(fā)展為這一問題帶來了新的可能。7月22日,谷歌旗下Deepmind公司在《自然》雜志發(fā)表文章稱,基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的AlphaFold2已經(jīng)預(yù)測(cè)出了35萬種蛋白質(zhì)結(jié)構(gòu),涵蓋了98.5%的人類蛋白質(zhì)組以及20種生物的蛋白質(zhì),并開源了它的數(shù)據(jù)庫。這一結(jié)果也標(biāo)志著蛋白質(zhì)單體結(jié)構(gòu)問題在一定程度上得到解決。
中國(guó)公司已進(jìn)入這一領(lǐng)域。張林峰說,AlphaFold2公布了推理代碼,但并未公布訓(xùn)練代碼。意味著公布了產(chǎn)品,但未公布其“流水線”。而訓(xùn)練代碼是行業(yè)中的真正壁壘。深勢(shì)科技通過“投喂”數(shù)據(jù),復(fù)現(xiàn)了整個(gè)訓(xùn)練過程,并開源其訓(xùn)練代碼。
另外,單一蛋白質(zhì)的預(yù)測(cè)只是起點(diǎn),深勢(shì)科技希望通過分子動(dòng)力學(xué)等物理模型,把蛋白質(zhì)-蛋白質(zhì)相互作用,蛋白質(zhì)和藥物分子之間的相互作用通過AI預(yù)測(cè)出來,這對(duì)下一步藥物設(shè)計(jì)和生命科學(xué)發(fā)展都有重大意義。
深勢(shì)科技創(chuàng)始人兼CEO孫偉杰表示,深勢(shì)科技對(duì)訓(xùn)練代碼進(jìn)行了開源,這意味著使用者能夠更方便地訓(xùn)練和使用模型,降低了使用者的門檻。
目前相應(yīng)解決方案已集成至深勢(shì)科技自主研發(fā)的藥物設(shè)計(jì)平臺(tái)Hermite,供廣大用戶測(cè)試使用。未來,AI預(yù)測(cè)蛋白質(zhì)技術(shù)可以在幾個(gè)場(chǎng)景落地,如新藥研發(fā)、微尺度工業(yè)設(shè)計(jì)等。
孫偉杰介紹,通常人們服用的藥物大多是小分子化學(xué)藥,它們的作用靶點(diǎn)大部分在蛋白質(zhì)上。研發(fā)這類藥物的一個(gè)重要前提,是解析蛋白質(zhì)結(jié)構(gòu)。只有繪制出人體內(nèi)某些蛋白質(zhì)的“三維地圖”,才能找到藥物靶點(diǎn),完成“精準(zhǔn)制導(dǎo)”。
深勢(shì)科技致力于從更底層,用AI+物理模型+高性能計(jì)算的范式,去求解藥物設(shè)計(jì)里很多通用問題。
如何驗(yàn)證AI預(yù)測(cè)是否準(zhǔn)確?
孫偉杰說,AI預(yù)測(cè)與冷凍電鏡是互為協(xié)同關(guān)系,一部分AI預(yù)測(cè)的結(jié)果要通過冷凍電鏡來驗(yàn)證,同時(shí), AI數(shù)據(jù)集的不斷增加,模型不斷的訓(xùn)練和演化,以及實(shí)驗(yàn)手段和模擬手段的結(jié)合,是一個(gè)共同發(fā)展和相輔相成的過程。AI無法代替科學(xué)家的智慧,但能夠提升科學(xué)家的效率。
據(jù)了解,從上世紀(jì)六十年代,一些國(guó)際大型藥企就開始用計(jì)算方法輔助藥物研發(fā),現(xiàn)在介入的程度越來越深,在藥物設(shè)計(jì)的各個(gè)主要環(huán)節(jié)都可以看到計(jì)算和AI的身影,計(jì)算對(duì)實(shí)驗(yàn)的滲透率也在逐漸提高。
AI制藥已經(jīng)成為投資風(fēng)口,深勢(shì)科技已獲得多家知名機(jī)構(gòu)和公司的投資,其在藥物設(shè)計(jì)領(lǐng)域已經(jīng)有超過十家合作伙伴。“由于人工智能系統(tǒng)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的耗時(shí)遠(yuǎn)遠(yuǎn)少于實(shí)驗(yàn)測(cè)定,新藥研發(fā)的效率有望大幅提高。人工智能系統(tǒng)還能助力科學(xué)家設(shè)計(jì)自然界不存在的蛋白質(zhì),催生各種新材料,用于能源、化工、環(huán)保等行業(yè)”,孫偉杰表示。