作為高投入高風險的創(chuàng)新行業(yè),生物醫(yī)藥行業(yè)一直面臨著“雙10困境”:一款新藥的研發(fā)至少需要花費10億美元、10年投入。伴隨著AI大模型引領(lǐng)的創(chuàng)新浪潮席卷全球,生物醫(yī)藥產(chǎn)業(yè)正在面臨新一輪的機遇期。
一家初創(chuàng)企業(yè)借助大模型的算力,在短短兩年內(nèi)找到合適的抗癌苗頭化合物,AI大模型能否真的改變生物醫(yī)藥的“雙10困境”?AI輔助尋找抗癌苗頭化合物“經(jīng)過AI生物大模型的虛擬篩選,從780萬個分子庫中最終找到6個潛在活性分子,效率相較于以往的人工篩選提升了成千上萬倍。”杭州立德百克生物醫(yī)藥科技有限責任公司負責人王紫壹告訴記者,生物醫(yī)藥行業(yè)有一個“雙10魔咒”,一款新藥的研發(fā)至少需要花費10億美元和耗時10年投入,這是一家初創(chuàng)公司幾乎難以承擔的成本,如今憑借AI大模型的能力,生物技術(shù)團隊也能實現(xiàn)彎道超車。乳腺癌是全球女性發(fā)病率最高的惡性腫瘤,去年我國乳腺癌發(fā)病人數(shù)超過42萬,CDK4/6抑制劑是該領(lǐng)域最為暢銷的藥物,有機構(gòu)預測全球總的CDK4/6抑制劑市場將在2029年超過200億美元,占乳腺癌藥物銷售市場份額的42%。
目前已經(jīng)上市的CDK4/6抑制劑有4個,在研的更是多達幾十個。立德百克自主研發(fā)的PPI檢測技術(shù),可以對蛋白質(zhì)之間的相互作用進行快速的“濕”實驗(生理學試驗方法)驗證,建立了專門針對CDK4/6-CCND蛋白-蛋白相互作用的藥物篩選技術(shù)和活性檢測技術(shù)平臺,但是如何找到苗頭化合物分子卻犯了難。

“市面上的化合物商品庫中有上千萬種化合物,篩選工程耗時耗力,恰好生物計算大模型能彌補這一短板?!蓖ㄟ^引入百度飛槳螺旋槳的文心生物計算大模型技術(shù),王紫壹團隊的“干”實驗(計算機模擬試驗方法)能力得到極大的提升,通過虛擬篩選,
從780萬個分子中得到了模型打分比較高的110個分子,并采購了其中的40個進行檢測,最后發(fā)現(xiàn)有6個高潛力的分子,其中3個化合物能夠同時打斷CDK4/6-CCND蛋白-蛋白相互作用,還有3個化合物能夠打斷CDK4-CCND蛋白-蛋白相互作用。目前,雙方正在對這些化合物進行更進一步的分析研究,也為下一步的結(jié)構(gòu)優(yōu)化提供數(shù)據(jù)準備。記者獲悉,去年5月百度對外發(fā)布了
文心生物計算大模型,并將生物領(lǐng)域研究對象的特性融入模型,構(gòu)建面向化合物分子、蛋白分子、基因組學信息的生物計算領(lǐng)域預訓練大模型。目前正式對外發(fā)布的文心生物計算大模型,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白結(jié)構(gòu)分析模型HelixFold、以及單序列蛋白表征模型HelixFold-Single。
國產(chǎn)生物大模型進入爆發(fā)期當下,隨著通用大模型的走紅,生物醫(yī)藥等垂直領(lǐng)域大模型正逐漸浮出水面。不少研報指出,AI制藥行業(yè)經(jīng)歷了算法迭代、算力提升及海量實驗數(shù)據(jù)的堆砌,隨著AlphaFold2、ChatGPT等創(chuàng)新產(chǎn)品的出現(xiàn),行業(yè)有望迎來高速發(fā)展的成長初期。AI大模型如何提高新藥研發(fā)的效率,之江實驗室圖計算中心副主任陳紅陽有一個非常形象的比喻:靶點發(fā)現(xiàn)是藥物研發(fā)過程中的關(guān)鍵環(huán)節(jié),其中靶點是藥物在體內(nèi)的作用結(jié)合位點,
藥物好比一把“鑰匙”,靶點就是與之匹配的“鎖”。基于大量的醫(yī)學材料和生化數(shù)據(jù),生物計算大模型能發(fā)掘潛在的藥物靶點,甚至預測靶點與潛在藥物之間的相互作用,提高藥物研發(fā)成功率。

國外的研究報告顯示,AI可以將新藥研發(fā)的成功率提高16.7%,AI輔助藥物研發(fā)每年能節(jié)約540億美元的研發(fā)費用,并在研發(fā)主要環(huán)節(jié)節(jié)約40%至60%的時間成本。根據(jù)英偉達公開資料,
使用AI技術(shù)可使藥物早期發(fā)現(xiàn)所需時間縮短至三分之一,成本節(jié)省至兩百分之一。生物制藥和轉(zhuǎn)化醫(yī)學作為AI的重點賽道之一,涉及藥物設(shè)計、篩選、優(yōu)化、驗證等多個環(huán)節(jié),需要處理大量的復雜數(shù)據(jù)和知識,也吸引了更多的競爭者。早在2020年,在第14屆國際蛋白質(zhì)結(jié)構(gòu)預測競賽上,DeepMind研發(fā)的AlphaFold2成功根據(jù)基因序列預測了生命基本分子——蛋白質(zhì)的三維結(jié)構(gòu),取得了中位分數(shù)為92.4的好成績,比第二名高25分,被中國科學院院士施一公評價為“人工智能對科學領(lǐng)域最大的一次貢獻”。隨后國內(nèi)AI生物大模型逐漸開始發(fā)力,清華智能產(chǎn)業(yè)研究院日前開源了輕量版BioMedGPT1.6B,這是一個參數(shù)為16億的生物醫(yī)藥領(lǐng)域輕量級科研版基礎(chǔ)模型,具有跨模態(tài)與知識融合的特點,可以處理藥物性質(zhì)預測、自然語言類、跨模態(tài)等多種任務。近日,上海人工智能研究院執(zhí)行院長宋海濤表示,計劃在生物制藥、轉(zhuǎn)化醫(yī)學等領(lǐng)域,利用國產(chǎn)化訓練框架推出國產(chǎn)大模型,
打造具有自主知識產(chǎn)權(quán)和核心競爭力的人工智能技術(shù)。中銀證券研報中表示,AI醫(yī)療市場呈高增長態(tài)勢,市場規(guī)模在2025年有望達385億元,2020—2025年復合年均增長率達46%,其中AI制藥是AI醫(yī)療領(lǐng)域的重要一環(huán)。
AI介入新藥研發(fā)仍存挑戰(zhàn)目前,AI技術(shù)在生物醫(yī)藥產(chǎn)業(yè)的核心優(yōu)勢在于提升效率,但在落地過程中仍遇到了一些挑戰(zhàn)。百度智能云相關(guān)人士認為,
藥物研發(fā)真實的高精度實驗數(shù)據(jù)獲取成本極高,且有實驗的批次效應問題,公開的數(shù)據(jù)庫有大量的無標注數(shù)據(jù),如何利用好大量無標注數(shù)據(jù)和少量高精度數(shù)據(jù),這就對模型構(gòu)建提出了較高的要求。其次,
生物領(lǐng)域的任務繁多且復雜,比如ADMET成藥性預測任務,常用屬性指標多達幾十項,想要一個模型對幾十項指標都預測準確,這對技術(shù)的泛化性和可遷移能力也有較高的要求。同時,生物領(lǐng)域有其獨特的領(lǐng)域特性,比如對同分異構(gòu)體的理解、研究對象需要建模三維結(jié)構(gòu)等,對算法研發(fā)人員提出了更高的要求。
特別是像DeepMind團隊所開發(fā)的Alphafold2之類計算量巨大的復雜的神經(jīng)網(wǎng)絡模型,更需要有強大的算力和框架技術(shù)的支持。
陳紅陽也有類似觀點,分子生成任務需要通過引入領(lǐng)域知識、結(jié)合強化學習和“濕”實驗等來驗證生成分子的有效性,而大模型在訓練過程缺少領(lǐng)域知識,無法保證其可信性。模型訓練部署以及相關(guān)“濕”實驗的成本高企,藥物研發(fā)依然面臨流程長投入大的問題。欄目主編:李曄 題圖來源:上觀題圖 圖片編輯:朱瓅 來源:作者:查睿