創(chuàng)藥新聲

News

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元

導語

繼2018年、2020年的兩代AlphaFold的橫空出世后,蛋白質結構預測已經(jīng)接近實驗精度,為計算賦能藥物研發(fā)領域打下了堅實基礎。在藥物研發(fā)漫長的研發(fā)環(huán)節(jié)中,分子與蛋白質的相互作用預測是下一個計算賦能藥物研發(fā)領域的“圣杯”。近日,星藥科技預發(fā)表了 Trigonometry Aware Neural NetworK for Drug-Protein Binding Structure Prediction。該模型是全球首個能同時預測小分子和靶蛋白三維結合構象和結合親和力的深度表征學習框架,大幅超越現(xiàn)存方法的最好結果。TBind采用端到端的數(shù)據(jù)驅動范式,結合物理啟發(fā)式的幾何圖神經(jīng)網(wǎng)絡,打通了復合物三維結合模式及結合強度的雙重預測,實現(xiàn)了對國際商業(yè)分子對接軟件精度和效率的雙超越,為分子蛋白相互作用預測提供了國產首個突破性方案。繼AlphaFold之后, 將計算驅動的藥物研發(fā)帶入新的紀元。

藥物發(fā)現(xiàn)是一項極具挑戰(zhàn)性的任務。在龐大的化學空間(約1060個類藥物分子)中,只有一小部分能與特定的生物靶點結合并產生治療效果。目前的藥物一般以蛋白質作為靶分子,通過設計與它相互作用的化合物小分子來治療疾病。因此,發(fā)現(xiàn)能與蛋白質分子相互作用的小分子化合物并闡明其與靶蛋白的結合模式對于新藥研發(fā)至關重要。

目前,小分子和蛋白質的結合模式很大程度上是通過使用實驗和計算方法實現(xiàn)的,這些方法可以幫助了解小分子配體和其靶蛋白之間的關鍵相互作用,以指導分子的優(yōu)化,達到期望的效力和選擇性。常見的實驗方法如X射線衍射、核磁共振晶體學,以及最近的冷凍電鏡(EM)等技術已經(jīng)產生了數(shù)以萬計的小分子-蛋白復合物結構,為闡明藥物和蛋白質相互作用的生物學機制打下了堅實的基礎。同樣,計算方法如分子對接技術,使研究者們能夠探索尚未形成共晶結構的新靶標與巨量尚未合成的虛擬化合物之間的相互作用關系,也在小分子-蛋白質結合模式研究上發(fā)揮著重要作用。


? ??

分子對接軟件的現(xiàn)狀與發(fā)展

?

分子對接技術有著20年以上的歷史,已經(jīng)成為了基于靶點的藥物設計(Target-based Drug Discovery, TDD)范式中的一部分。對接軟件的核心主要有兩部分:一是設計力場,對藥物-蛋白復合物結構打分。二是設計采樣算法,對復合物構象采樣。在傳統(tǒng)力場設計中,為了保證打分速度,將本質上是一個多體問題的相互作用近似為基于原子對能量的線性累加。近幾年在機器學習的加持下,分子對接方法在對多體問題的近似上雖然有了更好的表現(xiàn),但并沒有從根本上改變一直以來基于原子對能量的線性累加打分、再通過構象采樣獲得最終復合物的流程。這使得分子對接方法的精度和速度都已無法充分滿足現(xiàn)代藥物設計的需求。

2018年,DeepMind團隊推出的AlphaFold首次亮相便在國際蛋白結構預測大賽CASP13上以較大優(yōu)勢摘取桂冠;兩年后,AlphaFold 2通過精妙的模型設計,使得蛋白質結構預測領域邁出了驚人的一步,達到了與實驗精度相近的水平。兩代AlphaFold通過深度學習方法,幾乎解決了蛋白質結構預測這一困擾了科學家們70年的難題。而下一個計算驅動的藥物研發(fā)領域的“圣杯”,就是橫亙在藥物研發(fā)與蛋白結構之間的關鍵問題:

是否能通過AI方法準確地預測出小分子和蛋白質的相互作用關系,即兩者之間的結合模式及結合強度?

?

小分子-蛋白結合預測新范式

?

為了解決上述痛點,賦能新藥研發(fā),繼四月份與阿斯利康全球研發(fā)中心聯(lián)合發(fā)布了基于結構的深度親和力預測模型STAMP-DPI,星藥科技聯(lián)合復旦大學、中山大學研究人員,最新發(fā)布了基于三體深度神經(jīng)網(wǎng)絡(Trigonometry Aware Neural NetworK)的TBind v1.0.1,專攻小分子配體-蛋白質復合物三維結構預測。不同于傳統(tǒng)計算化學方法和近年來興起的單一親和力預測模型,TBind采用端到端的數(shù)據(jù)驅動范式,結合物理啟發(fā)式的幾何圖神經(jīng)網(wǎng)絡,打通了復合物三維結合模式及結合強度的雙重預測,實現(xiàn)了對商業(yè)級分子對接軟件精度、速度的雙超越,為分子蛋白復合物結構預測提供了首個突破性國產方案。

受啟發(fā)于AlphaFold2的氨基酸內“Triangle Multiplicative Update”架構,TBind將該模塊有機地拓展到小分子和靶蛋白的分子間相互作用中,進行了多處升級,使得模型突破傳統(tǒng)分子間力場的限制,有了直接擬合多體效應的能力且并未顯著增加模型的復雜性。在分子間的三體神經(jīng)網(wǎng)絡模塊基礎上,TBind還自主研發(fā)了基于對比學習和分而治之思想的蛋白區(qū)塊化技術,根據(jù)蛋白結構功能區(qū)實行分別關注,對保守區(qū)域進行局部信息提取,在結構數(shù)據(jù)下實現(xiàn)了隱式數(shù)據(jù)增強的效果; 研究小組還提出了最大邊緣對比性親和力損失函數(shù)(max-margin contrastive affinity loss)以驅動模型充分利用親和力信息和全局三維結構信息。對于局部信息和全局信息的權衡極大程度上提高了TBind的精度和泛化性能,使其能夠對新穎的蛋白口袋和新型的結合模式做出快速且有效的預測。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元

TBind模型示意簡圖。模型的輸入為一個蛋白質三維結構和分子三維結構,輸出是兩者之間的結合模式和結合強度。

?

摒棄傳統(tǒng)采樣方法

全面超越行業(yè)表現(xiàn)

?

在行業(yè)標準測試集PDBBind上,TBind的性能大幅超過了現(xiàn)存最優(yōu)的深度學習方法(由MIT Tommi Jaakkola組領銜開發(fā)的EQUIBIND,ICML 2022[1])以及多款國際商業(yè)、學術對接軟件(包括GLIDE, VINA, SMINA, GINA等)。TBind使用2020年以前發(fā)表的17787個小分子復合物三維結構進行訓練。在對2020年之后發(fā)布的142個訓練集未見過的新蛋白質形成的復合三維結構預測任務中,TBind將LigandRMSD小于5?的比例從約30%提升至56%?[2];對于結合中心的預測與真實中心距離小于5?的比例更是從48%提升至76%。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元

在PDBBind新蛋白測試集中,預測結構與真實共晶結構的RMSD小于5?的比例。TBind顯著優(yōu)于其他模型。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元


在PDBBind新蛋白測試集中,預測配體質心與真實質心距離小于5?的比例。TBind顯著優(yōu)于其他模型。

由于模型摒棄了繁瑣的傳統(tǒng)采樣方法,利用數(shù)據(jù)驅動的AI勢能面進行結構生成,所以在預測和篩選的效率上也得到了大幅度提升,局對接的任務中每個分子僅需要0.5秒鐘,是學術軟件VINA的400分之一,商業(yè)軟件GLIDE的2000分之一。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元

完成一次對接打分的時間。TBind僅需要0.5秒鐘完成預測,顯著快于傳統(tǒng)對接方法。

?

多場景應用

覆蓋正構和別構口袋

?

1. 局部對接(local docking)任務比較

TDD常見的場景之一是已知蛋白口袋的情況下利用計算工具進行局部對接以預測新分子和靶蛋白的相互作用關系。在第一個例子中,用于治療慢性髓性白血病(CML)的達沙替尼(Dasatinib)與蛋白ABL1結合結構(PDB 7N9G,于2022年4月公開)中GLIDE預測構象與真實結晶構象頭尾調換,導致預測結構與真實結構的RMSD差異高達11?。而TBind正確地預測出了分子的構象,與晶體結構的RMSD差異僅1.1? 。第二個例子是2022年6月剛剛公開的TRK蛋白與一個新型Type-II型抑制劑相互結合的結構(PDB 7XAF)。GLIDE的預測結果同樣和真實構象有比較大的偏差,而TBind和真實結構幾乎一致。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元

2. 全局對接(global docking)任務比較

在First-in-Class的管線項目中,對于新靶蛋白的開發(fā)時常會出現(xiàn)結合位點不明確的情況,傳統(tǒng)對接方法往往很難判斷出正確的結合模式。由于模型使用了蛋白區(qū)塊化技術,TBind具備更強的全局預測能力,從而能夠更好地捕捉別構口袋的信息。PDB 6K1S和6QRG是PDBBind測試集中的兩個代表案例。PRMT5蛋白擁有多個結合口袋,其新發(fā)布的PDB共晶結構6K1S發(fā)現(xiàn)了一個全新結合位點。TBind雖然從未見過結合該別構口袋的小分子,但是仍然正確的定位到了真實結合的位置。而其他方法則更傾向于常見的正構位點。在第二個案例中,TrmD蛋白和其配體小分子皆與訓練集不同源,TBind依舊可以正確找到結合位點,而傳統(tǒng)分子對接方法無法找到正確的結合口袋[2]。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元

?

開源版本+商業(yè)版本

滿足不同需求

?

目前研究團隊在GitHub發(fā)布了免費開源測試版本TBind v0.5.0,并提供了案例展示,點擊文末“閱讀原文”。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復合物結構預測新紀元

為方便大家快速嘗鮮,團隊提供了一個簡單使用案例,只需要輸入蛋白結構和分子序列表達式,即可以進行深度分子對接。(詳情請見TBind Github)??

TBind商業(yè)版本v1.0.1已經(jīng)部署于星藥科技打造新一代智能計算平臺M1,可在短時間內完成億級超高通量藥物虛擬篩選,賦能苗頭化合物發(fā)現(xiàn)、先導化合物優(yōu)化等藥物研發(fā)多個關鍵環(huán)節(jié)。商業(yè)合作伙伴請聯(lián)系m1@galixir.com獲取更多使用信息。

?

泛化TBind能力

或可帶來更多驚喜

?

TBind方法不僅可以應用在小分子和蛋白結合領域,也可以泛化到蛋白復合物結合、核酸蛋白結合等分子間相互作用問題上。星藥科技將繼續(xù)保持創(chuàng)新精神,將AI技術與藥物實踐場景深度結合,不斷提升預測精度與速度,支持更多的應用場景。

TBind v1.0.1的發(fā)布,標志著星藥科技已具備國際頂尖的小分子蛋白結合預測能力。作為小分子藥物設計的關鍵環(huán)節(jié),TBind已與星藥科技的蛋白結構建模算法[3], 分子設計算法[4,5],性質預測算法[6,7],逆合成分析算法[8,9]及智能計算平臺M1有機結合,配合生物實驗平臺,形成“AI-計算-實驗迭代”三位一體的藥物研發(fā)新范式。星藥科技將繼續(xù)聚焦能為醫(yī)藥產業(yè)帶來更多增益的差異化管線,尤其是未成藥、難成藥靶點開發(fā)項目,高效精準預測分子相互作用,拓展傳統(tǒng)化學的想象空間,探索更多新穎的藥物分子。讓世界遠離病痛,讓新藥觸手可及。

引用

[1]St?rk, Hannes, et al. 'Equibind: Geometric deep learning for drug binding structure prediction.' ICML (2022).

[2]Wei, Lu, et al. “TANKBind: Trigonometry-Aware Neural NetworKs for Drug-Protein Binding Structure Prediction” bioRxiv (2022).

[3]https://mp.weixin.qq.com/s/FR0ZS5NMG-xpzVmgUYAliQ

[4]Yang, Yuyao, et al. 'SyntaLinker: automatic fragment linking with deep conditional transformer neural networks.' Chemical science 11.31 (2020): 8312-8322.

[5]Wang, Jiahao, et al. 'Meta learning for low-resource molecular optimization.' Journal of Chemical Information and Modeling 61.4 (2021): 1627-1636.

[6]Chen, Jianwen, et al. 'Learning Attributed Graph Representations with Communicative Message Passing Transformer.' IJCAI (2021).

[7]Rao, Jiahua, et al. 'Molrep: A deep representation learning library for molecular property prediction.' bioRxiv (2021).

[8]Shuangjia, Zheng, et al. “Deep learning driven biosynthetic pathways navigation for natural products with BioNavi-NP” Nature Communication (2022)

[9]Chen, Binghong, et al. 'Retro*: learning retrosynthetic planning with neural guided A* search.' International Conference on Machine Learning. ICML, 2020.


關于星藥科技


星藥科技(Galixir)成立于2019年,是一家使用尖端人工智能技術賦能藥物研發(fā)的公司。星藥通過使用人工智能的前沿算法,結合計算化學、藥物化學和生物學的工具及經(jīng)驗,全方位攻克小分子藥物早期研發(fā)流程中的疑難問題,快速發(fā)現(xiàn)活性高、成藥性好且結構新穎的候選分子。星藥正在和國內外藥企以及研究機構合作推進多個藥物研發(fā)管線,覆蓋中樞神經(jīng)系統(tǒng)疾病、自體免疫類疾病、腫瘤、呼吸系統(tǒng)疾病等不同疾病領域,作用機制包括抑制劑和激動劑等不同類別。星藥將單個臨床前藥物研發(fā)管線的成本和時間大幅降低和縮短,使得同時儲備多條藥物研發(fā)管線、優(yōu)化整體戰(zhàn)略布局都成為可能。