分享

ICLR2021|MolEvol:可解釋的分子進化算法

以特定性質為目標的分子結構優化是藥物發現中的一項重要任務。而多目標的分子結構優化目前仍是一項較為挑戰的任務。本文提出了一種新的多目標分子優化方法——MolEvol,一種類似於“最大期望(EM)算法”的可解釋的進化算法。該算法設計出發點是模仿人類專家對分子進行結構優化的思考過程,包含2個交替步驟:1)在現有分子結構中尋找對其展現性質保羅V8
保羅V8副作用
美國保羅v8官網
保羅V8 ptt
美國保羅生物科技
保羅V8效果
保羅V8真假
保羅V8是什麼
保羅V8成分
保羅V8心得
保羅V8評價
保羅V8用法具有重要影響的子結構(rationales),2)依據這些子結構設計新的性質更好的分子。通過與baseline模型對比,MolEvol在真實世界分子優化問題上展現了優異的表現,總體上比目前最好的模型提升了79%。另外,將生成的分子給予人類專家進行評價,60%的分子被認定為完成了優化目標。代碼已開源:https://github.com/binghong-ml/MolEvol。
本文貢獻
1.針對分子優化問題提出了一種新穎的類EM算法的“進化/解釋”算法;
2.基於信息理論提出了一種新穎的圖解釋算法根據分子性質從分子圖中提取重要子圖;
3.MolEvol優於現有SOTA模型。
問題定義
分子優化問題:從已知的一系列分子出發找到一系列新的分子,其具有比已知分子更好的性質,即:
為了避免生成模型p(g)塌縮到只生成固定的一小部分打分很高分子上,作者額外要求p(g)必須同時具有“新穎性”和“多樣性”,即生成的分子要和參考分子(G_0的某個子集)不相似,且同時各自之間不相似。
當人類專家優化分子時,通常會先尋找對優化目標起到重要作用的子結構,然後基於這些子結構進行新分子的設計,這些子結構稱之為rationales(圖1),可以如下進行定義:
圖1 MolEvol架構概覽。
模型架構
MolEvol的架構圖1所示,生成模型p(g)有兩部分組成,先對p(s)採樣得到rationales s;繼而根據s通過分佈p_theta(g|s)得到g。由此,定義如下:
其中,theta為條件生成模型的參數;p_theta(g|s)實際上是一個基於s的圖完成模型,架構可以任意指定,本文作者使用的是GraphRNN的一個變體,使用ChEMBL進行預訓練。值得注意的是,p(s)並不是一個固定的先驗分佈。而是每輪進化時隨時更新的。另外,為了提高生成分子的多樣性,作者使用p(s)的熵作為正則化項。由此,最終的目標函數為:
Lambda可以控制正則化的強度。
由於分子圖集合G和rationale集合S通常是耦合的,直接優化J(式5)有極大的挑戰性。因此,作者類比EM算法,交替優化p_theta(g|s)和p(s)(算法1):
1.E-step:更新p(s)(3-4行);
2.M-step:優化p_theta(g|s)(5-8行)。
具體來講,在E-step中根據t-1步的p_theta^(t-1)(g|s),更新p(s),使J最大化,即:
這是一個最大熵估計問題,其解析解如下:
其中Z_theta是歸一化項。p^t(s)將會在之後的M-step中用到。然而,直接使用p^t(s)會很困難,所以作者通過採樣得到m個樣本_^m,將其用到M-step中。然而,由於Z_theta難以計算,使得直接的採樣也變得非常困難,而如MCMC方法採樣又因缺乏有效的提議分佈且離散圖空間中缺乏梯度而非常的耗時。為了解決這個問題,作者維護了一個有限的支持集S^t作為提議分佈,支持集通過可解釋性的圖模型得到:
其中G^0通過專家提供得到。S^t作為p^t(s)中的樣本,通過計算(式7)得到未歸一化的概率再重新抽樣,得到的m個樣本_^m最終代表分佈p^t(s)。
關於其中的圖解釋模型,本質為一個子圖提取函數。如圖2,這裡作者使用一個MPN為每個節點輸出一個d維的embedding,再通過一個MLP得到每個節點的概率,使用Gumbel-softmax方式抽樣得到k個節點。最終通過將k個節點的鄰居補齊(如下)得到rationale。
圖2 提取rationale的圖解釋模型
M-step則根據p^t(s)尋找最大化J的theta。此時目標J 的蒙特卡洛近似為:
可以使用REINFORCE最大化上式:
得到t步的theta以後,即可通過補全rationales採樣得到t步分子集合G^t:
此後即可進入下一輪的EM優化。
結果
作者設置了GSK-3beta + JNK3 + QED + SA的多目標優化實驗來評價模型表現,目標函數設置如下:
其中SA需歸一化到0-1。評價結果如表1,所有結果通過生成20k個分子計算得到,qulifiied指上式計算值大於0.5的分子,novel為與參考分子(315個)相似性小於0.4的分子,QNU打分為qualified、novel、unique的分子所佔比例。其中,MCTS、FixM、FixR為消融實驗的結果,分別為將圖解釋模型替換為MCTS、rationale集合為固定集合、固定模型(沒有圖補全步驟)。
表1 評價結果
圖3則展示了生成分子的性質分佈情況。可以看出隨著一輪一輪的迭代,分子的打分越來越高,說明優化取得了效果。同時,生成的分子具有高的性質打分和低的方差。
圖3 生成分子的性質分佈情況
最後,作者尋找了一些化學家來評價生成的分子,在ChEMBL和生成的分子中挑出打分top50的分子、隨機打亂並配對,讓化保羅V8
保羅V8副作用
美國保羅v8官網
保羅V8 ptt
美國保羅生物科技
保羅V8效果
保羅V8真假
保羅V8是什麼
保羅V8成分
保羅V8心得
保羅V8評價
保羅V8用法學家評價每對分子中哪個分子4種性質更好,有30/50個生成分子總體打分高於或等於ChEMBL中分子,4個打分均高於或等於ChEMBL的分子有7/50個,展現了MolEvol強大的分子優化能力。
結論
模仿人類專家優化分子思路的MolEvol很好,本文中提出的圖解釋模型也可以用到其他的模型中去,本文對分子優化問題的研究有多方面的影響。
#美國  #保羅  #性質  #目標  #分子結構 
分類:科技

評論
上一篇
  • 下一篇
  • 更多文章
    載入中... 沒有更多了