論文のリンク
https://arxiv.org/abs/2206.01729
要旨
分子コンフォーマー生成は、計算化学における基本的なタスクです。いくつかの機械学習アプローチが開発されていますが、いずれも最先端の化学情報学の方法を上回ることはありません。我々は、トーション角空間で操作する新たな拡散フレームワークである、トーショナル拡散を提案します。これは、高次トーラス上の拡散過程と外部から内部へのスコアモデルによって行われます。標準的な薬剤様分子のベンチマークにおいて、トーショナル拡散は、RMSDと化学的特性の両面で、機械学習と化学情報学の方法に比べて優れたコンフォーマーアンサンブルを生成し、以前の拡散ベースのモデルよりも桁違いに高速です。さらに、我々のモデルは正確な尤度を提供し、これを用いて初めて一般化可能なボルツマンジェネレータを構築します。コードはhttps://github.com/gcorso/torsional-diffusion で入手できます。
序論
分子の多くの性質は、3D空間で採用される低エネルギー構造のセット、すなわちコンフォーマーによって決定されます。したがって、コンフォーマー生成は計算化学 [Hawkins, 2017] の基本的な問題であり、機械学習においても注目が集まっている分野です。従来のコンフォーマー生成アプローチには、精度は高いが遅いメタダイナミクスベースの方法 [Pracht et al., 2020] と、速いが精度が低い化学情報学ベースの方法 [Hawkins et al., 2010, Riniker and Landrum, 2015] があります。したがって、高精度と高速サンプリングを組み合わせるディープ生成モデルの開発に関心が高まっています。 拡散ベースまたはスコアベースの生成モデル [Ho et al., 2020, Song et al., 2021] は、有望な生成モデルのクラスであり、いくつかの異なる形式でコンフォーマー生成に適用されています。これまでのところ、ユークリッド空間での拡散過程が考慮されており、ガウスノイズがデータ座標ごとに独立して注入されます。これは、距離行列 [Shi et al., 2021, Luo et al., 2021] のペアワイズ距離または3Dの原子座標 [Xu et al., 2022] のいずれかです。しかし、これらのモデルは多くのノイズ除去ステップを必要とし、これまでに最良の化学情報学方法を上回ることはありませんでした。 そこで、我々はトーショナル拡散を提案します。これは、コンフォーマー上の拡散過程がトーション角にのみ作用し、他の自由度を固定したままにするものです。これは、分子の柔軟性、およびコンフォーマー生成の困難さが、主にトーショナル自由度にあるため [Axelrod and Gómez-Bombarelli, 2022]、可能で効果的です。特に、結合長と角度は、標準的な化学情報学方法で迅速かつ正確に決定することができます。この洞察を活用することで、サンプル空間の次元が大幅に削減されます。薬剤様分子は、平均してn = 44個の原子を持っており、これは3n次元のユークリッド空間に対応しますが、回転可能な結合のトーション角はm = 7.9個しかありません。このことから、トーショナル拡散アプローチは、分子の構造を生成する際に、対象となる空間の次元を大幅に減らすことができます。これにより、高速で精度の高いコンフォーマー生成が可能となり、計算時間が短縮され、より多くの分子システムを短時間で解析することができます。また、従来の方法に比べて優れた性能を発揮し、新たな機械学習アプローチとして有望視されています。
トーション角座標は、ユークリッド空間ではなく、m次元のトーラスTm(図1、左)を定義します。ただし、トーラス上の次元数と分布は、分子間や同じ分子のトーション空間の定義方法によって異なります。これらの困難を解決するために、我々は外部座標から内部座標へのスコアモデル(図1、右)を開発し、3次元の点群表現をユークリッド空間(外部座標)で入力として受け取り、その分子に固有のトーション空間(内部座標)上のスコアを出力として予測します。そのため、結合に対するトーションスコアを3次元の点群の幾何学的性質として考慮し、SE(3)等価ネットワークを使用して、それぞれの結合に対して直接予測します。
従来の研究とは異なり、我々のモデルは生成されたコンフォーマーの正確な尤度を提供し、サンプルだけでなく、真のエネルギー関数を用いた学習を可能にします。これは、高価な分子動力学シミュレーションやMCMCシミュレーションを行わずに物理システムのボルツマン分布をサンプリングすることを目指す生成モデルであるボルツマンジェネレータの文献と関連しています[Noé et al., 2019, Köhler et al., 2021]。そこで、我々はトーショナル拡散フレームワークの変形として、未知の分子に対する条件付きボルツマン分布を近似的にサンプリングできるトーショナルボルツマンジェネレータを開発します。これは、既存のボルツマンジェネレータとは大きく異なり、それらは訓練された化学システムに特化しています。
主な貢献は以下の通りです。
- 複雑なデータセット上での非ユークリッド拡散の初の実証として、ハイパートーラス上の拡散モデリングによるコンフォーマー生成を定式化し、必要な対称性:SE(3)不変性、トーション定義の不変性、およびパリティ等価性を満たす外部座標から内部座標へのスコアモデルを開発します。
- GEOM-DRUGSデータセット[Axelrod and Gómez-Bombarelli, 2022]で最先端の結果を得て、確立された商用ソフトウェアOMEGA [Hawkins, 2017]を一貫して凌駕する初の方法を提案します。これを、ユークリッド拡散アプローチの最善のものであるGeoDiff [Xu et al., 2022]よりも2桁少ないデノイジングステップを使用して行います。
- トーショナルボルツマンジェネレータを提案します。これは、正規化フローではなく拡散モデルに基づく初のボルツマンジェネレータであり、特定のシステムではなく、分子のクラスに対して有用な初のものです。
背景
拡散生成モデルは、データ分布を伊藤確率微分方程式(SDE)によって記述される前方拡散プロセスの開始分布p0(x)として考えます:
ここで、wはウィーナープロセスであり、f(x, t)、g(t)は選択された関数です。十分に大きなTで、分布pT(x)(事前分布)は、単純なガウス分布に近づきます。事前分布からサンプリングし、逆拡散を解くことで
データ分布p0(x)からのサンプルが得られます [Anderson, 1982, Song et al., 2021]。拡散またはスコアベースの生成モデル[Ho et al., 2020, Song et al., 2021]は、拡散データのスコア∇x log pt(x)をニューラルネットワークで学習し、逆拡散を近似的に解くことでデータを生成します。拡散データのスコアは、確率フローODE(連続正規化フロー)も定義します。これは、事前分布をデータ分布に決定的に変換するものです[Song et al., 2021]。多くの場合、このフローを利用して、正規化フローの代わりに拡散モデルを使用することができるという洞察を活用し、トーショナルボルツマン生成器でそのようなケースの1つを強調します。
拡散生成モデルは、伝統的にユークリッド空間上のデータ(例えば画像)をモデル化するために使用されてきました。しかし、De Bortoli et al. [2022]は最近、コンパクトなリーマン多様体上のデータ分布に対しても、比較的少ない修正で理論的枠組みが成立することを示しました。我々がトーショナル拡散を定義するために使用するハイパートーラスT mは、そのような多様体の特定のケースです。
画像生成の領域で拡散モデルを改善・加速するためのいくつかの方法[Salimans and Ho, 2022, Vahdat et al, 2021、Nichol and Dhariwal, 2021]が提案されています。これらの中で、最も関連性が高いのは、拡散が線形部分空間に徐々に制限されるサブスペース拡散[Jing et al., 2022]です。トーショナル拡散は、非トーショナルな自由度を固定することによって、ユークリッド拡散を非線形多様体に制限することにより、同様の精神で見ることができます。
分子コンフォマー生成 分子のコンフォマーは、ポテンシャルエネルギー表面の局所最小値に対応する、エネルギー的に有利な3D構造のセットです。金標準とされるコンフォマー生成方法は、CREST[Pracht et al., 2020]のようなメタダイナミクスベースの方法で、ポテンシャルエネルギー表面を探索しながら局所最小値を埋める[Hawkins, 2017]。ただし、これらは、薬物様分子1つあたり平均90コア時間を必要とし[Axelrod and Gómez-Bombarelli, 2022]、ハイスループットアプリケーションに適しているとは考えられていません。化学情報学的方法は、化学的ヒューリスティック、ルール、データベースからの近似を利用して、はるかに高速な生成を実現します[Lagorce et al., 2009, Cole et al., 2018, Miteva et al., 2010, Bolton et al., 2011, Li et al., 2007]。これらは、高度に制約された自由度を容易にモデル化できますが、全エネルギー景観を捉えることができません。最も評価されている方法には、商用ソフトウェアのOMEGA[Hawkins et al., 2010]やオープンソースのRDKit ETKDG[Landrum et al., 2013, Riniker and Landrum, 2015]があります。
コンフォマー生成のための機械学習手法がいくつか開発されています[Xu et al., 2021a,b, Shi et al., 2021, Luo et al., 2021]。その中で最も最近かつ先進的な手法は、GeoMol[Ganea et al., 2021]とGeoDiff[Xu et al., 2022]です。GeoDiffは、コンフォマーを点群x∈ R3nとして扱い、SE(3)等価スコアを学習するユークリッド拡散モデルです。一方、GeoMolは、グラフニューラルネットワークを使用して、1つの順伝播で隣接原子座標とトーション角を確率的シードから予測します。
ボルツマン生成器
物理学や化学では、既知のが未正規化密度であるボルツマン分布p(x)∝e^(-E(x)/kT)から独立したサンプルを生成するという重要な問題があります(これは、コンフォマー生成と関連していますが、コンフォマーは独立したサンプルではなく、ボルツマン分布の局所最小値であるため、明確に区別されます。)。確かな尤度を持つ生成モデル、例えば正規化フローは、このような密度に一致するように訓練されることができ[Noé et al., 2019]、目標分布の近似から独立したサンプルを提供します。このようなボルツマン生成器は、小さな有機分子[Köhler et al., 2021]で高い忠実度を示し、タンパク質のような大規模なシステムにも有用であることが示されています[Noé et al., 2019]。ただし、分子ごとに別々のモデルを訓練しなければならず、正規化フローは、分子に固有の定義を持つ固有座標で動作するため、分子スクリーニングアプリケーションでの既存のボルツマン生成器の有用性が制限されます。
3.6 エネルギーに基づく学習
尤度を計算することにより、エネルギー関数を使用してトーショナル・ディフュージョンモデルをトルク角度に関するボルツマン分布に一致させることができます。概して言うと、通常のスコアマッチング損失を最小化しますが、データサンプルではなくボルツマン分布からのシミュレートされたサンプルを使用します。この手順は、再サンプリングとスコアマッチングという2つの段階で構成されており、学習中に密接に関連しています(アルゴリズム1)。再サンプリング段階では、モデルをボルツマン分布のインポータンスサンプラーとして使用し、命題3を使用して(正規化されていない)トーショナル・ボルツマン密度p˜G(τ | L)を計算します。スコアマッチング段階では、インポータンスウェイトを使用して、p˜G(τ | L)に対する期待値を取るデノイジング・スコアマッチング損失を近似します。モデルがスコアを学習すると、インポータンスサンプラーとしての性能が向上します。
アルゴリズム1: エネルギーに基づく学習エポック 入力: ボルツマン密度p˜, 訓練ペア{(Gi, Li)}i, トーショナル・ディフュージョンモデルq for each (Gi, Li) do サンプルτ1, . . . τK ∼ qGi(τ | Li); for k ← 1 to K do w˜k = ˜pGi(τk | Li)/qGi(τk | Li); p0 ∝ p˜を使ってJDSMを近似する { ( ˜wi, τi)}i; JDSMを最小化;
この学習手順は、既存のボルツマンジェネレータの手順とは大幅に異なります。既存のボルツマンジェネレータは、フローとして学習され、モデル密度に直接依存する損失を伴います。対照的に、我々はモデルをスコアベースのモデルとして学習させますが、学習中および推論中にフローとして使用し、サンプルを生成します。
実験
我々は、生成されたコンフォマーと基準となるコンフォマーをアンサンブルRMSD(セクション4.3)およびプロパティ(セクション4.4)の観点から比較することで、トーショナル・ディフュージョンを評価します。セクション4.1では、まず条件付きモデルpG(τ | L)を学習するために必要な前処理手順について説明します。セクション4.5では、トーショナル・ボルツマン・ジェネレータについて説明します。追加の結果、アブレーション実験を含む、付録Hを参照してください。
4.1 コンフォーマーのマッチング
pG(τ | L)に焦点を当てることで、RDKitを用いてローカル構造L∼pG(L)をサンプリングできると仮定しています。この仮定はRMSDの観点から非常に妥当ですが、RDKitの周辺確率pˆG(L)は、真の確率pG(L)の近似に過ぎません。したがって、真のコンフォマーに基づいてデノイジング・スコアマッチング・ロスで学習すると、テスト時にはpˆG(L)から得られる近似的なローカル構造のみが利用可能であり、分布のシフトが生じます。このシフトがパフォーマンスに大きな悪影響を与えることがわかりました。
そこで、コンフォーマー・マッチングと呼ばれる前処理手順を導入します。簡単に言うと、トレーニング分割のみで、各真のコンフォーマーCを、ローカル構造Lˆ∼pˆG(L)を持ち、Cにできるだけ近い合成コンフォーマーCˆに置き換えます。つまり、RDKitを使用して、たとえば、リサンプラーが完璧であれば、手続きは通常のデノイジング・スコアマッチングに簡略化されます。
表1
GEOM-DRUGSテストセットに対して生成されたコンフォーマーアンサンブルの質を示しています。Coverage(カバレッジ)(%)とAverage Minimum RMSD(AMR)(Å)の観点から評価されています。より上位の手法を区別するために、δ = 0.75 Åのしきい値でカバレッジを計算しています。これは、以前のほとんどの研究で使用されていたδ = 1.25 Åとは異なります。
カバレッジとは、生成されたコンフォーマーアンサンブルが正しいコンフォーマーをどれだけ網羅しているかを示す指標です。カバレッジが高いほど、生成されたアンサンブルが真のコンフォーマーを正確にカバーしていることを意味します。
AMR(Average Minimum RMSD)は、生成されたコンフォーマーと真のコンフォーマーとの間の平均最小ルート平均二乗偏差(RMSD)を示します。RMSDは、2つの構造の類似性を評価するために使用される指標であり、値が小さいほど構造がより類似しています。したがって、AMRが小さいほど、生成されたコンフォーマーが真のコンフォーマーに近いことを意味します。
表1では、各手法(RDKit ETKDG、OMEGA、GeoMol、GeoDiff、およびTorsional Diffusion)のカバレッジとAMR(平均と中央値)を示しています。この表から、Torsional Diffusionが最も高いカバレッジと最も低いAMRを持ち、生成されたコンフォーマーアンサンブルの質が最も優れていることがわかります。
GEOM-DRUGSとは
https://www.nature.com/articles/s41597-022-01288-4
機械学習(ML)は、多くの分子設計タスクにおいて従来のアプローチを上回ります。MLモデルは通常、2D化学グラフまたは単一の3D構造から分子の特性を予測しますが、いずれの表現も分子にアクセス可能な3Dコンフォーマーのアンサンブルを考慮していません。コンフォーマーのアンサンブルを入力として使用することで、特性予測が改善される可能性がありますが、正確なコンフォーマーと実験データで注釈されたグラフを含む大規模なデータセットは存在しません。ここでは、先進的なサンプリングと半経験的密度汎関数理論(DFT)を用いて、45万を超える分子に対して3700万の分子構造を生成します。Geometric Ensemble Of Molecules(GEOM)データセットは、QM9からの133,000種のコンフォーマーと、生物物理学、生理学、物理化学に関連する実験データを持つ317,000種を含みます。また、BACE-1阻害データを持つ1,511種のアンサンブルは、暗黙の水溶媒中で高品質のDFT自由エネルギーでラベル付けされ、さらに534のアンサンブルはDFTで最適化されています。GEOMは、コンフォーマーのアンサンブルから特性を予測するモデルの開発や、3D構造をサンプリングする生成モデルの開発を支援します。
SE(3)不変性とは
モデルが3次元空間における回転と並進の変換に対して不変であるという性質です。SE(3)は特殊ユークリッド群を表し、3次元のリジッドな物体の動きを表現するために使用されます。リジッドな物体とは、その形状が変わらない物体のことです。SE(3)不変性を持つモデルは、物体の位置や向きが変わっても、その物体の特徴を同じように捉えることができます。
噛み砕いた解説: SE(3)不変性とは、物体が空間でどのように動いても、その特徴が変わらないという性質のことです。例えば、部屋の中にある椅子を考えてみましょう。椅子を持ち上げて別の場所に置いたり、回転させたりしても、それはまだ同じ椅子です。SE(3)不変性を持つモデルは、物体がどのように動いても、その特徴を正しく認識できるように設計されています。
パリティ等価性とは
モデルが空間的な反転(鏡像反転)に対して等価であるという性質を指します。言い換えると、モデルは原子座標が鏡像反転された構造でも、その特性を同じように捉えることができます。これは、分子の構造が鏡像反転しても、その化学的性質が同じであることを意味します。パリティ等価性を満たす外部座標から内部座標へのスコアモデルは、鏡像反転された構造に対しても正確に働くことができ、分子の3次元構造に関する正確な予測を行うために重要な性質です。
メタダイナミクスベースの方法とは、分子シミュレーションの分野で、ポテンシャルエネルギー表面上の稀な事象や遷移状態を効率的にサンプリングするために開発されたアルゴリズムです。
メタダイナミクスの「メタ」という言葉は、ギリシャ語の接頭辞「meta-」に由来しており、その意味は「変化」や「超越」です。メタダイナミクス法では、シミュレーション中に系の状態が広い範囲の構成空間を探索し、変化することを目指しています。
メタダイナミクスは、ポテンシャルエネルギー表面にバイアスポテンシャル(追加のエネルギー)を導入することで、系が遷移状態や鞍点を越え、より広範な構成空間を探索できるようになるアルゴリズムです。これにより、系が従来の分子動力学シミュレーションでは十分にサンプリングされないような、高い活性化障壁を持つ遷移状態や稀な事象を効率的に調べることができます。
したがって、「メタ」は、シミュレーションが通常の分子動力学法を超越し、広範囲の構成空間を探索し、変化することを強調するために使用されています。
Pracht et al., 2020の要旨の日本語訳:
我々は、半経験的タイトバインディング法とメタダイナミクス駆動の探索アルゴリズムを組み合わせた、分子化学空間の一部のインシリコサンプリングのための効率的なスキームを提案し、議論します。本研究の焦点は、コンフォーマーに対する量子化学レベルでの適切な熱力学アンサンブルの生成に置かれていますが、プロトン化状態、互変異性、非共有結合複合体の幾何学に対する類似の手順も議論されています。有意にポピュレートされた最小エネルギー構造からなるコンフォーマーションアンサンブルは、通常、スペクトルや巨視的特性の計算などのさらなるDFT計算作業の基礎を形成します。基本的な量子化学法を使用することで、電子効果や結合の切断/形成の可能性が考慮され、候補構造の非常に合理的な初期エネルギーランキングが得られます。低コストの高速量子化学法による巨大な計算速度の向上により、数百の原子(典型的には薬剤サイズの分子)を持つシステムに対しても、全体的に短い計算時間が達成されます。さらに、暗黙の溶媒化モデルを用いたサンプリングや遷移状態、金属、表面、非共有結合複合体に対する拘束コンフォーマルサンプリングなどの特殊なアプリケーションが議論されており、現代の計算化学および創薬において多くの応用が可能となっています。これらの手順は、高速かつ信頼性のあるGFNn-xTB法を利用したCRESTという無料のコンピューターコードに実装されています。
Limitation
セクション4で示されたように、トーショナル拡散はコンフォーマー生成の精度を大幅に向上させ、デノイジングのランタイムを短縮します。しかし、トーショナル拡散にはいくつかの制約があり、このセクションでそれらについて説明します。 コンフォーマー生成 最初の明確な制約は、トーショナル拡散が達成できる誤差は、選択された化学情報学方法による局所構造の品質によって下限が決まることです。付録F.1で説明されているように、これはコンフォーマーマッチング後に得られる平均RMSDに対応し、DRUGS上のRDKit局所構造では0.324Åです。さらに、セクション4.1で議論されている局所構造の分布シフトのため、コンフォーマーマッチング(またはシフトをつなぐ別の方法)が訓練セットを生成するために必要です。ただし、結果として得られるコンフォーマーは(無条件または条件付きの)ポテンシャルエネルギー関数の最小値ではありません。したがって、学習タスクは物理的に解釈しにくくなり、おそらくより困難になります。実際には、訓練と検証のスコアマッチング損失でこれが明確に観察されます。将来の研究で、分子構造のトーショナルな柔軟性の優位性を利用しつつ、独立した成分においてある程度の柔軟性を許容するような方法で、剛直な局所構造の仮定の緩和を探求することになります。
リング
トーショナル拡散によって直接考慮されない分子コンフォメーションの柔軟性の最大の源は、リングコンフォメーションの変動性です。サイクル内の結合におけるトーション角は独立して変化させることができないため、当社のフレームワークはそれらを局所構造の一部として扱います。したがって、トーショナル拡散は、局所構造サンプラーpG(L)がサイクルコンフォメーションを正確にモデル化することに依存しています。これは、多くの薬物様分子に存在する比較的小さなリング(特に芳香族リング)の多くに当てはまりますが、パッカードリング、融合リング、およびより大きなサイクルにはあまり当てはまりません。特に、トーショナル拡散は、既存の化学情報学手法がマクロサイクルと呼ばれる12個以上の原子を持つリングで長年抱えてきた難題に対処していません。マクロサイクルは、薬物探索にいくつかの応用があります [Driggers et al., 2008]。ただし、柔軟性の主要な源に拡散過程を制限するという考え方が、サイクルコンフォメーションの拡散過程を自由トーション角と組み合わせて定義する未来の研究を促すことを期待しています。
補足
トーショナル拡散が局所構造サンプラー pG(L) に依存して、環状構造(リング)のコンフォメーションを正確にモデル化する必要があることを意味しています。しかし、マクロサイクルは芳香環などに比べて例が少なく、珍しいため、学習が十分に正確でない可能性があります。そのため、トーショナル拡散は、特に大きな環状構造に対しては、必ずしも最適な方法ではないかもしれません。
「restricting diffusion processes to the main sources of flexibility」は、拡散プロセスを分子の柔軟性の主要な源に制限するという考え方を指しています。これは、分子の柔軟性が主にトーション角に由来することを考慮し、そのトーション角に沿って拡散プロセスを制限することで、分子構造の探索を効率化しようというアプローチです。この制限により、分子の構造を正確に表現する上で重要な部分に焦点を当てることができ、効率的なモデリングが可能になります。
ただし、トーショナル拡散の現行のフレームワークでは、マクロサイクルなどの大きな環状構造の取り扱いが十分ではないため、今後の研究がサイクルのコンフォメーションと自由トーション角を組み合わせた拡散プロセスを定義することで、これらの問題に対処できることを期待しています。
ボルツマン生成
ボルツマンジェネレータでは、通常、(ユークリッド)コンフォメーション空間全体のボルツマン分布pG(C)をサンプリングすることに興味があります。ただし、セクション3.6で詳述された手順は、与えられた局所構造pG(C | L)に条件付きのボルツマン分布から(重要度加重された)サンプルを生成します。完全なボルツマン分布pG(C)から重要度サンプリングを行うには、局所構造に対しても正確な尤度を提供するモデルpG(L)が必要です。これはRDKitや、私たちの知る限りでは、他の既存のモデルでは実現されておらず、今後の研究において興味深い道です。
タンパク質
タンパク質のコンフォメーションは、しばしばバックボーン二面角(つまり、トーション角)で記述されるため、トーショナル拡散がタンパク質の柔軟性のモデリングに役立つかどうかを検討することは自然です。しかし、本フレームワークをタンパク質や他の高分子に直接適用することは非常に有望ではないと考えられます。トーション座標の小さな変化は、分子の遠くの領域で大きな変位を引き起こすため、トーションスコアへの影響は結合の局所近傍に限定されません。小分子では(GEOM-XL内のものでさえも)、空間的およびグラフ理論的直径が限られているため、これは問題ではありません。ただし、タンパク質では、グラフの直径は配列長の3倍であり、1000を超えることが容易にあります。また、遠く離れた残基間の相互作用は、構造を決定し、柔軟性を制約する上で非常に重要です。トーショナル拡散がタンパク質のモデリングに適したフレームワークではないかもしれませんが、類似したアイデア(つまり、柔軟な自由度に対して適切に選択された拡散)がタンパク質構造の生成モデルに役立つ可能性があり、有望な研究分野であると信じています。
RecallとPrecision
プレシジョンは、生成されたコンフォーマーアンサンブルの精度を評価する指標であり、生成されたコンフォーマーが真のコンフォーマーにどれだけ近いかを測定します。Table 1に示されているプレシジョンのカバレッジは、生成されたアンサンブル内の各コンフォーマーが、所定の閾値(ここではδ=0.75 Å)以内のRMSDで真のコンフォーマーにどれだけ近いかを評価しています。つまり、生成されたコンフォーマーアンサンブル内の55.2%(平均)のコンフォーマーが、真のコンフォーマーに十分に近いと判断されるということです。
リコールとプレシジョンは以下のように計算されます。
- リコール: a. 各真のコンフォーマーについて、生成されたコンフォーマーアンサンブル内で最も近いコンフォーマーを見つけ、そのRMSDを計算します。 b. これらのRMSD値が所定の閾値(ここではδ=0.75 Å)以内である真のコンフォーマーの割合を計算し、カバレッジを求めます。
- プレシジョン: a. 各生成されたコンフォーマーについて、真のコンフォーマーアンサンブル内で最も近いコンフォーマーを見つけ、そのRMSDを計算します。 b. これらのRMSD値が所定の閾値(ここではδ=0.75 Å)以内である生成されたコンフォーマーの割合を計算し、カバレッジを求めます。
リコールは生成されたアンサンブルが真のアンサンブルをどれだけカバーしているかを測定し、プレシジョンは生成されたコンフォーマーが真のコンフォーマーにどれだけ近いかを測定します。このような計算方法により、生成されたコンフォーマーアンサンブルの品質と真のコンフォーマーアンサンブルとの類似性を評価することができます。
コメント