In silico evolution of protein binders with deep learning models for structure prediction and sequence design

タンパク質-タンパク質相互作用を設計するための計算方法の開発においてかなりの進歩がありましたが、大規模なスクリーニングや成熟を経ずに高親和性バインダーを開発することは依然として困難です。ここでは、深層学習(DL)に基づく構造予測(AlphaFold2)と配列最適化(ProteinMPNN)を繰り返し行うことで、PD-L1アンタゴニスト向けの自動阻害ドメイン(AiDs)を設計するプロテインデザインパイプラインを試験しています。最近の治療法設計の進歩に触発され、プロテアーゼによって条件付きで活性化される自動阻害(あるいはマスク)されたアンタゴニストの形態を作成することを目指しました。23のデノボ設計されたAiDsが、長さやトポロジーが異なり、プロテアーゼ感受性リンカーを介してアンタゴニストに融合され、プロテアーゼ処理の有無でPD-L1への結合が試験されました。9つの融合タンパク質は、PD-L1への条件付き結合を示し、性能が最も良いAiDsが単ドメインタンパク質としてさらに詳細な特性評価の対象となりました。実験的な親和性成熟を行わずに、4つのAiDsが、平衡解離定数(KD)が150nM未満でPD-L1アンタゴニストに結合し、最も低いKDは0.9nMでした。本研究は、DLベースのタンパク質モデリングを用いて高親和性タンパク質バインダーを迅速に生成することが可能であることを示しています。

重要性の声明

タンパク質間相互作用は生物学のほとんどのプロセスにおいて重要であり、タンパク質バインダーを設計するための改善された方法は、新しい研究試薬、診断薬、および治療薬の創出を可能にします。本研究では、タンパク質設計のための深層学習ベースの方法が、大規模なスクリーニングや親和性成熟の必要なしに高親和性タンパク質バインダーを作成できることを示しています。

Introduction

関心のあるタンパク質に結合するように設計されたタンパク質は、研究試薬、診断薬、および治療薬として有用です。過去15年間で、計算タンパク質設計はタンパク質バインダーを設計するための効果的なアプローチとして台頭してきました(1-4)。ごく最近まで、これらの方法は、異なる配列や構造の相対的な好ましさが、ファンデルワールス力や水素結合などの物理現象をモデル化したエネルギー関数で評価されるタンパク質の原子モデルに基づいていました(5)。これらの方法の魅力的な特徴の1つは、ターゲットタンパク質上で結合部位を指定できることです。ただし、従来のシリコ設計プロセスに従った後、バインダーを特定するために、何百もの設計タンパク質をスクリーニングすることが頻繁に必要であり、さらに平衡解離定数(KD)が100nM以下で結合するように配列を最適化するために実験的親和性成熟を使用することがあります(1, 4, 6)。

過去数年間で、深層学習(DL)の進歩がタンパク質モデリングの計算方法を劇的に向上させました。AlphaFold2(AF2)(7)やRoseTTAFold(8)などの構造予測ネットワークは、配列情報からタンパク質構造を正確に予測するように訓練されており、ProteinMPNN(9)などの設計ネットワークは、与えられたタンパク質バックボーンと互換性のあるアミノ酸配列を特定します(10-12)。

ここでは、予め指定されたターゲットタンパク質に結合するタンパク質のセットを進化させるために、AF2による構造予測と配列多様化を繰り返す遺伝アルゴリズムを用いたEvoProと呼ばれるタンパク質設計パイプラインを紹介します(図1A)。まず、以前に設計された明確な構造モチーフに折り畳まれるようにエンジニアリングされたデノボ設計されたミニプロテイン配列セットが、ターゲットタンパク質配列とともにAlphaFold-Multimer(13)(タンパク質-タンパク質複合体の構造を予測するために訓練されたAF2のバージョン)に渡されます。次に、より好ましい配列を特定するために、予測されたAF2複合構造が、AF2信頼スコアと設計されたバインダーとターゲットタンパク質間のインターフェースコンタクト数から導かれた適応度関数で評価されます(図1A、右)。トップスコアの配列は、ランダムな変異やクロスオーバーを用いて次世代に多様化されるか、または複合体の予測構造を入力としてProteinMPNNを用いて最適化されます(図1A、下)。各世代で、適応度関数は、対応する予測構造がより高いAF2信頼スコアを持ち、ターゲットタンパク質上の所望の表面パッチでより良いインターフェース相互作用を持つ配列を選択します。

EvoProパイプラインの魅力的な特徴は、反復的な構造予測と配列設計を通じて、スカフォールドが結合に有利な変形を起こすことができることです。バックボーンの可塑性とインターフェース設計を組み合わせることは、従来の計算設計方法ではエンコードするのが困難でした。EvoProは、RoseTTAFold(14)を用いた幻覚や、タンパク質を設計するためにAF2とランダム変異を組み合わせたAlphaDesign(15)のような、最近説明された他の設計パイプラインと概念的に似ています。EvoProをこれらの先行研究と区別する要素の一つは、ProteinMPNNとAF2の間の反復的な交換です。AlphaDesignで作成された配列は実験的に検証されていませんが、RoseTTAFoldベースの幻覚は、新しいタンパク質構造、アセンブリ、およびヘリカルペプチドに強く結合するタンパク質を作成するために使用されています(14, 16, 17)。

EvoProの有用性を示すために、プログラム化された死の経路の重要な要素であり、臨床的に関連する免疫療法の標的であるPD-L1の拮抗剤に対するさまざまな自動阻害ドメイン(AiD)を設計しました。T細胞上のPD-1と隣接細胞上のPD-L1との結合は、T細胞の炎症活性をダウンレギュレートし、がん細胞はしばしばPD-L1を過剰発現して抗腫瘍免疫応答を抑制します(18)。PD-1またはPD-L1に結合し、内因性の相互作用をブロックするモノクローナル抗体は、いくつかのタイプのがんに対する成功した治療法ですが、腫瘍微小環境の外でT細胞活性が全身的に増強されるため、毒性の副作用も伴います(19)。PD-1/PD-L1阻害剤の毒性作用を軽減するために臨床試験で試されている有望な戦略の1つは、薬剤の活性が腫瘍微小環境に到達するまでブロックする自動阻害(またはマスキング)ドメイン(AiD)をエンジニアリングすることです(20-22)。このアプローチを使用すると、マスキングドメインは治療抗体の結合ループをブロックし、ターゲットへの親和性を腫瘍濃縮プロテアーゼによってリンカーが切断されるまで弱めます(23, 24)。

本研究では、PD-L1拮抗剤として抗体を使用する代わりに、PD-L1と密接に結合するように親和性成熟されたPD-1の可溶性バリアントを使用しました(KD < 1 nM)(25, 26)。この拮抗剤は、高親和性PD-1として名付けられたHA-PD1であり、動物モデルで腫瘍を縮小することが示されています(25)。HA-PD1の活性を調節して、プロテアーゼで活性化されるまでPD-L1への親和性が弱くなるようにするために、EvoProを使用して、HA-PD1に融合し、PD-1とPD-L1との相互作用をブロックできるような多様な小型ミニプロテインドメインをAiDとして設計しました。HA-PD1とAiDをつなぐリンカーがプロテアーゼ処理で切断されると、PD-L1への結合が回復します。さらに、別々のドメインとして発現したいくつかの組換えAiDは、HA-PD1にKD値が150 nM未満で結合します。

全体として、これらの結果は、EvoProが高親和性タンパク質結合因子を設計するための効果的な方法であることを示しています。

結果

EvoProアーキテクチャ

EvoProパイプラインでは、AF2による構造予測とProteinMPNNによる配列設計を繰り返し行うことで、配列-構造空間の好ましい領域を特定します。AF2の実行時間を最適化したプロトコルを使用しており、構造予測が数分ではなく5~10秒で行えます(方法参照)。ProteinMPNNは生成されたシーケンスごとに約1秒で動作するため、高スループットで使用するための実行時間最適化は行いません。したがって、EvoProの各イテレーションでは、数分で多くのシーケンスの構造を予測できます。

各EvoProトラジェクトリーでは、最良(つまり、低い)フィットネススコアを持つシーケンスを選択・進化させることで、事前に定義された設計要件を満たそうと試みます(図1A)。バインダー設計用のEvoProを使用するために、インターフェースの品質を表すスコア要素(「配置信頼度」)、バインダーの折りたたみ安定性(「折りたたみ信頼度」)、および結合状態と非結合状態のバインダーの立体構造の差(「立体構造安定性」)を組み込みました(図1A、右)。特筆すべきは、他の設計問題に対して、代替的なスコア用語を実装・組み合わせることができ、現在さらに検討中です。

さまざまなプールサイズ(つまり、集団内のアミノ酸配列の数)および配列空間のサンプリングスキームを用いたベンチマークシミュレーションを実行しました(図1B)。プールサイズが小さいトラジェクトリーでは、望ましいフィットネススコアを持つ良い設計を一貫して生成することができず、しばしば局所的なフィットネス最小値に陥ります。プールサイズを大きくすると、一般的にフィットネススコアが低くなりますが、各シーケンスの構造を予測する必要があるため、計算コストも高くなります。

各世代で、EvoProはランダム変異、交叉、またはProteinMPNNを用いた最適化を通じて、最高得点のシーケンスに変異を導入します(図1A、下)。ProteinMPNNを使用する場合、バインダー:HA-PD1複合体のAF2予測モデルが入力として使用され、バインダー内のすべての残基位置で変異が許可されます。プール補充ステップでProteinMPNNを組み込むことで、トラジェクトリーごとの全体的な最小フィットネススコアが大幅に低下します(図1B、下)。PD-L1アンタゴニストの自動阻害ドメインの設計には、プールを補充するために10イテレーションごとにProteinMPNNを使用しました。ただし、後のベンチマークでは、ProteinMPNNをさらに頻繁に使用すると、全体的なフィットネススコアがさらに低くなることが示されました。

AlphaFold2(AF2)

複数のGPUで複数のシーケンスを並行して実行する配布スクリプトを使用して、AF2のローカルインストールを最適化しています。GPUを使用し、MMseqs2ベースの多重配列アラインメント(MSA)とテンプレート生成を使用しても、シングルシーケンス予測のためのAF2の実行時間は数十分です(34)。高スループット構造予測をより実現可能にするために、この実行時間を短縮するために、設計シミュレーション全体で変化しないターゲットタンパク質の事前計算されたMSAを提供し、ミニプロテインのスキャフォールドに空のMSAを使用することで、MSA計算ステップを除去します。以前の研究では、AF2やRoseTTAFoldのような構造予測モデルが、MSAなしで小さな新規タンパク質の構造を正確に予測できることが示されています(14)。MSA生成ステップを削除すると、予測ごとの時間が約5分に短縮されます。この中で、AF2モデルのコンパイルステップにほとんどの時間が費やされます。そこで、AF2を1回だけコンパイルし、次のシーケンスが通過するのを待つGPU上でコンパイルした状態に保つ方法を組み込みます。シングルコンパイルステップが約300秒かかった後、AF2を通じて多量体シーケンスを1つ通すだけで、5~10秒しかかかりません。

遺伝的アルゴリズムの各反復で、集団のシーケンスがAF2を通過し、信頼性メトリクスなどのAF2出力とともに予測構造が収集され、スコアリングに使用されます。設計シミュレーションでは、ミニプロテインのシーケンスをモノマーとして、またHA-PD1と複合体としてAF2を通過させ、両方の予測をスコアリングに使用します。

ProteinMPNN

プールの新しいシーケンスを10回の反復ごとに生成するために、ProteinMPNNのローカルインストールを使用します。ProteinMPNNはシーケンスごとに約1秒で実行されるため、高スループットで実行するためにさらなる実行時間最適化は行いません。集団内の各シーケンスのAF2予測から得られたPDB形式の文字列をバックボーン入力として使用し、サンプリング温度0.1を使用してProteinMPNNでPDBごとに1つの新しいシーケンスが予測されます。

EvoPro

EvoProパイプラインは、Python 3.8で記述された遺伝アルゴリズムベースのタンパク質最適化フレームワークで、スコアリングステップ中にAF2と連携し、ProteinMPNNを使用してシーケンス空間をサンプリングします。

 

コメント