ノーマルビュー

Constructing a Deep Generative Approach for Functional RNA Design

著者: contributor
2024年1月25日 14:00

Constructing a Deep Generative Approach for Functional RNA Design

A collaborative research effort by Professor Hirohide Saito (Department of Life Science Frontiers, CiRA, Kyoto University) and Professor Michiaki Hamada of Waseda University has developed the world’s first deep generative model for RNA design.

While antisense oligonucleotide and aptamer drugs have been on the market since the 2000s, it was not until the development of SARS-CoV2 mRNA vaccines employed to fight against the COVID-19 pandemic that RNA-based therapeutics attracted the attention of the general public.

In contrast, because of their immense potential—not only for medical applications but for basic biological research and biotechnology—RNA engineering has been on the scientific forefront for decades. As such, there is a tremendous interest in revolutionizing current approaches for designing RNA sequences. Remarkably, there is still no versatile computational platform for functional RNA design. Most existing approaches function by reconstructing specific secondary structures or are restricted to particular types of sequences, such as CRISPR gRNA, mRNA, or specific riboswitches. Since these traditional approaches typically depend on predicting and optimizing RNA secondary structures, their accuracy is inherently constrained by structural prediction and optimization algorithms. A novel approach was thus necessary to avoid these limitations and produce powerful and robust computational methods to construct RNA with desired functions.

The research team aimed to avoid these problems by focusing on RNA families, which are sequence groups with thousands of functional RNAs endowed with identical functions. Even with only a few hundred sequences, multiple sequence alignment can create a consensus secondary structure from which new sequences can be generated. As this computational platform theoretically works with any functional RNA families, the researchers named their deep generative model the RNA family sequence Generator, or RfamGen, which is the world’s first deep generative model for functional RNA design.

RfamGen combines two approaches: (1) covariance model and (2) variational autoencoder. The covariance model is a type of statistical framework for RNA alignment and consensus secondary structure that quantitatively evaluates variations of sequence and structure. Meanwhile, the variational autoencoder is a deep generative model with an internal representation called “latent space” to mitigate the complexity associated with exploring the exponentially vast sequence space for the optimization of RNA sequences. By leveraging these two concepts, the researchers generated a system that learns sequence and structural information to explore new RNA designs logically, a feat that has never been done previously.

The team first compared RfamGen, which considers both alignment and secondary structural information, with models accounting for either alignment or secondary structural information, or neither.

For the 18 RNA families tested (each with alignments comprised of at least 10,000 sequences), RfamGen showed a significantly improved ability to generate high-quality RNA sequences. Furthermore, the researchers also tested RfamGen’s capabilities when restricted to a limited number of input sequences from which to learn. Despite only being trained on 500 input sequences, RfamGen successfully generated RNA sequences with high scores, thus demonstrating its efficient generative capacity.

The researchers next trained RfamGen using 629 RNA families in total, each with at least 100 sequences from the Rfam database, and found RfamGen performs substantially better compared to other systems. The researchers, furthermore, evaluated how well generated RNA sequences function by randomly synthesizing several RNA sequences generated from training it with a diversity of self-cleavage ribozymes and from random sampling a covariance model. Notably, the sequences generated by RfamGen showed enzymatic activity, while the randomly sampled sequences did not, indicating RfamGen learned important features essential for functionality from the training data.

Lastly, the research team utilized the ligand-dependent self-cleavage activity of the glmS ribozyme as a comparative platform to benchmark generated sequences by RfamGen to natural glmS sequences. They first trained RfamGen using about 500 natural glmS ribozyme sequences and sampled the “latent space” to obtain 1,000 generated sequences. Using a massively parallel assay, they tested these 1,000 generated sequences, 761 natural sequences in the glmS ribozyme family (RF00234), and 100 sequences with kinetic measurements from a previous report. Not only did the team observe the generated sequences to possess a similar distribution of cleavage kinetics as natural sequences, but remarkably found that generated sequences showed higher cleavage rates compared to natural sequences, thus suggesting RfamGen successfully generates high-quality sequences with comparable or higher efficiency than some natural sequences.

The golden age of RNA-based bioengineering is on the horizon. By constructing this deep generative model for functional RNA design, the research team believes RfamGen will be a fundamental driving force to propel RNA biology into a new era and enable discoveries and applications based on RNA.

Paper Details

Journal:

Nature Methods

Title:

Deep generative design of RNA family sequences

Authors:

Shunsuke Sumi1,2,3, Michiaki Hamada3,4,5,*, Hirohide Saito1,*
* : Corresponding authors

Author Affiliations:

  1. Center for iPS Cell Research and Application (CiRA), Kyoto University
  2. Graduate School of Medicine, Kyoto University
  3. Graduate School of Advanced Science and Engineering, Waseda University
  4. Computational Bio Big-Data Open Innovation Laboratory (CBBD-OIL), National Institute of Advanced Industrial Science and Technology (AIST)
  5. Graduate School of Medicine, Nippon Medical School

doi:

https://doi.org/10.1038/s41952-023-02148-8

深層生成モデル“RfamGen”の開発

著者: contributor
2024年1月25日 13:58

機能性RNAの配列設計を支援する深層生成モデル“RfamGen”の開発

ポイント
特定の機能をもつRNA配列を学習し、同等の機能を発揮する新規の配列を生成する深層生成モデル注1)“RfamGen(アールファムジェン)注2)”を構築した。
変分オートエンコーダ(VAE)注3)にRNAの数理モデルである共分散モデル注4)を統合することで、新規RNA生成の性能を高め、少数データでも安定的な性能を実現した。
RfamGenは入力データの特徴を捉えながら情報を集約しており、RNA設計のカスタマイズに有用である。
RfamGenによる人工RNAは、学習RNA群と同等の構造と機能を保持し、天然RNAよりも高い機能活性をもつ可能性がある。
創薬や基礎研究におけるRNA設計のコスト削減と高速化につながることが期待される。

1.  要旨

角俊輔 氏(京都大学iPS細胞研究所(CiRA)未来生命科学開拓部門 大学院生、早稲田大学理工学術院 研究室受け入れ)、浜田道昭 教授(早稲田大学理工学術院)、齊藤博英 教授(CiRA同部門)は、目的の機能と構造をもつ人工RNA設計を支援する世界初の深層生成モデル“RfamGen”を開発しました。

RfamGenは、深層生成モデルで広く用いられている手法の一つである変分オートエンコーダ(VAE)と、RNA配列と二次構造注5)の情報から機能性RNAを分類することのできる共分散モデルを組み合わせたもので、特定の機能と構造の特徴をもつRNA群の特徴を学習し、人工配列を生成することができます。

研究グループは、RfamGenが学習したRNA群と相同な構造と機能をもつRNA配列が安定的に生成できることをコンピュータ上の解析と生化学実験の両方で確認しました。また、このRfamGenの性能は、深層生成モデルに共分散モデルを適用した結果であることがわかりました。さらに、RfamGenによる生成配列のRNAを大規模に合成し、網羅的にその活性を検証したところ、生成配列のRNAは天然のRNAよりも高い活性を示す傾向もみられました。

RfamGenによる学習結果を調べたところ、入力データのRNA群の二次構造や機能性のモチーフなどのバリエーションを、入力データの特徴の分布として効果的に集約していました。これにより、研究者が利用したいRNAの特徴をカスタマイズして、配列を生成することが容易になります。

RfamGenにより人工知能支援型のRNA設計が可能となることで、従来のRNA設計と比較し、開発コスト削減と高速化が実現し、核酸医薬や遺伝子治療などのRNA創薬の研究開発に貢献することが期待されます。

この研究成果は、2024年1月18日に英科学誌「Nature Methods」で公開されました。

2. 研究の背景

RNA分子は、遺伝子の転写調節や酵素活性など、その配列に応じてさまざまな機能を発揮し、基礎研究から医療まで幅広い場面で利用されています。しかし、利用目的に適した機能をもつRNAの塩基配列を設計することは高度な専門性と労力を要するため、RNA配列の特徴を適切に捉えて、機能性RNAを効率的よく設計できる、コンピュータを活用した手法の開発が期待されています。

これまでに機能性RNAの設計法として、RNA逆フォールディング注6)が主に研究されています。しかし、この手法には、手法の性質上、その正確性や汎用性にいくつか課題がありました。今回、研究グループは、RNAの配列と二次構造を数理的に記述できる共分散モデルとVAEを統合した機能性RNA生成のための世界初の深層生成モデルRfamGenを開発しました。

共分散モデルは、配列から特定の二次構造を検出し、幅広い種類のRNAをRNAファミリーとして分類でき、ゲノム配列から多くの機能性RNAを発見することに長年使われてきました。これまでに人工RNAの設計に共分散モデルが活用された例はありませんでしたが、研究グループはRNA分類に有用な共分散モデルを利用することで、従来の技術的課題を解決することができるのではないかと考えました。

3. 研究結果

1) RNAファミリー配列を設計する深層生成モデルRfamGen

RfamGenは、機能性RNAの生成性能を高めるため、VAEにRNAの分類に用いられる共分散モデルを統合しています(図1)。

共分散モデルは、RNAの配列と二次構造に基づき、複数のRNA配列どうしを互いに揃うように並べること(マルチプルアラインメント)ができます。RfamGenでは、はじめに目的の機能をもつ既存のRNA配列群を用意し、これを一つのRNAファミリーと見立てて、それぞれの配列に対して共分散モデルによるアラインメントを行います(図1左)。

RNA群のアライメント結果を、VAEの入力データとして使用します。VAEでは、入力したデータ群の特徴を学習し、入力データの特徴を確率分布として表現する「潜在空間」を構築します。RfamGenでは、RNAファミリーとみなしたRNA群の特徴を確率分布として表現する潜在空間が構築されます(図1中央)。

この潜在空間から出力されるデータは、入力に用いたRNA群の共分散モデルによる特徴を示すように生成されます。出力データを共分散モデルを介して配列に再構築することで、最終的に目的の機能を獲得した人工RNA配列を得ることができます(図1右)。

図1 RfamGenの概要

2) 共分散モデルは深層生成モデルの性能と安定性を高める

RfamGenは共分散モデルを利用することで、アライメントと二次構造を学習します。それぞれの要素が生成能力にどのように関わるかを検証するため、比較対象として次の3種のモデルを用意しました。

①   共分散モデルによる入力データに含まれるアラインメントの情報を利用する深層生成モデル(GCVAE)

②   共分散モデルによる入力データに含まれる二次構造の情報を利用する深層生成モデル

③   二次構造とアラインメントの情報をいずれも利用しない深層生成モデル

これら3種の深層生成モデルとRfamGenに、既知のRNAファミリー配列を学習させ、ランダムに1,000の配列を生成させました。そのうえで、学習に用いたRNAファミリーに共通の構造とどの程度、相同性をもつかをコンピュータ上で計算し比較しました。その結果、RfamGenが最も良いスコアを示すことがわかりました。

次に、学習に用いるRNA配列群のサンプル数の増減によりスコアがどのように変動するかについて研究グループは検証しました。まず、RfamGenに次いで良いスコアを出したアラインメント情報のみを利用する深層生成モデル(GCVAE)を比較対象としてRfamGenを検討した結果、多くの場合でRfamGenがGCVAEよりも高スコアを取ること、そして、サンプル数が少ない場合でもRfamGenの生成能力が安定して発揮されることが示唆されました(図2)。

これらの結果から、二次構造とアラインメント両方の学習が重要であり、共分散モデルを深層生成モデルと組み合わせることで、品質の高い人工RNA配列を安定的に生成できることが示唆されました。

図2 サンプル数による生成性能の変動
表の縦軸 Bit Score:RNAファミリー配列らしさ

3) RfamGenによる潜在空間の学習

次に、VAEの潜在空間が、学習したRNA配列の特徴を的確に反映したものとなっているかを調べました。その結果、潜在空間を二次元に可視化したところ、RNAの二次構造にみられる多型領域や、標的タンパク質に結合する配列 (モチーフ)など、入力データであるRNA配列の特徴の分布が、潜在空間に効果的に集約されていることがわかりました(図3)。このことから、RfamGenは、人工RNA設計支援ツールとして有用な、研究者が目的の機能と構造をもつ配列をより詳細にカスタマイズできる性能ももつことが示されました。

図3 潜在空間における配列情報の効果的な集約

4) RfamGenは高確率に活性配列を生成し、高活性を示す傾向がある

さらに、RfamGenを用いた人工RNAの性能を大規模な生化学実験によって評価しました。研究グループは、RNA分子のうち自己切断という酵素活性をもつ数百のRNA酵素(リボザイム)の配列情報を既存のデータベースから取得し、RfamGenの学習に使用しました。その結果、RfamGenから生成された配列が、実際に天然のRNAと相同な構造(図4左)と酵素活性をもつことがわかりました。この結果から、少数のデータで学習した場合も、RfamGenが期待した配列を生成できることを実験によって確認しました。

また、低分子に結合することで自己のRNA配列を切断する活性をもつRNA酵素であるglmSリボザイムを例に、RfamGenにより新規に1,000の配列を生成し、大規模に生成RNA配列の網羅的解析を行いました。その結果興味深いことに、RfamGenは酵素活性の高い配列を高確率に生成できることがわかりました(図4右)。

図4 RfamGen生成配列の構造と機能の評価
左:二次構造が相同な生成配列と天然配列
右:酵素活性の性能分布の比較(オレンジ:生成配列群、灰色:天然配列群)

4. まとめと展望

本研究では、RNA分類に利用される共分散モデルと深層生成モデルを統合し、人工RNA配列設計支援に用いることのできるRfamGenを構築しました。さらに、コンピュータ上と実験による性能評価によって、少数の入力データで学習した場合でも十分な性能が期待できることや、研究者が生成配列を詳細にカスタマイズ可能であること、入力データよりも高性能な人工RNA配列も生成しうることなど、RfamGenの有用性を示しました。今後、RfamGenを活用して、人工RNA設計を低コスト化、高速化し、生物学や医学など幅広い領域でRNAが活用されることに貢献することが期待されます。

5. 論文名と著者

論文名

“Deep generative design of RNA family sequences”
DOI: 10.1038/s41952-023-02148-8

ジャーナル名

Nature Methods

著者

Shunsuke Sumi1,2,3, Michiaki Hamada3,4,5,*, Hirohide Saito1,*
* : 責任著者

著者の所属機関
  1. 京都大学iPS細胞研究所(CiRA)
  2. 京都大学大学院 医学研究科
  3. 早稲田大学理工学術院
  4. 産業技術総合研究所 生体システムビッグデータ解析オープンイノベーションラボラトリ(AIST CBBD-OIL)
  5. 日本医科大学大学院医学研究科

6. 本研究への支援

本研究は、以下の支援を受けて実施されました。

  • 科学技術振興機構(JST) 戦略的創造研究推進事業 CREST「イノベーション創発に資する人工知能基盤技術の創出と統合化」研究領域(研究総括:栄藤稔)「AIアプタマー創薬プロジェクト」(研究代表者:浜田道昭、主たる共同研究者:齊藤博英、グラント番号:JPMJCR21F1)
  • 科学技術振興機構(JST) 戦略的創造研究推進事業 CREST「細胞操作」研究領域(研究総括:宮脇 敦史)「機能性RNA・RNP進化プラットフォームの構築と細胞制御技術の開発」(研究代表者:齊藤博英、主たる共同研究者:足立俊吾、浜田道昭、グラント番号:JPMJCR23B3)
  • 日本学術振興会(JSPS)科学研究費補助金 特別推進研究

7. 用語説明

注1)  深層生成モデル

コンピュータ上の多層化したニューラルネットワークにより情報の処理を行い、学習したデータの特徴をもったデータを新たに生成するモデルのこと。

注2)  RfamGen

開発した深層生成モデルの名称。RNAファミリー(RNA family)配列の生成モデル(generator)であることから“RfamGen”と名付けた。

注3)  変分オートエンコーダ(VAE)

深層生成モデルの手法の一つ。入力データを元にその特徴を確率分布として潜在空間にとらえ、入力データと似たデータを新たに生成(出力)することができる。VAEはVariational Autoencoderの略。

注4)  共分散モデル

RNA配列の相同性を評価するアライメントに用いるモデル。ゲノム中の機能性RNAの探索に長年用いられている。共分散モデルにより、RNA配列は数千のRNAファミリーに分類されている。

注5)  二次構造

1本鎖RNAの配列に応じて局所的に形成される塩基対構造。

注6) RNA逆フォールディング

RNAの構造から配列を計算する方法。配列から構造を計算するフォールディングの逆の流れのため、逆フォールディングと呼ばれる。

「Complex quantum scenarios in waveguide QED」(2024/2/13)

著者: staff
2024年1月23日 12:43

演題:Complex quantum scenarios in waveguide QED

日時:2024年2月13日(火) 16:30―18:10

会場:西早稲田キャンパス 55号館N棟2階 物理応物会議室

講師:Pascazio, Saverio (Professor Bari University, Italy)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へ

主催:先進理工学部 物理学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

「Design and Preparation of Eco-compatible Catalysts for Organic Chemistry」(2024/2/7)

著者: staff
2024年1月23日 12:10

演題:Design and Preparation of Eco-compatible Catalysts for Organic Chemistry

日時:2024年2月7日(水) 16:00-17:40

会場:西早稲田キャンパス 62号館大会議室

講師:Armelle Ouali(CNRS Research director,Institute Charles Gerhardt Montpellier,University of Montpellier)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へお越しください。

主催:先進理工学部 応用化学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

「バクテリオファージ合成改変の20年」(2024/3/23)

著者: staff
2024年1月19日 13:56

演題:バクテリオファージ合成改変の20年

日時:2024年3月23日(土)10:00 – 11:40

会場:オンライン(Zoom)による開催

参加希望者は常田 [email protected] へ連絡

講師:安藤 弘樹(岐阜大学大学院医学系研究科 特任准教授)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へお越しください。

主催:早稲田大学 先進理工学部 生命医科学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

盛山文部科学大臣との意見交換に理工学生5名らが参加-博士人材の活躍促進に向けた取組状況について-

著者: staff
2024年1月17日 14:54

2024年1月12日に、盛山正仁文部科学大臣と田中愛治総長をはじめとする本学関係者との間で、博士人材の活躍促進に向けた取組について意見交換が行われました。理工の博士後期課程に在籍する学生5名も参加し、それぞれ自身の研究・起業状況や今後の展望、各プログラム・支援体制の魅力について発表を行いました。

 詳細はこちらをご覧ください。

 

「モジュラス付きモチーフ理論と最新の進展」(2024/2/28)

著者: staff
2024年1月16日 12:06

演題:モジュラス付きモチーフ理論と最新の進展

日時:2月 28日(水) 14:00-16:00

会場:西早稲田キャンパス 56号館103・104室

講師:宮﨑 弘安(NTT基礎数学研究センタ 研究主任)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へお越しください。

主催:基幹理工学部 数学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

関連リンク:https://sites.google.com/view/daisuuwakate2023

「3次元Fano多様体の分類について」(2024/2/29)

著者: staff
2024年1月16日 11:06

演題:3次元Fano多様体の分類について

日時:2月 29日(木) 14:00-16:00

会場:西早稲田キャンパス 56号館103・104室

講師:髙木 寛通(学習院大学理学部数学科教授)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へお越しください。

主催:基幹理工学部 数学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

関連リンク:https://sites.google.com/view/daisuuwakate2023

「Atomic structures of SWNTs and DWNTs from FC-CVD synthesis」(2024/1/26)

著者: staff
2024年1月11日 15:49

演題:Atomic structures of SWNTs and DWNTs from FC-CVD synthesis

日時:2024年1月26日(金)15:00-16:40

会場:西早稲田キャンパス 55号館S棟610室

講師:Esko I. Kauppinen(Professor Aalto University)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へお越しください。

主催:先進理工学部 応用化学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

(リンク先URL)

https://noda.w.waseda.jp/seminar-j.html

「Smart Soft Materials with Multiscale Architecture and Dynamic Surface Topographies」(2024/1/24)

著者: staff
2024年1月10日 16:44

演題:Smart Soft Materials with Multiscale Architecture and Dynamic Surface Topographies
日時:2024年1月24日(水) 10:40-12:20
会場:西早稲田キャンパス 55号館N棟1階第1会議室
講師:Luyi Sun  Professor (University of Connecticut)/Visiting Professor (Univ of Tokyo)
対象:学部生・大学院生、教職員、学外者、一般の方
参加方法:入場無料、直接会場へ   
主催:基幹理工学部 機械科学・航空宇宙学科
問合せ:早稲田大学 理工センター 総務課
TEL:03-5286-3000

「Some degenerate non local operators: regularity and qualitative properties」(2024/1/27)

著者: staff
2024年1月10日 13:19

演題:Some degenerate non local operators: regularity and qualitative properties

日時:2024年1月27日(土) 16:10―17:50

会場:西早稲田キャンパス 55号館N棟1階第2会議室

講師:Isabeau Birindelli (full professor at Sapienza University of Roma)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へ

主催:先進理工学部 応用用物理学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

「芳香族アセチレンからの共役ポリマーの合成と機能設計」(2024/1/19)

著者: staff
2023年12月28日 14:42

演題:芳香族アセチレンからの共役ポリマーの合成と機能設計

日時:2024年1月19日(金) 16:00-17:40

会場:西早稲田キャンパス 55号館S棟510室

講師:金子 隆司(新潟大学教授)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へお越しください。

主催:先進理工学部 応用化学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

2024年度 社会文化領域コース 進入説明会(1/11オンライン実施・要事前登録)のご案内

著者: staff
2023年12月15日 17:22

総合機械工学科向けの社会文化領域コース進入説明会を、2024年1月11日 (木) にオンラインで開催します。関心のある学生は、以下のポスターおよび社会文化領域ウェブサイト上の情報をよく確認し、必要な手続きをとってください。

「Chemical modification revives nitroxide radicals in catalysis and energy storage」(2024/1/22)

著者: staff
2023年12月15日 16:07

演題:Chemical modification revives nitroxide radicals in catalysis and energy storage

日時:2024年1月22日(月)10:00-11:40

会場:西早稲田キャンパス 55号館S棟610教室

講師:Zhongfan Jia(フリンダース大学准教授)

対象:学部生・大学院生、教職員、学外者、一般の方

参加方法:入場無料、直接会場へお越しください。

主催:先進理工学部 応用化学科

問合せ:早稲田大学 理工センター 総務課

TEL:03-5286-3000

❌