OptiPrime赋能Prime Editing:David R. Liu的人工智能模型如何提升pegRNA设计与基因治疗效率
2026年2月20日,David R. Liu团队在最新研究《Mechanistic machine learning enables interpretable and generalizable prediction of prime editing outcomes》中,提出了机制驱动型模型 OptiPrime。
OptiPrime是一款基于机制的机器学习框架,旨在将pegRNA优化从随机筛选转向系统化、可解释的工程设计。
不同于以往的黑箱模型(如DeepPrime或PRIDICT系列),OptiPrime强调生物物理过程的显式建模,将PE视为一个动态多步反应体系,从而提升预测的泛化性和透明度。
01
OptiPrime:将Prime Editing拆解为动力学体系
OptiPrime的核心架构源于对PE机制的深度解构。
研究人员将编辑流程分解为几个关键阶段:靶向结合、nCas9切口形成、逆转录、flap整合、异源双链(heteroduplex)生成,以及后续的DNA修复路径。其中,特别突出哺乳动物错配修复(MMR)系统的干扰作用——MMR往往将编辑后的链“修复”回野生型,导致效率下降。
为此,团队开发了HetFormer模块,受AlphaFold的EvoFormer启发,该模块通过Transformer架构表征异源双链与MutS复合物的交互细节,并在6400万条模拟异源双链数据集上进行预训练。

而后,OptiPrime采用伪速率(pseudo-rates)参数化每个子过程,并通过常微分方程(ODE)组模拟时间演化,最终积分出编辑产率。
这种方法论转变,不仅输出一个整体分数,还提供动力学剖面:用户可直观识别瓶颈步骤,例如逆转录速率过低或MMR off-rate过高,从而指导针对性优化。
研究人员将编辑流程分解为几个关键阶段:靶向结合、nCas9切口形成、逆转录、flap整合、异源双链(heteroduplex)生成,以及后续的DNA修复路径。其中,特别突出哺乳动物错配修复(MMR)系统的干扰作用——MMR往往将编辑后的链“修复”回野生型,导致效率下降。
为此,团队开发了HetFormer模块,受AlphaFold的EvoFormer启发,该模块通过Transformer架构表征异源双链与MutS复合物的交互细节,并在6400万条模拟异源双链数据集上进行预训练。

图1.在高维搜索空间中设计优质编辑(PE)策略。
而后,OptiPrime采用伪速率(pseudo-rates)参数化每个子过程,并通过常微分方程(ODE)组模拟时间演化,最终积分出编辑产率。
这种方法论转变,不仅输出一个整体分数,还提供动力学剖面:用户可直观识别瓶颈步骤,例如逆转录速率过低或MMR off-rate过高,从而指导针对性优化。
02
临床相关场景中的性能表现
在性能评估中,OptiPrime展现出显著优势,尤其在临床模拟场景。
针对囊性纤维化(CF)的标志性突变CFTR p.F508del,传统迭代优化仅达11%校正率(使用增强型epegRNA和PE2系统);而OptiPrime仅需评估其优先推荐的8个设计,即可实现22%效率,远超竞争模型的前16位候选(均低于1%)。
图 2. OptiPrime 加速体内致病突变纠正策略的开发。
更具示范意义的是小鼠模型应用:针对Kif1a基因的“leg dragger”突变(导致运动缺陷),团队在小鼠模型中开展了接近临床的优化验证流程。
先通过OptiPrime提名8种silent mutation策略,选出OP-5;
随后围绕该策略微调RTT和PBS组合,仅用15条pegRNA即在杂合胚胎成纤维细胞(MEFs)中实现22%校正。
引入非配对sgRNA(nsgRNA)和PE6变体后,效率进一步提升至64%。最终,采用双腺相关病毒(AAV9)载体递送split PE6b,在注射后4周评估小鼠皮层和脊髓组织,证实了从模型预测到体内验证的闭环可行性。
这一流程将优化周期压缩至模块化环节(合成7-10天、转染3天、测序1天),远低于传统“数百条”筛选规模,体现了OptiPrime在资源受限环境下的实用价值。
03
行业意义:从经验设计到机制工程
从行业角度看,OptiPrime所代表的不仅是一项算法改进,而是设计逻辑的转变。
过去,pegRNA优化更接近经验驱动的手工调试;
如今,通过机制建模与数据训练,优化路径开始呈现工程化特征。
尽管前景广阔,OptiPrime并非完美,研究人员指出:
l 训练数据主要源于合成报告系统(如随机整合的荧光报告基因),因此忽略了内源染色质环境的影响;
l 在高异质性组织(如肿瘤或神经系统)中,预测准确性可能需额外校准;
l 同时,HetFormer的预训练虽高效,但依赖模拟数据,可能引入偏差。
未来,融入多组学数据(如ATAC-seq或ChIP-seq)或实时反馈循环,将进一步强化模型。
总体而言,这项工作预示着基因编辑从“艺术”向“科学工程”的范式跃迁。
在AI与生物学交融的时代,OptiPrime不仅是工具,更是框架:它将机制知识转化为计算速率,推动PE在罕见病治疗(如CF、RDEB)和神经退行性疾病(如Kif1a相关神经病)中的应用。
预计正式发表后,该模型代码公开将引发开源社区的二次开发,助力全球实验室加速从“诊断”到“疗法”的链条。
原文链接:https://www.biorxiv.org/content/10.64898/2026.02.20.706353v1

联系我们
18102225074(微信同号)market@edgene.cn