OptiPrime赋能Prime Editing：David R. Liu的人工智能模型如何提升pegRNA设计与基因治疗效率

AI驱动的Prime Editing优化新纪元：从“工具创新阶段”走向“工程优化阶段”

2026年2月20日，David R. Liu团队在最新研究《Mechanistic machine learning enables interpretable and generalizable prediction of prime editing outcomes》中，提出了机制驱动型模型 OptiPrime。

OptiPrime是一款基于机制的机器学习框架，旨在将pegRNA优化从随机筛选转向系统化、可解释的工程设计。

不同于以往的黑箱模型（如DeepPrime或PRIDICT系列），OptiPrime强调生物物理过程的显式建模，将PE视为一个动态多步反应体系，从而提升预测的泛化性和透明度。

OptiPrime：将Prime Editing拆解为动力学体系

OptiPrime的核心架构源于对PE机制的深度解构。

研究人员将编辑流程分解为几个关键阶段：靶向结合、nCas9切口形成、逆转录、flap整合、异源双链（heteroduplex）生成，以及后续的DNA修复路径。其中，特别突出哺乳动物错配修复（MMR）系统的干扰作用——MMR往往将编辑后的链“修复”回野生型，导致效率下降。

为此，团队开发了HetFormer模块，受AlphaFold的EvoFormer启发，该模块通过Transformer架构表征异源双链与MutS复合物的交互细节，并在6400万条模拟异源双链数据集上进行预训练。

图1.在高维搜索空间中设计优质编辑（PE）策略。

而后，OptiPrime采用伪速率（pseudo-rates）参数化每个子过程，并通过常微分方程（ODE）组模拟时间演化，最终积分出编辑产率。

这种方法论转变，不仅输出一个整体分数，还提供动力学剖面：用户可直观识别瓶颈步骤，例如逆转录速率过低或MMR off-rate过高，从而指导针对性优化。

临床相关场景中的性能表现

在性能评估中，OptiPrime展现出显著优势，尤其在临床模拟场景。

针对囊性纤维化（CF）的标志性突变CFTR p.F508del，传统迭代优化仅达11%校正率（使用增强型epegRNA和PE2系统）；而OptiPrime仅需评估其优先推荐的8个设计，即可实现22%效率，远超竞争模型的前16位候选（均低于1%）。

图 2. OptiPrime 加速体内致病突变纠正策略的开发。

更具示范意义的是小鼠模型应用：针对Kif1a基因的“leg dragger”突变（导致运动缺陷），团队在小鼠模型中开展了接近临床的优化验证流程。

先通过OptiPrime提名8种silent mutation策略，选出OP-5；
随后围绕该策略微调RTT和PBS组合，仅用15条pegRNA即在杂合胚胎成纤维细胞（MEFs）中实现22%校正。

引入非配对sgRNA（nsgRNA）和PE6变体后，效率进一步提升至64%。最终，采用双腺相关病毒（AAV9）载体递送split PE6b，在注射后4周评估小鼠皮层和脊髓组织，证实了从模型预测到体内验证的闭环可行性。

这一流程将优化周期压缩至模块化环节（合成7-10天、转染3天、测序1天），远低于传统“数百条”筛选规模，体现了OptiPrime在资源受限环境下的实用价值。

行业意义：从经验设计到机制工程

从行业角度看，OptiPrime所代表的不仅是一项算法改进，而是设计逻辑的转变。

过去，pegRNA优化更接近经验驱动的手工调试；
如今，通过机制建模与数据训练，优化路径开始呈现工程化特征。

尽管前景广阔，OptiPrime并非完美，研究人员指出：
l 训练数据主要源于合成报告系统（如随机整合的荧光报告基因），因此忽略了内源染色质环境的影响；
l 在高异质性组织（如肿瘤或神经系统）中，预测准确性可能需额外校准；
l 同时，HetFormer的预训练虽高效，但依赖模拟数据，可能引入偏差。

未来，融入多组学数据（如ATAC-seq或ChIP-seq）或实时反馈循环，将进一步强化模型。

总体而言，这项工作预示着基因编辑从“艺术”向“科学工程”的范式跃迁。

在AI与生物学交融的时代，OptiPrime不仅是工具，更是框架：它将机制知识转化为计算速率，推动PE在罕见病治疗（如CF、RDEB）和神经退行性疾病（如Kif1a相关神经病）中的应用。

预计正式发表后，该模型代码公开将引发开源社区的二次开发，助力全球实验室加速从“诊断”到“疗法”的链条。

原文链接：https://www.biorxiv.org/content/10.64898/2026.02.20.706353v1