当前位置：首页 > news >正文

AI优化mRNA翻译效率：从密码子优化到深度学习驱动的序列设计

news 2026/7/1 2:47:27

如果你关注过mRNA疫苗，可能会有一个疑问：为什么有些疫苗效果显著，而另一些在实验室里看起来很有希望的候选疫苗，最终却因为蛋白质产量太低而失败？这背后一个关键但常被忽视的“翻译瓶颈”问题，正在被AI技术重新定义。

最近，斯坦福大学等机构的一项研究带来了突破性思路。他们开发了一种AI模型，能够精准预测并优化mRNA序列中控制蛋白质翻译效率的关键位点。最令人惊讶的是，实验表明，仅修改mRNA序列中9个特定的核苷酸位点，就能让超过60%原本翻译效率低下的“无用”mRNA“复活”，大幅提升其蛋白质产量。这不仅仅是学术上的进展，它直接指向了下一代疫苗和蛋白质疗法研发的核心痛点：如何高效、可控地生产我们想要的蛋白质。

本文将从开发者和生物信息学实践者的角度，深入拆解这项技术。我们不会停留在新闻简报的层面，而是聚焦于三个核心问题：

技术本质：这个AI模型究竟解决了什么工程问题？它与传统的序列优化方法（如密码子优化）有何本质不同？
实现路径：如果我们想在自己的研究或项目中应用类似思路，需要哪些数据、模型架构和评估流程？
影响与边界：这项技术将如何改变生物医药研发的流程？它目前还存在哪些局限和挑战？

通过本文，你将不仅了解这项前沿研究的核心，更能获得一套可借鉴的、用深度学习解决生物序列设计问题的实战框架。

1. 重新理解“翻译瓶颈”：从黑箱试错到可预测工程

在传统的mRNA疫苗或疗法开发中，科学家设计出编码目标抗原（如新冠病毒的刺突蛋白）的mRNA序列后，将其递送到细胞内，依靠细胞自身的核糖体来翻译生产蛋白质。然而，这个过程效率差异巨大。很多精心设计的mRNA进入细胞后，蛋白质产量却很低，导致免疫效果不佳或生产成本高昂。

过去，提高翻译效率的主流方法是“密码子优化”。即在不改变氨基酸序列的前提下，将mRNA中的稀有密码子替换为宿主细胞（如人类细胞）更偏好的高频密码子。这就像把一份用生僻字写的说明书，改写成常用字，让阅读器（核糖体）读得更顺畅。

但密码子优化有其局限性：

它只是一个粗略的启发式规则，基于全局的密码子使用频率表，无法精细调控翻译的动态过程。
它忽略了mRNA二级结构、局部序列上下文等关键因素。这些因素会严重影响核糖体结合、启动、延伸和终止的每一步。

斯坦福这项研究的突破点在于，它跳出了“优化密码子”的旧范式，转而直接建模并预测控制翻译效率的“顺式作用元件”。你可以把这些元件理解为mRNA序列上的“控制开关”或“交通信号灯”，它们分布在非编码区（UTR）和编码区（CDS）的特定位置，精细地调控着翻译的速率。

这项研究的核心判断是：翻译效率并非由整个序列的“平均质量”决定，而是由少数几个关键位点的状态主导。AI的任务，就是从一个海量的、包含mRNA序列及其对应蛋白质产量的数据集中，学习到这些关键位点的模式，并预测如何修改它们才能最大化产出。

这标志着mRNA设计从“基于经验的试错”进入了“基于AI预测的理性设计”阶段。

2. 核心概念与模型原理拆解

要理解这项技术，我们需要明确几个关键概念，并剖析其AI模型的工作原理。

2.1 关键概念澄清

翻译效率：指单位时间内，一条mRNA分子被翻译成蛋白质的分子数。是衡量mRNA“生产力”的核心指标。
顺式作用元件：位于同一核酸分子（如mRNA）上，能影响该分子功能的特定核酸序列。在翻译中，包括核糖体结合位点、起始密码子周边序列、延伸过程中的“慢速密码子”区域、终止密码子等。
位点：这里指mRNA序列上单个核苷酸（A, U, G, C）的位置。修改9个位点，即改变这9个位置上的碱基种类。
深度学习模型：本研究使用的是一种能够处理序列数据的神经网络，很可能是基于Transformer或卷积神经网络（CNN）的架构，因为它需要理解序列的局部和长程依赖关系。

2.2 模型工作原理：四步流程

我们可以将整个AI驱动的工作流拆解为四个可工程化的步骤：

数据构建与特征工程
- 输入（X）：成千上万条不同的mRNA序列（通常包含5‘ UTR、CDS和3’ UTR）。
- 标签（Y）：每条mRNA序列在细胞内（如通过流式细胞术或荧光报告系统）测量得到的蛋白质表达量（翻译效率）。
- 关键点：数据质量决定模型上限。序列需要具有足够的多样性，表达量的测量需要准确、标准化。
模型训练与特征重要性分析
- 使用深度学习模型（如CNN+Attention）训练一个回归任务：输入mRNA序列，预测其翻译效率。
- 模型训练好后，利用特征重要性分析技术（如集成梯度、注意力权重、SHAP值）来解读模型。分析结果会高亮出序列中对预测结果（即高效率）影响最大的那些核苷酸位点。这步相当于让AI告诉我们：“我认为这几个位置最重要。”
序列优化与生成
- 给定一条目标蛋白的原始低效mRNA序列。
- 基于模型识别出的关键位点规则，使用优化算法（如贪婪搜索、遗传算法、或基于梯度的序列生成）来生成新的候选序列。优化的目标是：在尽可能少改变原序列（维持蛋白结构）的前提下，最大化模型预测的翻译效率。
- 研究中“修改9个位点”就是这个过程的产出：算法找到了性价比最高的9处修改方案。
湿实验验证与迭代
- 将AI设计出的少数几条最优候选序列，合成真正的mRNA，在细胞或动物模型中进行实验验证。
- 将验证得到的真实表达数据反馈回步骤1的数据集，用于重新训练或微调模型，形成闭环，不断提升模型的预测能力和泛化性。

这个流程完美诠释了“AI for Science”的范式：用数据驱动模型发现知识（关键位点），再用知识指导工程实践（序列设计）。

3. 环境准备：复现类似研究的生物信息学基础

如果你想在自己的项目中尝试构建类似的翻译效率预测模型，需要搭建以下环境。请注意，以下版本为通用推荐，具体请根据项目需求调整。

3.1 硬件与操作系统

操作系统：Linux (Ubuntu 20.04/22.04 LTS) 或 macOS。Windows用户建议使用WSL2。
CPU：多核处理器，用于数据预处理。
GPU（强烈推荐）：NVIDIA GPU (RTX 3080/4090 或 Tesla V100/A100)，显存 >= 8GB。深度学习模型训练极度依赖GPU加速。
内存：>= 16GB RAM。
存储：>= 100GB SSD，用于存放数据集和模型。

3.2 软件与依赖

核心是Python科学计算和深度学习生态。

# 1. 创建并激活独立的Python环境（推荐使用conda） conda create -n rna_optimization python=3.9 conda activate rna_optimization # 2. 安装核心深度学习框架 (以PyTorch为例，请根据CUDA版本去官网获取对应命令) # 例如，对于CUDA 11.8 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 3. 安装生物信息学与数据处理库 pip install numpy pandas scipy scikit-learn matplotlib seaborn pip install biopython # 处理生物序列 pip install logomaker # 绘制序列标识图 # 4. 安装序列建模专用库 pip install tensorflow # 可选，用于对比或特定模型 pip install keras pip install transformers # 使用预训练Transformer模型（如DNABERT）时可能需要 # 5. 安装模型可解释性工具 pip install captum # PyTorch模型可解释性库 # 或 pip install shap

3.3 数据获取与准备

公开数据集是研究的起点。你可以从以下来源寻找或构建自己的数据集：

文献补充数据：许多已发表论文会公开其使用的序列和表达量数据。
公共数据库：如NCBI GEO、ArrayExpress，搜索“mRNA translation efficiency”或“ribosome profiling”相关数据集。
合成数据集：使用像MPRA（大规模并行报告基因分析）技术生成的高通量数据。

数据通常需要处理成以下格式的CSV文件：

sequence_id, five_utr, cds, three_utr, translation_efficiency seq_001, “AGCUUA...”, “AUGGCC...”, “UAAUUG...”, 1250.5 seq_002, “GGCAUU...”, “AUGAAA...”, “UAGACG...”, 980.3 ...

4. 核心流程拆解：构建翻译效率预测模型

我们以一个简化的流程，展示如何用PyTorch构建一个基础的CNN模型来预测翻译效率。

4.1 步骤一：数据预处理与编码

将RNA序列（A, U, G, C）转换为模型可读的数字矩阵（one-hot编码）。

# 文件：data_processor.py import numpy as np import pandas as pd from sklearn.model_selection import train_test_split class RNASequenceEncoder: """将RNA序列编码为one-hot向量""" def __init__(self): self.nucleotides = ['A', 'U', 'G', 'C'] self.nuc_to_idx = {nuc: i for i, nuc in enumerate(self.nucleotides)} def encode_sequence(self, seq, max_len=500): """将一条RNA序列编码为one-hot矩阵""" # 初始化一个全零矩阵 (序列长度 x 4) one_hot = np.zeros((max_len, len(self.nucleotides))) for i, nuc in enumerate(seq[:max_len]): # 截断或填充到固定长度 if nuc in self.nuc_to_idx: one_hot[i, self.nuc_to_idx[nuc]] = 1 return one_hot def prepare_dataset(self, df, seq_column='cds', target_column='translation_efficiency'): """准备整个数据集""" X = np.array([self.encode_sequence(seq) for seq in df[seq_column]]) y = df[target_column].values.astype(np.float32) return X, y # 使用示例 encoder = RNASequenceEncoder() df = pd.read_csv('your_rna_data.csv') X, y = encoder.prepare_dataset(df, seq_column='cds') # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) print(f"训练集形状: {X_train.shape}, 测试集形状: {X_test.shape}")

4.2 步骤二：定义深度学习模型

使用一个包含卷积层（捕捉局部模式）和全连接层（进行预测）的简单CNN。

# 文件：model.py import torch import torch.nn as nn import torch.nn.functional as F class TranslationEfficiencyCNN(nn.Module): """用于预测RNA翻译效率的CNN模型""" def __init__(self, seq_len=500, n_channels=4): super(TranslationEfficiencyCNN, self).__init__() # 卷积层：从序列中提取特征 self.conv1 = nn.Conv1d(in_channels=n_channels, out_channels=32, kernel_size=9, padding=4) self.conv2 = nn.Conv1d(in_channels=32, out_channels=64, kernel_size=7, padding=3) self.conv3 = nn.Conv1d(in_channels=64, out_channels=128, kernel_size=5, padding=2) # 池化层：降低维度 self.pool = nn.MaxPool1d(kernel_size=2, stride=2) # 计算经过卷积和池化后的特征向量长度 # 简化计算：seq_len -> pool -> pool -> pool self._feature_dim = self._get_conv_output(seq_len, n_channels) # 全连接层：进行回归预测 self.fc1 = nn.Linear(self._feature_dim, 256) self.fc2 = nn.Linear(256, 128) self.fc3 = nn.Linear(128, 1) # 输出一个标量（翻译效率） # Dropout防止过拟合 self.dropout = nn.Dropout(0.3) def _get_conv_output(self, seq_len, n_channels): """辅助函数，计算卷积层输出展平后的维度""" with torch.no_grad(): dummy_input = torch.zeros(1, n_channels, seq_len) x = self.pool(F.relu(self.conv1(dummy_input))) x = self.pool(F.relu(self.conv2(x))) x = self.pool(F.relu(self.conv3(x))) return int(torch.numel(x)) def forward(self, x): # 输入x形状: (batch_size, n_channels, seq_len) x = self.pool(F.relu(self.conv1(x))) x = self.pool(F.relu(self.conv2(x))) x = self.pool(F.relu(self.conv3(x))) # 展平 x = x.view(x.size(0), -1) # 全连接层 x = F.relu(self.fc1(x)) x = self.dropout(x) x = F.relu(self.fc2(x)) x = self.dropout(x) x = self.fc3(x) # 回归输出，无激活函数 return x.squeeze() # 去掉多余的维度 # 实例化模型 model = TranslationEfficiencyCNN(seq_len=500, n_channels=4) print(f"模型参数量: {sum(p.numel() for p in model.parameters()):,}")

4.3 步骤三：模型训练与评估

设置训练循环、损失函数和优化器。

# 文件：train.py import torch from torch.utils.data import DataLoader, TensorDataset from model import TranslationEfficiencyCNN from data_processor import RNASequenceEncoder import pandas as pd # 1. 准备数据 (假设已有数据) df = pd.read_csv('rna_data.csv') encoder = RNASequenceEncoder() X_np, y_np = encoder.prepare_dataset(df) # 转换为PyTorch张量，并调整维度为 (batch, channel, length) X_tensor = torch.tensor(X_np).float().transpose(1, 2) # (样本数, 4, 序列长) y_tensor = torch.tensor(y_np).float() dataset = TensorDataset(X_tensor, y_tensor) train_loader = DataLoader(dataset, batch_size=32, shuffle=True) # 2. 初始化模型、损失函数和优化器 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = TranslationEfficiencyCNN().to(device) criterion = nn.MSELoss() # 均方误差损失，用于回归问题 optimizer = torch.optim.Adam(model.parameters(), lr=0.001) # 3. 训练循环 num_epochs = 50 for epoch in range(num_epochs): model.train() running_loss = 0.0 for batch_X, batch_y in train_loader: batch_X, batch_y = batch_X.to(device), batch_y.to(device) optimizer.zero_grad() outputs = model(batch_X) loss = criterion(outputs, batch_y) loss.backward() optimizer.step() running_loss += loss.item() * batch_X.size(0) epoch_loss = running_loss / len(dataset) if (epoch + 1) % 10 == 0: print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {epoch_loss:.4f}') print('训练完成！') # 保存模型 torch.save(model.state_dict(), 'translation_efficiency_cnn.pth')

4.4 步骤四：模型解释与关键位点识别

训练完成后，使用可解释性AI方法找出重要位点。

# 文件：interpret.py import torch import captum from captum.attr import IntegratedGradients import numpy as np import matplotlib.pyplot as plt def analyze_important_positions(model, sample_sequence, encoder, device): """ 分析给定序列中哪些位置对预测效率最重要 """ model.eval() # 编码样本序列 sample_encoded = encoder.encode_sequence(sample_sequence) sample_tensor = torch.tensor(sample_encoded).float().transpose(0,1).unsqueeze(0).to(device) # (1, 4, len) # 使用积分梯度法计算特征重要性 ig = IntegratedGradients(model) # 计算每个输入特征（每个位置的4种核苷酸）的贡献度 attributions, delta = ig.attribute(sample_tensor, return_convergence_delta=True, n_steps=50) # attributions形状: (1, 4, seq_len) # 对每个位置，将4种核苷酸的贡献度绝对值求和，得到该位置的总重要性 position_importance = torch.sum(torch.abs(attributions), dim=1).squeeze().cpu().detach().numpy() # 获取最重要的前N个位置 top_n = 10 top_indices = np.argsort(position_importance)[-top_n:][::-1] # 从大到小排序 print(f"序列中最重要的前{top_n}个位置（0-based索引）:") for idx in top_indices: nuc = sample_sequence[idx] if idx < len(sample_sequence) else 'N/A' print(f" 位置 {idx}: 核苷酸 '{nuc}', 重要性分数 {position_importance[idx]:.4f}") # 可视化 plt.figure(figsize=(12, 4)) plt.bar(range(len(position_importance)), position_importance) plt.xlabel('Sequence Position') plt.ylabel('Importance Score') plt.title('Feature Importance per Position (Integrated Gradients)') plt.scatter(top_indices, position_importance[top_indices], color='red', s=100, label='Top Positions', zorder=5) plt.legend() plt.tight_layout() plt.savefig('position_importance.png', dpi=150) plt.show() return top_indices, position_importance # 使用示例 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model.load_state_dict(torch.load('translation_efficiency_cnn.pth', map_location=device)) model.to(device) # 假设有一条低效的序列需要分析 low_efficiency_seq = "AUGCCUAGCUAAUGCGUAUCGAUACGUACGUACGUACGUACGUACGUACGUACGUACGUACGUA" # 示例序列 top_positions, scores = analyze_important_positions(model, low_efficiency_seq, encoder, device)

5. 运行结果与效果验证

成功运行上述代码后，你应该能得到以下输出和结果：

模型训练日志：控制台会打印每个epoch的训练损失，理想情况下损失值应随着训练持续下降并逐渐收敛。

Epoch [10/50], Loss: 850.3241 Epoch [20/50], Loss: 420.1567 Epoch [30/50], Loss: 210.8832 Epoch [40/50], Loss: 105.4416 Epoch [50/50], Loss: 52.7208

模型文件：训练完成后会生成translation_efficiency_cnn.pth文件，保存了模型的权重参数。
关键位点分析输出：当你对一条示例序列运行interpret.py时，控制台会输出类似以下的结果，并生成一张重要性分数分布图。
```
序列中最重要的前10个位置（0-based索引）: 位置 28: 核苷酸 'A', 重要性分数 0.1245 位置 15: 核苷酸 'U', 重要性分数 0.0987 位置 42: 核苷酸 'G', 重要性分数 0.0892 ...
```
如何判断成功？
- 训练成功：损失函数稳定下降，且在独立的验证集上预测值与真实值有较高的相关性（例如，皮尔逊相关系数 > 0.6）。
- 解释成功：analyze_important_positions函数能稳定输出一组位置，并且这些位置在生物学上有一定意义（例如，集中在起始密码子AUG周边、或已知的调控元件区域）。你可以通过改变输入序列，观察重要位置是否随之发生合理变化来验证。

生成优化序列（进阶）：基于识别出的关键位点，你可以编写一个简单的优化算法。例如，对每个重要位置，尝试将其核苷酸替换为其他三种，并用训练好的模型预测新序列的效率，选择预测效率最高的变体。

# 伪代码示例：贪婪搜索优化 def greedy_optimize_sequence(original_seq, important_positions, model, encoder, device): optimized_seq = list(original_seq) for pos in important_positions: best_score = -float('inf') best_nuc = optimized_seq[pos] for nuc in ['A', 'U', 'G', 'C']: if nuc == optimized_seq[pos]: continue test_seq = optimized_seq.copy() test_seq[pos] = nuc test_seq_str = ''.join(test_seq) # 编码并预测 score = model.predict(test_seq_str, encoder, device) # 需要实现predict函数 if score > best_score: best_score = score best_nuc = nuc optimized_seq[pos] = best_nuc print(f"位置 {pos} 优化为 '{best_nuc}', 预测效率提升至 {best_score:.2f}") return ''.join(optimized_seq)

6. 常见问题与排查思路

在实际构建和应用此类模型时，你可能会遇到以下典型问题：

问题现象	可能原因	排查方式	解决方案
模型损失不下降	1. 学习率设置不当。 2. 数据标签噪声过大或未标准化。 3. 模型架构过于简单或复杂，无法捕捉模式。 4. 输入数据编码有误。	1. 检查损失曲线是否震荡或停滞。 2. 可视化部分数据，检查输入(X)和输出(Y)的分布。 3. 使用极简模型（如线性回归）测试，看能否学到东西。	1. 调整学习率（尝试1e-4, 1e-3, 1e-2）。 2. 对标签Y进行标准化（如Z-score）或对数变换。 3. 调整模型深度和宽度，或尝试更先进的架构（如Transformer）。 4. 检查one-hot编码函数，确保序列长度对齐。
模型过拟合（训练集好，测试集差）	1. 训练数据量太少。 2. 模型参数太多。 3. 数据划分不合理，存在信息泄露。	1. 绘制训练和验证损失曲线，观察是否过早分离。 2. 检查模型参数量与数据样本数的比例。	1. 增加数据量（数据增强或收集更多数据）。 2. 增强正则化：增加Dropout率、添加L2权重衰减、使用更早的停止策略。 3. 确保数据划分是随机的，且同源序列不在训练和测试集中同时出现。
特征重要性分析结果无意义或分散	1. 模型本身预测性能差，学到的规律不可靠。 2. 使用的可解释性方法不适合（如梯度饱和）。 3. 序列长度不一致，导致位置错位。	1. 首先评估模型在测试集上的预测精度（如R²分数）。 2. 尝试不同的可解释性方法（如DeepLIFT, SHAP）。 3. 检查所有输入序列是否被填充/截断到相同长度。	1. 优先提升模型预测性能。 2. 结合多种解释方法，寻找共识区域。 3. 对序列进行严格的对齐或长度标准化处理。
优化后的序列在湿实验中无效	1. 模型训练数据与目标应用场景（细胞类型、条件）不匹配。 2. AI只优化了翻译效率，但可能破坏了mRNA稳定性或蛋白折叠。 3. 修改的位点可能涉及其他未知功能。	1. 检查训练数据来源的细胞系与实验细胞系是否一致。 2. 使用辅助工具预测优化后序列的二级结构、自由能变化。 3. 进行更小规模的先导实验验证。	1. 使用与目标场景更相关的数据进行训练或微调模型。 2. 在优化目标中加入多任务约束（如稳定性预测）。 3. 采用更保守的优化策略，每次只改少数几个位点并验证。
GPU内存溢出（OOM）	1. 批次大小（batch size）设置过大。 2. 序列长度或模型参数量过大。	1. 监控`nvidia-smi`命令显示的显存使用情况。 2. 尝试减小batch size（如从32降到16）。	1. 减小batch size。 2. 使用梯度累积技术模拟大batch。 3. 对长序列进行分段处理，或使用更节省内存的模型（如线性注意力）。

7. 最佳实践与工程建议

要将这项技术从实验代码转化为可靠的研发工具，需要遵循以下工程实践：

数据质量高于一切
- 源头把控：尽可能使用高质量、经过严格实验验证的数据集。噪声数据会导致模型学到错误规律。
- 数据拆分：必须严格划分训练集、验证集和测试集。测试集应完全模拟未来要预测的“未知序列”，最好来自独立的研究或实验批次。
- 负样本：数据集中应包含足够多低效率的序列，否则模型无法学习区分好坏。
模型架构选择
- CNN：擅长捕捉局部序列模式（如motif），计算效率高，是很好的起点。
- RNN/LSTM：能处理序列依赖关系，但训练较慢，对长序列可能效果不佳。
- Transformer：当前处理序列的SOTA模型，能建模长程依赖，但需要更多数据和计算资源。可以考虑使用在DNA/RNA数据上预训练的模型（如DNABERT）进行微调。
- 混合模型：CNN提取局部特征，再输入Transformer或全连接层，是常见的有效架构。
可解释性与生物学合理性
- 不要黑箱：务必使用特征重要性分析工具来解读模型。如果AI指出的关键位点与已知生物学知识（如Kozak序列）相符，则模型可信度更高。
- 可视化：绘制注意力权重图、序列标识图，直观展示模型“关注”了哪些区域。
- 假设检验：针对AI预测出的重要位点，设计“突变-验证”实验进行生物学上的确认，这是闭环迭代的关键。
生产环境部署考量
- API服务化：将训练好的模型封装为REST API或GRPC服务，方便湿实验团队随时提交序列进行预测和优化建议。
- 版本控制：对模型、训练数据和预测结果进行严格的版本管理。
- 持续学习：建立管道，将湿实验验证后的新数据（无论成功与否）自动反馈回训练集，定期重新训练模型，使其不断进化。
伦理与安全边界
- 目的正当：此类技术应用于疫苗、治疗性蛋白质等关乎人类健康的领域，必须确保研究目的符合伦理规范。
- 数据安全：如果使用未公开的专有序列数据，需做好数据加密和访问控制。
- 结果审核：AI生成的优化序列必须由资深生物学家进行审核，评估其潜在风险（如免疫原性意外增强、产生新抗原等），绝不能完全自动化决策。

这项由斯坦福大学引领的研究，其深远意义在于它提供了一套全新的方法论：将生物序列的设计问题，转化为一个可被深度学习建模和优化的工程问题。对于开发者和生物信息学家而言，掌握这套方法意味着你不仅能复现“修改9个位点”的神奇效果，更能将其范式迁移到其他生物序列优化问题上，例如增强启动子活性、优化sgRNA效率、设计稳定的酶蛋白等。

下一步，你可以从公开的核糖体图谱数据入手，复现一个基础的预测模型。然后，尝试将其应用到你所关心的特定基因或疫苗抗原序列上。记住，最大的挑战往往不是模型本身，而是获取高质量、标注准确的生物学数据。与实验生物学家的紧密合作，是让AI模型在现实世界中发挥价值的关键。

查看全文

http://www.jsqmd.com/news/1099751/