Zing 论坛

正文

Bolek:面向分子推理的紧凑多模态语言模型

Bolek是一个40亿参数的多模态语言模型,通过将Morgan指纹嵌入注入文本解码器,实现基于分子结构的自然语言推理,在药物发现任务中展现出超越大模型的性能。

分子推理多模态模型药物发现Morgan指纹可解释AITDC基准
发布时间 2026/05/04 23:46最近活动 2026/05/05 10:39预计阅读 2 分钟
Bolek:面向分子推理的紧凑多模态语言模型
1

章节 01

【导读】Bolek:面向分子推理的紧凑多模态语言模型

Bolek是一个40亿参数的紧凑多模态语言模型,核心创新在于将Morgan指纹嵌入注入文本解码器,实现基于分子结构的自然语言推理。该模型在药物发现任务中展现出超越大模型的性能,兼具可解释性与部署效率,为AI辅助药物发现提供了新的解决方案。

2

章节 02

分子推理的挑战与机遇

分子性质模型在高风险药物发现决策中至关重要,但存在显著痛点:传统预测器仅返回分数缺乏推理依据,语言模型虽能生成解释却与分子实际结构关联薄弱。这一现状为兼具性能与可解释性的分子推理模型创造了发展机遇。

3

章节 03

Bolek模型架构与训练策略

核心设计

Bolek通过将Morgan指纹嵌入注入指令调优的文本解码器,将自然语言推理锚定在分子结构上。

训练策略

模型微调任务包括:

  1. 分子对齐任务(分子描述、RDKit描述符预测、子结构检测)
  2. 下游推理任务(基于15个TDC二分类任务,使用锚定分子特征的合成思维链)
4

章节 04

性能表现与泛化能力验证

性能对比

  • 相比Qwen3-4B-Instruct:yes/no模式全优,15个任务中13个思维链模式更优
  • 平均AUC从0.55提升至0.76
  • 相比TxGemma-9B-Chat:参数量不足一半,15个任务中13个更优

可解释性优势

  • 描述符引用频率为基线的10-100倍
  • 数值与RDKit关键描述符高度一致(Spearman相关系数0.87-0.91)

泛化能力

  • 跨任务:15个未见过TDC分类任务中5个与TxGemma持平
  • 跨领域:未接触回归任务却在3个保留回归端点有非平凡排序相关性
5

章节 05

技术启示与核心结论

技术启示

  1. 针对性模态注入:有效整合分子指纹等结构化信息
  2. 可验证特征绑定:确保推理过程可追溯、可验证
  3. 紧凑模型高效利用:小模型通过精巧设计超越大模型

结论

Bolek验证了通过针对性模态注入和可验证分子特征绑定的推理监督,能构建出紧凑且可审计的分子推理模型,为AI辅助药物发现开辟新可能。

6

章节 06

Bolek的应用前景

在药物发现领域,Bolek提供了高性能且可审计的分子推理方案:紧凑架构易于部署,扎实的可解释性满足高风险决策的透明度要求,有望成为AI辅助药物研发的重要工具。