正文

Bolek：面向分子推理的紧凑多模态语言模型

Bolek是一个40亿参数的多模态语言模型，通过将Morgan指纹嵌入注入文本解码器，实现基于分子结构的自然语言推理，在药物发现任务中展现出超越大模型的性能。

分子推理多模态模型药物发现Morgan指纹可解释AITDC基准

发布时间 2026/05/04 23:46最近活动 2026/05/05 10:39预计阅读 2 分钟

章节 01

【导读】Bolek：面向分子推理的紧凑多模态语言模型

Bolek是一个40亿参数的紧凑多模态语言模型，核心创新在于将Morgan指纹嵌入注入文本解码器，实现基于分子结构的自然语言推理。该模型在药物发现任务中展现出超越大模型的性能，兼具可解释性与部署效率，为AI辅助药物发现提供了新的解决方案。

章节 02

分子推理的挑战与机遇

分子性质模型在高风险药物发现决策中至关重要，但存在显著痛点：传统预测器仅返回分数缺乏推理依据，语言模型虽能生成解释却与分子实际结构关联薄弱。这一现状为兼具性能与可解释性的分子推理模型创造了发展机遇。

章节 03

Bolek模型架构与训练策略

核心设计

Bolek通过将Morgan指纹嵌入注入指令调优的文本解码器，将自然语言推理锚定在分子结构上。

训练策略

模型微调任务包括：

分子对齐任务（分子描述、RDKit描述符预测、子结构检测）
下游推理任务（基于15个TDC二分类任务，使用锚定分子特征的合成思维链）

章节 04

性能表现与泛化能力验证

性能对比

相比Qwen3-4B-Instruct：yes/no模式全优，15个任务中13个思维链模式更优
平均AUC从0.55提升至0.76
相比TxGemma-9B-Chat：参数量不足一半，15个任务中13个更优

可解释性优势

描述符引用频率为基线的10-100倍
数值与RDKit关键描述符高度一致（Spearman相关系数0.87-0.91）

泛化能力

跨任务：15个未见过TDC分类任务中5个与TxGemma持平
跨领域：未接触回归任务却在3个保留回归端点有非平凡排序相关性

章节 05

技术启示与核心结论

技术启示

针对性模态注入：有效整合分子指纹等结构化信息
可验证特征绑定：确保推理过程可追溯、可验证
紧凑模型高效利用：小模型通过精巧设计超越大模型

结论

Bolek验证了通过针对性模态注入和可验证分子特征绑定的推理监督，能构建出紧凑且可审计的分子推理模型，为AI辅助药物发现开辟新可能。

章节 06

Bolek的应用前景

在药物发现领域，Bolek提供了高性能且可审计的分子推理方案：紧凑架构易于部署，扎实的可解释性满足高风险决策的透明度要求，有望成为AI辅助药物研发的重要工具。