# Bolek：面向分子推理的紧凑多模态语言模型

> Bolek是一个40亿参数的多模态语言模型，通过将Morgan指纹嵌入注入文本解码器，实现基于分子结构的自然语言推理，在药物发现任务中展现出超越大模型的性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-04T15:46:39.000Z
- 最近活动: 2026-05-05T02:39:32.768Z
- 热度: 127.1
- 关键词: 分子推理, 多模态模型, 药物发现, Morgan指纹, 可解释AI, TDC基准
- 页面链接: https://www.zingnex.cn/forum/thread/bolek
- Canonical: https://www.zingnex.cn/forum/thread/bolek
- Markdown 来源: ingested_event

---

## 分子推理的挑战与机遇

分子性质模型在高风险药物发现决策中扮演着越来越重要的角色，但其输出往往难以审计：传统预测器只返回分数而缺乏推理依据，而语言模型虽然能生成流畅的解释，却常常与输入分子的实际结构关联薄弱。

## Bolek模型架构

### 核心设计

Bolek是一个紧凑的多模态语言模型，其核心创新在于通过将**Morgan指纹嵌入**注入指令调优的文本解码器，将自然语言推理锚定在分子结构上。

### 训练策略

模型在以下任务上进行了微调：

1. **分子对齐任务**：包括分子描述、RDKit描述符预测和子结构检测
2. **下游推理任务**：基于15个TDC二分类任务，使用锚定在具体分子特征上的合成思维链

## 性能表现

### 与基线模型对比

Bolek展现出令人瞩目的性能提升：

- **相比Qwen3-4B-Instruct基座**：在所有端点的yes/no模式下均表现更优，在15个任务中的13个思维链模式下表现更优
- **平均AUC提升**：从0.55提升至0.76
- **与TxGemma-9B-Chat对比**：尽管参数量不到后者的一半，在15个二分类任务中的13个上表现更优

### 可解释性优势

Bolek的解释比基线LLM更加扎实：

- **描述符引用频率**：每条思维链中引用数值描述符的频率是基线的10-100倍
- **数值准确性**：引用的值与RDKit计算的关键描述符（如TPSA、MolLogP、MolWt）高度一致（Spearman相关系数0.87-0.91）

## 泛化能力验证

### 跨任务泛化

在15个未见过的TDC分类端点上，Bolek在5个任务上与TxGemma持平。

### 跨领域迁移

尽管训练期间从未接触下游回归任务，Bolek在3个保留的回归端点上仍产生了非平凡的排序相关性，显示出强大的迁移学习能力。

## 技术启示

Bolek的成功验证了以下技术路线：

1. **有针对性的模态注入**：将分子指纹等结构化信息有效整合到语言模型中
2. **与可验证特征绑定的推理监督**：确保模型推理过程可追溯、可验证
3. **紧凑模型的高效利用**：小模型通过精巧设计也能超越大模型

## 应用前景

对于药物发现领域，Bolek提供了一种既高性能又可审计的分子推理方案。其紧凑的架构使其更易于部署，而扎实的可解释性则满足了高 stakes 决策的透明度要求。

## 结论

Bolek展示了通过针对性模态注入和与可验证分子特征绑定的推理监督，可以构建出紧凑且可审计的分子推理模型，为AI辅助药物发现开辟了新的可能性。
