# DinoML v2：实验性ML编译器与运行时实验室

> DinoML v2是一个实验性ML编译器/运行时，将Python定义的模型图转换为CPU、CUDA和ROCm目标的独立原生工件，支持追踪、降级、性能分析和量化。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-31T06:48:17.000Z
- 最近活动: 2026-05-31T06:56:42.311Z
- 热度: 163.9
- 关键词: ML编译器, CUDA, ROCm, CUTLASS, 推理优化, 性能分析, GGUF, 量化, 原生工件, AI代理工作流
- 页面链接: https://www.zingnex.cn/forum/thread/dinoml-v2-ml
- Canonical: https://www.zingnex.cn/forum/thread/dinoml-v2-ml
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: hlky
- **来源平台**: GitHub
- **原始标题**: dinoml_v2
- **原始链接**: https://github.com/hlky/dinoml_v2
- **发布时间**: 2026年5月31日

---

## 背景：ML部署的困境

大多数机器学习部署栈迫使开发者在高级 ergonomics 和底层控制之间做出选择。要么使用PyTorch/TensorFlow等框架获得便利的Python接口，要么用CUDA/C++手写内核获得极致性能，但两者难以兼得。

DinoML v2正是针对这一痛点的实验性解决方案——它试图同时保持两者：用Python定义模型，追踪为紧凑可检查的中间表示，降级为独立工件，生成目标特定的原生代码，基于实测性能而非静态启发式选择内核，最终加载运行工件而无需依赖原始Python模型。

---

## 项目状态：活跃的原型实验室

| 领域 | 状态 |
| --- | --- |
| Python追踪前端 | 活跃原型 |
| CPU后端 | 可用测试目标 |
| CUDA后端 | 活跃原型，支持CUTLASS候选 |
| ROCm后端 | 活跃原型，Composable Kernel脚手架 |
| 运行时加载器 | 可用的原生模块/会话API |
| 性能分析/执行计划 | 活跃原型 |
| GGUF量化内核 | 研究/原型 |
| 公共API稳定性 | 不稳定 |

这不是一个 polished 的用户 facing 框架，而是一个编译器/运行时实验室，用于快速构建和测试推理系统想法。

---

## 代理工作流：AI辅助开发的典范

DinoML v2的大部分工作是通过人工指导的代理工作流而非一次性提示会话开发的。该工作流使用仓库本地引导文档、项目记忆、提供商契约、算子准入规则、验证门控和排序工作队列，使自主实现保持有界和可审查。

这些过程文档的精选公开快照位于：https://github.com/hlky/dinoml_v2_agents

这种开发方式本身就是一个重要信号——当AI代理成为开发流程的一等公民时，如何组织人机协作成为项目成功的关键。

---

## 核心设计：从Python到原生工件

### 前端追踪

开发者用Python定义模型，DinoML提供类似PyTorch的API：

```python
import dinoml as dml

class Linear(dml.Module):
    def __init__(self):
        self.weight = dml.Parameter([8, 6], dtype="float32")
        self.bias = dml.Parameter([6], dtype="float32")

    def forward(self, x):
        y = dml.ops.gemm_rrr_bias(x, self.weight, self.bias)
        return dml.ops.output(y, "y")
```

追踪API捕获模型结构、数据类型、形状约束和常量：

```python
batch = dml.Dim("batch", min=1, max=4, typical=3, buckets=(1, 3, 4))
spec = dml.trace(
    Linear(),
    inputs={"x": dml.TensorSpec([batch, 8], "float32")},
    constants=constants,
    name="linear",
)
```

### 编译与降级

编译将追踪得到的spec转换为目标特定的原生工件：

```powershell
python -m dinoml.cli compile examples/cuda_linear.py --target cpu --out build/linear_cpu.dinoml
python -m dinoml.cli compile examples/cuda_linear.py --target cuda --arch sm_86 --out build/linear_cuda.dinoml
python -m dinoml.cli compile examples/cuda_linear.py --target rocm --arch gfx1201 --out build/linear_rocm.dinoml
```

### 运行时执行

加载编译后的工件，创建会话，执行推理：

```python
from dinoml import runtime

module = runtime.load("build/linear_cpu.dinoml")
session = module.create_session()
outputs = session.run_numpy({"x": input_array})
```

---

## 架构解析

```
Python module
  -> trace frontend
  -> DinoML IR
  -> validation and graph passes
  -> target lowering
  -> kernel manifest
  -> generated C++ / CUDA / HIP module
  -> native artifact directory
  -> Python runtime loader
  -> native session execution
```

### 关键组件

- **frontend.py**: 模块、张量、参数和追踪API
- **ir.py**: IR模式、数据类型处理、图哈希、工件元数据
- **passes/**: 验证和转换路径
- **lowering/**: CPU、CUDA、ROCm和算子特定的降级
- **backends/**: 目标注册表和CMake支持的工件构建
- **kernels/**: 内核清单、代码生成计划、性能分析和提供商集成
- **runtime/**: C++运行时ABI和CUDA/ROCm运行时支持
- **kernels/**: 原生CPU、CUDA和ROCm内核库
- **tools/**: CUTLASS/CK代码生成和性能分析辅助工具

---

## 工件布局

编译后的`.dinoml`工件是一个目录，包含原生模块和加载所需的元数据：

```
artifact.dinoml/
  manifest.json          # 工件模式、运行时ABI版本、目标
  graph.dinoir.json      # 计算图IR
  metadata.json          # 元数据
  compile_config.json    # 编译配置
  kernel_manifest.json   # 内核清单
  kernel_codegen_plan.json # 代码生成计划
  constants.bin          # 常量数据
  module.so / module.dll # 原生模块
  lib/                   # 支持库
    libdinoml_runtime.*
    libdinoml_*_kernels.*
```

清单记录工件模式、运行时ABI版本、目标、图哈希、常量加载策略和支持库。运行时在创建会话前检查ABI兼容性。

---

## 内核与性能分析工作

DinoML v2不将每个算子视为单一硬编码实现。对于GPU目标，它可以构建候选集并从基准测试数据中选择实现。

### 当前工作领域

- **CUTLASS候选生成**: CUDA的GEMM/BMM/卷积
- **ROCm Composable Kernel**: GEMM/BMM/卷积候选脚手架
- **形状覆盖支持**: 性能分析动态工作负载
- **执行计划JSON**: 从性能分析运行发出
- **算子级基准套件**: DinoML与PyTorch比较
- **原生运行时基准**: 使用目标适当的计时器

### 性能分析编译

```powershell
python -m dinoml.cli compile examples/cuda_linear.py --target cuda --profile --out build/profiled.dinoml
```

性能分析路径发出引导工件，基准测试支持的候选内核，写入执行计划，然后使用选定的候选重建最终工件。

### 基准测试命令

```powershell
python -m dinoml.cli benchmark-ops cpu --only add --only reduce_sum
python -m dinoml.cli benchmark-ops cuda --only gemm_rrr_bias --jobs 4
python -m dinoml.cli benchmark-torch-ops --device cuda --only gemm_rrr_bias
```

---

## GGUF与量化工作

仓库包含GGUF常量的集成点和ROCm内核的原型，用于融合量化GEMM路径。

这反映了DinoML对边缘部署场景的关注——量化不仅是压缩手段，更是推理性能的关键优化。

---

## 技术亮点

### 多目标支持

从同一Python源代码生成CPU、CUDA、ROCm三种目标的原生代码，体现了ML编译器的核心价值——一次编写，多处运行。

### 性能分析驱动

不是依赖静态启发式选择内核，而是通过实际测量选择最优实现。这种数据驱动的方法更接近生产级推理系统的实际需求。

### 工件化部署

编译结果是一个自包含的目录，包含运行所需的一切。这种设计支持模型的独立分发和版本管理，无需依赖原始Python环境。

### 代理工作流集成

项目本身展示了AI代理如何参与复杂软件的开发——不是替代人类，而是通过结构化流程增强人类能力。

---

## 设计启示

DinoML v2代表了ML系统架构的一个重要探索方向：**编译时优化与运行时灵活性的平衡**。

### 编译器作为基础设施

将ML模型视为编译目标而非框架脚本，开启了深度优化的可能性。形状特化、算子融合、内存规划等优化可以在编译时完成，而非运行时承担开销。

### 性能分析即配置

让编译器根据实际测量数据选择实现，而非硬编码启发式。这种设计使系统能够适应不同的硬件特性和工作负载模式。

### 工件化思维

将编译结果视为可版本化、可分发的工件，而非临时输出。这种思维方式对于生产部署至关重要——它支持可重复的构建、可审计的变更和可靠的回滚。

---

## 结语

DinoML v2是一个值得关注的实验性项目。它不仅提供了一个ML编译器的技术实现，更展示了AI时代软件开发的新范式——人类指导的代理工作流、数据驱动的性能优化、以及编译器思维在ML部署中的应用。

对于关注ML系统架构、推理优化或AI辅助开发的工程师，DinoML v2的代码库和设计文档都是宝贵的学习资源。