Zing 论坛

正文

Mind-Engine:从零构建的粒子神经网络与联觉3D神经元胞自动机

探索两个完全从零构建的原创AI系统——Cognitron粒子神经网络与Morpheus联觉3D神经元胞自动机,无需预训练模型,采用超维计算编码与WebGPU渲染技术。

粒子神经网络神经元胞自动机超维计算联觉生成WebGPU无预训练模型AI架构机器学习
发布时间 2026/04/30 07:42最近活动 2026/04/30 07:47预计阅读 5 分钟
Mind-Engine:从零构建的粒子神经网络与联觉3D神经元胞自动机
1

章节 01

导读 / 主楼:Mind-Engine:从零构建的粒子神经网络与联觉3D神经元胞自动机

Mind-Engine:从零构建的粒子神经网络与联觉3D神经元胞自动机\n\n在当今人工智能领域,绝大多数创新都建立在预训练Transformer模型的基础之上。然而,mind-engine项目选择了一条截然不同的道路——完全拒绝使用任何预训练模型,从零开始构建两个原创AI系统:Cognitron粒子神经网络和Morpheus联觉3D神经元胞自动机。\n\n## 项目背景与核心理念\n\n现代AI的发展依赖于一个有限的预训练模型库。开发者们在这些模型的基础上进行微调、适配和组合,却很少质疑这种依赖关系。mind-engine团队提出了一个根本性的问题:如果我们完全抛弃预训练模型,从零开始构建AI系统,会发生什么?\n\n这个项目的核心理念是探索AI架构的原始可能性。Cognitron和Morpheus代表了两种截然不同的思路:前者将神经元视为三维空间中的自由粒子,后者则将现实视为由细胞规则生长而成,而非由Transformer预测得到。\n\n## Cognitron:粒子神经网络架构\n\nCognitron实现了一种全新的架构——粒子神经网络(Particle Neural Network,PNN)。在这个系统中,每个"神经元"不再是固定的图节点,而是三维空间中具有位置的粒子。网络的连接图在每次前向传播时根据空间邻近性动态重建。\n\n### 核心机制解析\n\nCognitron的工作流程包含几个关键步骤。首先,输入文本通过超维计算(Hyperdimensional Computing,HDC)编码器转换为10000维的双极超向量。这种编码完全基于哈希运算,不依赖任何学习得到的嵌入模型。\n\n随后,超向量通过随机投影映射到三维空间,生成具有位置、速度、质量和电荷属性的粒子。这些粒子构成了网络的"神经元",它们在空间中自由移动,根据物理定律相互作用。\n\n网络的前向传播采用波传播机制。查询从输入粒子开始,波在粒子场中传播4到6跳,根据相似性、邻近性和极性计算能量流。这种推理方式完全不同于传统的神经网络前向传播,更像是一种物理模拟。\n\n训练过程采用粒子梯度下降(Particle Gradient Descent,PGD)算法。这是一种融合了粒子群优化(PSO)和梯度下降的混合方法,粒子根据个体最佳位置、全局最佳位置和梯度信息更新速度和位置。\n\n### 技术实现细节\n\nCognitron的技术栈包括NumPy实现的核心模型,不使用任何机器学习库。超维编码器实现了正交超向量的生成和绑定操作。几何索引采用自定义的暴力搜索实现,不依赖FAISS等近似最近邻库。\n\n前端采用Next.js 16配合React Three Fiber和WebGPU进行渲染,后端使用FastAPI提供推理服务。整个系统可以在浏览器中实时运行,用户可以观察粒子在三维空间中的运动和聚类过程。\n\n## Morpheus:联觉3D神经元胞自动机\n\nMorpheus扩展了Mordvintsev等人的Growing-NCA工作,将其提升到三维空间,并增加了一个前所未有的学习模态:每个细胞的音频频率。这使得网络能够联合生成几何形状、颜色和声音,创造出真正的联觉生成器。\n\n### 架构设计原理\n\nMorpheus从一个种子细胞开始,在32×32×32的三维网格上进行演化。每个细胞具有16通道的状态向量,包括RGB颜色、透明度、音频频率和隐藏状态。\n\n每个时间步的更新过程包括几个阶段。首先,使用固定的Sobel核进行三维感知,提取局部梯度信息。然后,每个细胞通过一个小型MLP(16→96→16)计算状态更新。更新应用残差连接和50%的随机掩码,最后通过透明度池化确定细胞的存活状态。\n\n音频通道的监督通过一个辅助损失实现,该损失将音频频率与颜色色调绑定。这意味着红色细胞会发出一个频段的声波,而蓝色细胞会发出另一个频段的声波,创造出视觉和听觉的联觉对应关系。\n\n### 训练与推理流程\n\nMorpheus的训练在服务器端完成,使用PyTorch张量操作但不加载任何预训练权重。训练目标包括球体、螺旋等几何形状,模型学习从单个种子细胞生长出这些形状。\n\n训练完成后,权重被保存并在浏览器中加载。用户可以选择不同的目标形状,观察细胞从无到有地生长出复杂的三维结构。同时,系统会播放与形状对应的和弦,实现真正的联觉体验。\n\n## 技术栈与项目结构\n\nmind-engine采用现代化的技术栈实现。前端使用Next.js 16配合shadcn/ui组件库,三维渲染采用React Three Fiber和WebGPU计算着色器。音频生成使用Tone.js库。\n\n后端服务采用FastAPI框架,分为Cognitron API和Morpheus API两个独立服务。数据存储使用Supabase,但不使用pgvector扩展,所有向量操作由自定义实现完成。\n\n项目采用monorepo结构,使用Turborepo和pnpm workspaces管理。代码按角色分分支开发,main分支集成所有功能。这种结构支持团队协作,同时保持代码的模块化和可维护性。\n\n## 创新点与研究价值\n\nmind-engine的创新性已经得到 novelty-research agent 的确认。Cognitron的PNN组合(空间神经元+PSO-梯度混合+HDC编码+波推理)在文献中未见发表。Morpheus的音频-细胞对应是神经元胞自动机领域中唯一的新角度。\n\n从研究价值来看,这个项目探索了几条被主流AI研究忽视的路径。超维计算作为一种古老的神经符号方法,在这里被重新激活并与现代深度学习结合。粒子神经网络提供了一种全新的网络拓扑动态化思路。联觉生成则开辟了多模态AI的新方向。\n\n## 使用场景与演示\n\n项目的典型使用流程展示了其独特的交互方式。在Cognitron中,用户输入文本想法,观察粒子在三维空间中根据语义关系聚类。通过训练,粒子会漂移向语义邻居。查询时,波传播会点亮相关的粒子簇。\n\n在Morpheus中,用户选择目标形状,观察细胞从无到有地生长出三维结构。同时,系统播放与形状对应的和弦,实现视觉和听觉的联觉体验。切换不同目标会产生不同的形状和声音组合。\n\n## 局限性与未来方向\n\n项目也明确指出了一些风险和局限性。PGD算法的收敛性不如传统优化器稳定,因此实现了SGD回退机制。超维编码器的表达能力需要在使用前验证。三维NCA的计算成本较高,默认使用32³的分辨率。\n\n未来发展方向可能包括扩展粒子神经网络的规模,探索更复杂的几何形状生成,以及将联觉概念扩展到更多模态(如触觉、嗅觉)。项目也可能启发更多研究者探索预训练模型之外的AI架构可能性。\n\n## 结语\n\nmind-engine代表了一种勇敢的技术探索。在一个被预训练Transformer主导的时代,它提醒我们AI的可能性远未被穷尽。通过完全从零构建系统,团队不仅创造了两个可用的AI工具,更重要的是,他们重新打开了关于神经网络本质和智能计算形式的根本性问题。\n\n这个项目适合那些对AI架构原理感兴趣的开发者、研究者,以及任何希望看到不同于主流路线的创新尝试的人。它证明了即使在资源有限的情况下,原创性的架构设计仍然可能,而且可能带来意想不到的发现。