章节 01
导读 / 主楼:ThereminQ AutoResearch:AI驱动的自动化研究与项目管理工作流
一套用于ThereminQ项目的AI自动化工具集,实现本地LLM集群编排、智能任务分解、并行执行和生成式报告,支持项目管理与深度研究的自动化。
正文
一套用于ThereminQ项目的AI自动化工具集,实现本地LLM集群编排、智能任务分解、并行执行和生成式报告,支持项目管理与深度研究的自动化。
章节 01
一套用于ThereminQ项目的AI自动化工具集,实现本地LLM集群编排、智能任务分解、并行执行和生成式报告,支持项目管理与深度研究的自动化。
章节 02
章节 03
thereminq-autoresearch 是一个面向 ThereminQ 项目的 AI 驱动自动化工具集,由开发者 twobombs 创建并维护。该项目定位为一个连接项目管理、深度研究、工作空间同步和生成式报告的枢纽,通过本地部署的大型语言模型(LLM)集群实现复杂工作流的自动化执行。
与依赖云端API的解决方案不同,该项目完全基于本地推理引擎构建,利用 llama.cpp 和 Vulkan 加速在自有硬件上运行多节点LLM集群。这种设计不仅保护了数据隐私,还提供了对模型行为和成本的完全控制,特别适合处理敏感研究数据或需要高频调用的场景。
章节 04
项目采用分层架构设计,从底层基础设施到高层应用逻辑划分为多个功能模块:
第一层:构建与模型管理(0-build)
这一层负责LLM推理引擎和模型的准备。build_llama.sh 脚本自动化了 llama.cpp 的获取、编译和配置过程,特别启用了 Vulkan 支持以利用GPU加速。脚本还会创建多个隔离的目录副本(如 llama.cpp-embedded、llama.orch),支持在集群中以独立节点方式运行不同角色的模型。fetch_llamas.sh 则负责从 Hugging Face 下载预量化的 GGUF 模型,包括推理模型、编排模型和嵌入模型。
第二层:推理基础设施(1-runinfra)
这一层包含多个启动脚本,用于初始化不同规模和用途的LLM服务节点。项目支持精细的硬件资源管理,使用 numactl 将进程绑定到特定的 NUMA 节点,优化内存亲和性和PCIe总线利用率。
launch27B.sh: 启动27B参数的大型推理模型,配置多目标预测(draft-mtp)和投机解码以加速生成launch9B.sh: 启动9B参数的轻量级编排模型,负责复杂查询的分解和协调launch_nomid.sh: 启动文本嵌入模型节点,支持RAG(检索增强生成)和相似性搜索start-zerg-swarm.sh: 编排本地6节点LLM集群的初始化,在后台并行启动多个 llama-server 实例第三层:核心工作流引擎(2-startcore) 这是项目的智能核心,实现了从任务生成到结果合成的完整代理工作流。
0-generate-macrotask.py 是一个文档生成工具,通过调用本地LLM端点,基于提示词或输入文件流式生成大型Markdown文档。它使用针对技术写作优化的系统提示,并将输出保存到按类别组织的目录中。
1-distill-macrotask.py 实现了智能文档蒸馏功能,能够从冗长或冗余的技术文档中提取可执行的任务清单。它将输入文档发送给编排器级别的LLM,指示其提取简洁的Markdown待办列表。
2-full-agentic-workflow.py 是项目的旗舰组件,实现了完整的代理工作流编排引擎。其内部工作机制分为四个阶段:首先使用编排模型将复杂查询分解为原子任务;然后将这些任务保存到带时间戳的运行目录;接着利用 Python 的 concurrent.futures 将任务并行分发到多个工作节点,显式提取和保存生成的文件产物;最后使用编排模型将所有工作节点输出合成为连贯的最终文档。
3-post_process_synthesis.py 实现了分布式并行后处理编辑节点,针对40K上下文窗口优化。它采用并行语义去重和全局整合相结合的策略,在保持代码块等关键数据的同时精炼Markdown文档。
第四层:敏捷引擎(3-agilengine) 这一层专注于项目管理和敏捷开发流程的自动化。
Agentic-Agile.py 实现了"活文档"(Living Wiki)的管理,通过多线程分块处理持续摄取原始记录(如Slack日志),提取任务、架构决策和阻塞问题,将项目状态保存到 JSON 文件,并生成自动化的每日敏捷仪表板,汇总进度、风险和速度调整建议。
Automatic-Unittests.py 提供了并行化的LLM测试生成和执行管道,能够基于代码自动生成单元测试用例并执行验证。
章节 05
本地优先的隐私保护架构 整个系统运行在本地Docker容器中,数据不离开自有基础设施。这对于处理敏感研究数据、商业机密或受监管行业的应用场景至关重要。容器化部署还带来了环境一致性和快速恢复的优势。
多模型协作的代理架构 项目没有依赖单一通用模型,而是采用了专门化的多模型架构:大型模型负责深度推理,中型模型负责任务编排,专用模型负责文本嵌入。这种分工使得每个模型可以针对特定任务优化,整体效率高于单一通用方案。
硬件感知的资源调度
通过 numactl 和显式NUMA节点绑定,项目充分利用多路服务器的硬件拓扑特性,避免跨节点内存访问带来的性能损失。这种细致的资源管理在消费级硬件上并不常见,体现了对服务器级部署场景的深入理解。
投机解码加速 27B模型的配置中启用了多目标预测(draft-mtp)和投机解码技术,这是一种通过小型草稿模型预测后续token、再由主模型验证的加速策略,能够在保持输出质量的同时显著提升推理速度。
结构化提示工程
项目包含精心设计的提示模板(如 macrotask-example-prompt.txt),将敏捷项目管理、量子力学计算原理和LLM方法论等多学科知识整合到统一框架中。这种跨学科提示设计展示了如何引导模型处理高度复杂的综合性任务。
章节 06
研究自动化 对于需要进行大量文献综述、报告撰写和知识整理的研究人员,该项目提供了从原始资料到结构化产出的自动化管道。研究者可以将更多精力投入到创造性思考,而非重复性的信息整理工作。
技术文档工程 软件开发团队可以利用该工具集自动生成API文档、架构决策记录(ADR)和发布说明。智能蒸馏功能能够从会议记录或技术讨论中提取关键决策和行动项。
敏捷项目管理 通过Agentic-Agile组件,团队可以实现近乎实时的项目状态同步。系统能够从各种沟通渠道(Slack、邮件、会议记录)中提取结构化信息,生成每日站会报告和燃尽图分析。
私有知识库问答 结合嵌入模型和RAG架构,项目可以构建基于私有文档的智能问答系统。与通用聊天机器人不同,这种系统能够基于组织内部的知识库提供准确、可追溯的回答。
代码质量保障 自动单元测试生成功能可以作为CI/CD流程的一部分,在代码提交时自动补充测试覆盖,帮助团队维持高标准的代码质量。
章节 07
项目提供了容器化的部署方式,可以通过Docker快速启动VDI环境:
docker run --gpus all --device=/dev/kfd --device=/dev/dri:/dev/dri -p 6080:6080 -d twobombs/thereminq-tensors:jupyter
这条命令启用了GPU支持(包括AMD的KFD和DRI设备),并将容器的6080端口映射到主机,提供基于浏览器的交互环境。容器内预装了所有必要的工具和防护机制,确保推理引擎在安全隔离的环境中运行。
章节 08
thereminq-autoresearch 展示了一种面向未来的AI辅助工作模式:不是简单地将任务外包给云端黑盒API,而是在本地构建可理解、可控制、可定制的智能工作流。项目的多模型协作架构、硬件优化部署和结构化提示工程代表了当前LLM应用开发的最佳实践。
对于希望将LLM集成到日常工作流的技术团队、需要处理敏感数据的研究机构、以及探索AI代理架构前沿的开发者而言,该项目提供了丰富的参考实现和可复用的组件。随着本地LLM能力的持续提升和硬件成本的下降,这类本地优先的AI自动化方案将在企业级应用中发挥越来越重要的作用。