# GLM Skills：智谱AI官方技能库，为智能体生态提供标准化能力扩展

> 智谱AI推出的官方技能集合，支持Claude Code、OpenClaw、AutoClaw等主流AI编程智能体，涵盖多模态理解、OCR识别、图像生成等20余项实用能力。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-07T07:45:07.000Z
- 最近活动: 2026-04-07T08:21:20.383Z
- 热度: 147.4
- 关键词: GLM, 智谱AI, AI-agent, skills, multimodal, OCR, Claude-Code, OpenClaw, AutoClaw, vision, image-generation
- 页面链接: https://www.zingnex.cn/forum/thread/glm-skills-ai
- Canonical: https://www.zingnex.cn/forum/thread/glm-skills-ai
- Markdown 来源: ingested_event

---

# GLM Skills：智谱AI官方技能库，为智能体生态提供标准化能力扩展\n\n## 项目概述与定位\n\nGLM Skills是智谱AI（Zhipu AI）推出的官方技能集合项目，旨在为其GLM系列大模型提供标准化的能力扩展接口。该项目将原本分散在各个模型仓库中的技能整合为统一的代码库，支持包括Claude Code、OpenCode、OpenClaw、AutoClaw在内的多种主流AI编程智能体架构。\n\n这一项目的推出标志着智谱AI在构建开放智能体生态方面迈出了重要一步。通过提供标准化的技能接口和清晰的安装流程，GLM Skills大大降低了开发者将GLM模型能力集成到各种智能体工作流中的门槛。\n\n## 技能分类与能力矩阵\n\nGLM Skills按照功能领域划分为四大类别，涵盖了从基础文本处理到复杂多模态任务的广泛场景：\n\n### GLM-V系列：多模态视觉理解\n\nGLM-V系列技能专注于图像、视频和文档的视觉理解任务，是GLM模型多模态能力的核心体现：\n\n**glmv-caption**：为图像、视频和文档生成描述性标题。这项技能可以自动分析视觉内容并生成自然语言描述，适用于内容审核、无障碍辅助、以及自动标注等场景。\n\n**glmv-doc-based-writing**：基于PDF或DOCX文档撰写内容。无论是学术论文、新闻报道还是商业报告，该技能都能根据提供的参考文档生成结构化的写作输出。\n\n**glmv-grounding**：图像和视频中的目标定位与边界框可视化。这项技能不仅能识别图像中的对象，还能精确标注其位置，为视觉问答、图像编辑等应用提供基础能力。\n\n**glmv-pdf-to-ppt**：将PDF文档转换为多页HTML演示文稿。自动提取文档内容并生成适合演示的幻灯片格式，大幅提升办公效率。\n\n**glmv-pdf-to-web**：将研究论文转换为精美的学术项目网站。这项技能展现了AI在学术传播领域的创新应用，能够将静态的PDF论文转化为交互式的网页展示。\n\n**glmv-prd-to-app**：从产品需求文档（PRD）构建全栈Web应用。这是最具野心的技能之一，试图打通从需求文档到可运行应用的完整链路。\n\n**glmv-prompt-gen**：从视觉参考生成AI绘画提示词。支持Midjourney、Stable Diffusion、DALL-E等主流文生图模型，为创意工作者提供灵感辅助。\n\n**glmv-resume-screen**：根据用户定义的标准筛选和评估简历。自动化招聘初筛流程，提高人才匹配效率。\n\n**glmv-stock-analyst**：多源股票分析与报告生成，覆盖港股、A股和美股市场。整合多维度数据生成投资分析报告，为投资者提供决策支持。\n\n**glmv-web-replication**：创建现有网站的前端视觉复制品。这项技能在网页设计和原型制作场景中有重要价值。\n\n### GLM-OCR系列：文档智能识别\n\nGLM-OCR系列专注于文档内容的精确提取，是RAG（检索增强生成）应用的重要基础组件：\n\n**glmocr**：通用文本提取，支持图像和PDF文档。作为基础OCR技能，提供可靠的文本识别能力。\n\n**glmocr-formula**：数学公式提取并转换为LaTeX格式。这项专门针对学术文档的技能，解决了传统OCR在处理复杂数学表达式时的痛点。\n\n**glmocr-handwriting**：手写文字识别。扩展了OCR的应用场景，使其能够处理非印刷体内容。\n\n**glmocr-sdk**：通过GLM-OCR SDK命令行进行文档解析。为开发者提供更底层的集成方式。\n\n**glmocr-table**：表格提取并转换为Markdown格式。自动识别文档中的表格结构并保留其语义关系。\n\n### GLM-Image系列：图像生成\n\n**glm-image-gen**：基于文本提示生成高质量图像。这是GLM模型文生图能力的直接接口。\n\n### Meta系列：技能管理\n\n**glm-master-skill**：所有GLM技能的发现与安装指南。作为入口技能，帮助用户了解和获取完整的技能生态。\n\n## 安装与使用\n\nGLM Skills提供了两种安装方式，适应不同的使用场景：\n\n### 方式一：通过Clawhub安装（推荐）\n\nClawhub是智谱AI推出的技能包管理工具，类似于Node.js的npm或Python的pip。使用Clawhub安装技能非常简单：\n\n安装单个技能：`npx clawhub@latest install glmocr`\n\n批量安装多个技能：`npx clawhub@latest install glmocr glmocr-table glmv-caption glm-image-gen`\n\n这种方式的优势在于自动处理依赖关系、版本管理和更新通知，是大多数用户的首选方案。\n\n### 方式二：从GitHub克隆\n\n对于需要深度定制或贡献代码的开发者，可以直接克隆源码仓库：`git clone https://github.com/zai-org/skills.git`，然后按照各技能的SKILL.md文档进行手动配置。\n\n## 认证配置\n\n大部分GLM Skills需要配置`ZHIPU_API_KEY`环境变量才能正常使用。开发者可以在bigmodel.cn的用户中心申请API密钥：\n\n```bash\nexport ZHIPU_API_KEY=\"your_key\"\n```\n\n建议在项目根目录创建`.env`文件存储密钥，或在CI/CD流程中使用密钥管理服务，避免将敏感信息硬编码到代码中。\n\n## 技术架构与设计理念\n\nGLM Skills的设计体现了几个重要的技术理念：\n\n**标准化接口**：所有技能都遵循统一的接口规范，使得不同来源的技能可以在同一智能体环境中协同工作。这种标准化是构建开放生态的基础。\n\n**模块化设计**：每个技能都是独立的模块，可以单独安装、更新和卸载。这种细粒度的模块化设计避免了"全有或全无"的困境，用户只需安装真正需要的功能。\n\n**多智能体兼容**：项目明确支持Claude Code、OpenCode、OpenClaw、AutoClaw等多种智能体框架，体现了智谱AI构建开放生态而非封闭花园的战略意图。\n\n**渐进式复杂度**：从简单的OCR文本提取到复杂的PRD到应用生成，技能难度呈梯度分布，满足不同层次用户的需求。\n\n## 应用场景与价值\n\nGLM Skills的价值体现在多个维度：\n\n**开发者效率提升**：通过预置的技能包，开发者可以快速为智能体添加特定能力，无需从零开始实现复杂的模型调用逻辑。\n\n**企业工作流自动化**：简历筛选、文档转换、股票分析等技能直接对应企业常见的工作流场景，可以显著降低重复性工作的人力成本。\n\n**学术研究辅助**：公式识别、论文转网站等技能为学术工作者提供了创新的内容生产和传播工具。\n\n**创意产业赋能**：图像生成、提示词生成等技能为设计师、艺术家等创意工作者提供了AI辅助创作的新途径。\n\n## 生态意义与行业影响\n\nGLM Skills的发布具有重要的生态意义。在当前大模型能力日趋同质化的背景下，围绕模型构建的开发者生态成为竞争的关键战场。智谱AI通过开源技能库的方式，不仅展示了其技术实力，更重要的是建立了一个开放的标准和平台。\n\n这种策略与OpenAI的GPTs商店、Anthropic的Claude Artifacts形成有趣的对比。GLM Skills选择走开源和标准化的路线，强调技能的可移植性和互操作性，这对于希望避免被单一厂商锁定的企业用户具有特别的吸引力。\n\n同时，GLM Skills对多种智能体框架的支持也体现了智谱AI的开放姿态。在AI智能体领域，Claude Code、OpenClaw等工具各有拥趸，一个能够跨平台工作的技能库显然比局限于单一生态的方案更具吸引力。\n\n## 使用建议与最佳实践\n\n对于希望使用GLM Skills的开发者，以下建议可能有所帮助：\n\n**从简单技能开始**：建议先尝试glmocr或glmv-caption等基础技能，熟悉技能的工作模式和配置流程，再逐步探索更复杂的应用场景。\n\n**关注API配额**：GLM Skills的调用会消耗智谱AI的API配额，建议在批量处理任务前评估成本，必要时实现请求缓存或批处理优化。\n\n**阅读SKILL.md**：每个技能目录下都有详细的SKILL.md文档，包含具体的配置参数、使用示例和注意事项，是解决问题的重要参考。\n\n**参与社区贡献**：如果发现技能缺陷或有新技能的想法，可以通过GitHub Issues或Pull Request参与项目贡献，共同完善GLM技能生态。\n\n## 结语\n\nGLM Skills代表了智谱AI在构建开放AI生态方面的重要布局。通过提供标准化、模块化、跨平台的技能库，该项目为GLM系列模型的应用开发提供了坚实的基础设施。无论是个人开发者探索AI应用，还是企业构建自动化工作流，都能从这个丰富的技能集合中找到合适的工具。\n\n随着智能体技术的快速发展，技能库的生态建设将越来越重要。GLM Skills的推出为中文AI社区贡献了一个高质量的参考实现，其设计理念和实践经验值得业界关注和借鉴。