正文

LangSight：AI Agent工具链的完整可观测性平台

LangSight为AI Agent生态系统提供了运行时可靠性保障层，专注于工具调用层面的监控、成本管控、安全扫描和故障排查，填补了现有观测工具在Agent工具链层面的空白。

AI AgentMCP可观测性监控工具链LangSight成本管控安全扫描故障排查OpenTelemetry

发布时间 2026/04/01 15:16最近活动 2026/04/01 15:21预计阅读 18 分钟

章节 01

导读 / 主楼：LangSight：AI Agent工具链的完整可观测性平台

章节 02

背景

LangSight：AI Agent工具链的完整可观测性平台\n\n在AI Agent快速发展的今天，开发者们已经拥有了监控模型输出质量的工具（如Langfuse、LangWatch），也有了监控系统资源的平台（如Datadog）。然而，当Agent开始调用外部工具、MCP服务器和API时，一个关键的观测盲区出现了：我们不知道哪个工具在什么时候失败了，也不知道一次会话为何花费了预期之外的成本。LangSight正是为解决这一痛点而诞生的专业可观测性平台。\n\n## 现有观测工具的局限性\n\n当前的AI应用监控生态已经相当丰富，但各自关注的层面不同：\n\n- Langfuse/LangWatch：专注于模型层面的输出质量、token成本和评估指标\n- Datadog/New Relic：关注底层基础设施的CPU、内存和HTTP状态码\n- 传统APM工具：主要监控服务间的调用链，而非Agent与工具的交互\n\n这种分工带来了一个明显的空白：当Agent调用MCP服务器或外部API时，现有的工具无法回答以下关键问题：\n\n- Agent是否陷入了循环，反复调用同一个工具导致成本飙升？\n- 某个MCP服务器是否健康，其schema是否发生了变化？\n- 如果某个工具宕机，会影响哪些Agent和多少会话？\n- 社区MCP服务器是否存在安全风险？\n\n## LangSight的核心定位\n\nLangSight将自己定位为"AI Agent工具链的运行时可靠性层"，专注于监控Agent的"手"——即Agent调用的所有工具。与现有工具形成互补而非竞争关系，LangSight填补了Agent生态中工具层面的观测空白。\n\n### 关键差异化能力\n\nLangSight能够回答其他工具无法回答的问题：\n\n- 工具调用失败定位：精确追踪哪个工具在生产环境中失败\n- 循环检测：识别Agent是否陷入重复调用同一工具的循环\n- MCP健康监控：持续监控MCP服务器的可用性和性能\n- 安全扫描：检测MCP服务器的CVE漏洞和OWASP风险\n- 成本归因：按工具维度分析成本，而非仅按模型token\n- 影响范围分析：评估单个工具故障的级联影响\n\n## 核心功能详解\n\n### 1. 运行时防护机制\n\nLangSight SDK提供了多层防护机制，防止Agent运行时出现意外情况：\n\n循环检测：当同一个工具以相同参数被调用3次以上时，自动终止会话并触发告警。这有效防止了Agent陷入无限循环导致的成本失控。\n\n预算管控：支持设置单次会话的最大成本和最大步数硬限制，在账单冲击发生前强制停止。\n\n熔断机制：当某个工具连续失败5次后，自动将其禁用进入冷却期，同时触发告警和自动恢复测试。\n\n这些机制通过简单的SDK配置即可启用：\n\n`python\nfrom langsight.sdk import LangSightClient\n\nclient = LangSightClient(\n url=\"http://localhost:8000\",\n loop_detection=True, # 启用循环检测\n max_cost_usd=1.00, # 单次会话成本上限\n max_steps=25, # 单次会话步数上限\n circuit_breaker=True, # 启用熔断机制\n)\n`\n\n### 2. 全链路追踪能力\n\nLangSight提供了细粒度的工具调用追踪，帮助开发者理解Agent的执行过程：\n\n会话追踪：每个会话的所有工具调用都被记录，包含延迟、状态、成本等关键指标。会话会被自动标记健康状态，如成功、检测到循环、预算超限、工具失败等。\n\n多Agent调用树：通过parent_span_id支持跨Agent handoff的完整调用链路追踪，清晰展示Agent之间的协作关系。\n\n可视化追踪示例：\n\n`\nsess-f2a9b1 (support-agent) [LOOP_DETECTED]\n5 tool calls · 1 failed · 2,134ms · $0.023\n\nsess-f2a9b1\n├── jira-mcp/get_issue 89ms ✓\n├── postgres-mcp/query 42ms ✓\n├── → billing-agent handoff\n│ ├── crm-mcp/update 120ms ✓\n│ └── slack-mcp/notify — ✗ timeout\n\nRoot cause: slack-mcp timed out at 14:32 UTC\n`\n\n### 3. MCP服务器健康监控\n\n针对MCP（Model Context Protocol）服务器的特殊监控需求，LangSight提供了专门的健康检查能力：\n\n持续健康检查：对MCP服务器进行持续ping检测，监控延迟和可用性。\n\nSchema漂移检测：当MCP服务器的工具schema发生变化时立即告警，防止Agent因schema不匹配而产生幻觉或错误。\n\n安全扫描：集成CVE漏洞库（OSV）和OWASP MCP Top 10检查，识别社区MCP服务器中的代码异味和安全风险。据统计，66%的社区MCP服务器存在关键代码质量问题。\n\n健康状态示例：\n\n`\nServer Status Latency Schema Circuit\nsnowflake-mcp ✅ UP 142ms Stable closed\nslack-mcp ⚠️ DEG 1,240ms Stable closed\njira-mcp ❌ DOWN — — open (5 failures)\npostgres-mcp ✅ UP 31ms Changed closed\n`\n\n### 4. 成本精细化归因\n\n与传统仅关注模型token成本的工具不同，LangSight提供了工具维度的成本分析：\n\n工具级成本追踪：识别哪个MCP服务器或API调用正在消耗预算。例如，一次会话中geocoding-mcp可能占据了44.6%的成本。\n\n成本异常检测：快速定位成本异常的原因，如子Agent无限重试地理编码服务。\n\n成本报表示例：\n\n`\nTool Calls Failed Cost % of Total\ngeocoding-mcp 2,340 12 $1,872 44.6%\npostgres-mcp/query 890 3 $445 10.6%\nclaude-3.5 (LLM) 156 0 $312 7.4%\n`\n\n### 5. 故障影响分析\n\nLangSight构建了Agent与工具之间的依赖图谱，支持故障影响分析：\n\n血缘图谱（Lineage DAG）：展示哪些Agent调用了哪些工具，建立完整的依赖关系。\n\n爆炸半径分析：评估如果某个工具宕机，会影响多少其他组件。例如，postgres-mcp宕机可能影响3个Agent，每天约260个会话。\n\n影响告警：当工具故障时，自动生成影响报告，如"postgres-mcp已宕机——影响3个Agent，每天约260个会话"。\n\n智能故障调查：提供AI辅助的故障调查功能，自动聚合健康状态、schema变化、近期错误等信息，并给出修复建议。\n\n## 架构设计与技术实现\n\n### 系统架构\n\nLangSight采用现代云原生架构，主要组件包括：\n\nSDK层：提供多语言SDK，支持OpenTelemetry标准，可轻松集成到各种Agent框架中。\n\n数据采集层：通过OTEL Collector接收追踪数据，支持MCP服务器的健康检查和安全扫描。\n\n存储层：使用ClickHouse存储追踪、健康和成本数据，PostgreSQL存储用户、告警和SLO配置。\n\n服务层：FastAPI提供REST API，Next.js 15构建管理界面。\n\n告警层：支持Slack、Webhook、OpsGenie、PagerDuty等多种告警渠道。\n\n### 框架兼容性\n\nLangSight与主流Agent框架都有良好的集成支持：\n\n- LangGraph/LangChain：通过回调机制集成\n- CrewAI：专用回调类支持\n- OpenAI Agents SDK：通过Hooks机制集成\n- Pydantic AI：通过装饰器支持\n- 原生SDK：直接支持Google Gemini、OpenAI、Anthropic SDK\n- 通用OTEL：任何支持OpenTelemetry的框架\n\n对于直接使用原生SDK的开发者，LangSight提供了`wrap_llm()`方法，只需两行代码即可启用完整追踪：\n\n`python\nimport langsight\nfrom google import genai\n\nls = langsight.init()\nraw_client = genai.Client(api_key=\"...\")\nclient = ls.wrap_llm(raw_client, agent_name=\"my-agent\", session_id=\"sess-001\")\n`\n\n## 部署与使用\n\nLangSight提供了简化的部署体验：\n\n快速启动：通过`./scripts/quickstart.sh`脚本，约2分钟即可完成部署，自动生成密钥、启动5个容器并导入演示数据。\n\nCLI工具：提供丰富的命令行工具：\n\n- `langsight init`：自动发现MCP服务器并生成配置\n- `langsight sessions`：列出会话及其健康标签、成本和失败信息\n- `langsight mcp-health`：查看MCP健康状态和熔断器状态\n- `langsight security-scan`：执行CVE和OWASP安全扫描\n- `langsight costs`：按工具、Agent、会话分析成本\n- `langsight investigate`：AI辅助故障调查\n\n开发测试：支持通过uv和Docker Compose进行本地开发和测试，包含单元测试、集成测试和覆盖率检查。\n\n## 应用场景与价值\n\nLangSight适用于以下场景：\n\n生产环境监控：实时监控生产环境中Agent的工具调用情况，快速定位和解决问题。\n\n成本控制：通过预算管控和成本归因，防止Agent应用产生意外的高额费用。\n\n安全合规：对MCP服务器进行持续安全扫描，确保使用的第三方工具符合安全标准。\n\n故障排查：通过全链路追踪和影响分析，快速定位故障根因并评估影响范围。\n\n性能优化：识别高延迟工具调用，优化Agent的响应速度和用户体验。\n\n## 开源与生态\n\nLangSight采用Apache 2.0许可证开源，允许自由使用、修改、分发和二次开发。项目提供了完整的文档、SDK和集成示例，降低了采用门槛。\n\n作为AI Agent生态的重要基础设施，LangSight与Langfuse、LangWatch等工具形成互补，共同构建完整的Agent可观测性体系。对于正在构建生产级Agent应用的团队来说，LangSight填补了工具链监控的关键空白，是确保Agent系统可靠运行的重要保障。\n\n## 总结\n\nLangSight通过专注于AI Agent工具链的可观测性，解决了当前生态中的关键痛点。其循环检测、预算管控、熔断机制等运行时防护能力，结合全链路追踪、MCP健康监控、安全扫描和成本归因等观测能力，为Agent应用提供了生产环境所需的可靠性保障。对于任何正在构建或运营AI Agent的团队，LangSight都是一个值得认真评估的基础设施组件。

章节 03

补充观点 1

LangSight：AI Agent工具链的完整可观测性平台\n\n在AI Agent快速发展的今天，开发者们已经拥有了监控模型输出质量的工具（如Langfuse、LangWatch），也有了监控系统资源的平台（如Datadog）。然而，当Agent开始调用外部工具、MCP服务器和API时，一个关键的观测盲区出现了：我们不知道哪个工具在什么时候失败了，也不知道一次会话为何花费了预期之外的成本。LangSight正是为解决这一痛点而诞生的专业可观测性平台。\n\n现有观测工具的局限性\n\n当前的AI应用监控生态已经相当丰富，但各自关注的层面不同：\n\n- Langfuse/LangWatch：专注于模型层面的输出质量、token成本和评估指标\n- Datadog/New Relic：关注底层基础设施的CPU、内存和HTTP状态码\n- 传统APM工具：主要监控服务间的调用链，而非Agent与工具的交互\n\n这种分工带来了一个明显的空白：当Agent调用MCP服务器或外部API时，现有的工具无法回答以下关键问题：\n\n- Agent是否陷入了循环，反复调用同一个工具导致成本飙升？\n- 某个MCP服务器是否健康，其schema是否发生了变化？\n- 如果某个工具宕机，会影响哪些Agent和多少会话？\n- 社区MCP服务器是否存在安全风险？\n\nLangSight的核心定位\n\nLangSight将自己定位为"AI Agent工具链的运行时可靠性层"，专注于监控Agent的"手"——即Agent调用的所有工具。与现有工具形成互补而非竞争关系，LangSight填补了Agent生态中工具层面的观测空白。\n\n关键差异化能力\n\nLangSight能够回答其他工具无法回答的问题：\n\n- 工具调用失败定位：精确追踪哪个工具在生产环境中失败\n- 循环检测：识别Agent是否陷入重复调用同一工具的循环\n- MCP健康监控：持续监控MCP服务器的可用性和性能\n- 安全扫描：检测MCP服务器的CVE漏洞和OWASP风险\n- 成本归因：按工具维度分析成本，而非仅按模型token\n- 影响范围分析：评估单个工具故障的级联影响\n\n核心功能详解\n\n1. 运行时防护机制\n\nLangSight SDK提供了多层防护机制，防止Agent运行时出现意外情况：\n\n循环检测：当同一个工具以相同参数被调用3次以上时，自动终止会话并触发告警。这有效防止了Agent陷入无限循环导致的成本失控。\n\n预算管控：支持设置单次会话的最大成本和最大步数硬限制，在账单冲击发生前强制停止。\n\n熔断机制：当某个工具连续失败5次后，自动将其禁用进入冷却期，同时触发告警和自动恢复测试。\n\n这些机制通过简单的SDK配置即可启用：\n\npython\nfrom langsight.sdk import LangSightClient\n\nclient = LangSightClient(\n url=\"http://localhost:8000\",\n loop_detection=True, 启用循环检测\n max_cost_usd=1.00, 单次会话成本上限\n max_steps=25, 单次会话步数上限\n circuit_breaker=True, 启用熔断机制\n)\n\n\n2. 全链路追踪能力\n\nLangSight提供了细粒度的工具调用追踪，帮助开发者理解Agent的执行过程：\n\n会话追踪：每个会话的所有工具调用都被记录，包含延迟、状态、成本等关键指标。会话会被自动标记健康状态，如成功、检测到循环、预算超限、工具失败等。\n\n多Agent调用树：通过parent_span_id支持跨Agent handoff的完整调用链路追踪，清晰展示Agent之间的协作关系。\n\n可视化追踪示例：\n\n\nsess-f2a9b1 (support-agent) [LOOP_DETECTED]\n5 tool calls · 1 failed · 2,134ms · $0.023\n\nsess-f2a9b1\n├── jira-mcp/get_issue 89ms ✓\n├── postgres-mcp/query 42ms ✓\n├── → billing-agent handoff\n│ ├── crm-mcp/update 120ms ✓\n│ └── slack-mcp/notify — ✗ timeout\n\nRoot cause: slack-mcp timed out at 14:32 UTC\n\n\n3. MCP服务器健康监控\n\n针对MCP（Model Context Protocol）服务器的特殊监控需求，LangSight提供了专门的健康检查能力：\n\n持续健康检查：对MCP服务器进行持续ping检测，监控延迟和可用性。\n\nSchema漂移检测：当MCP服务器的工具schema发生变化时立即告警，防止Agent因schema不匹配而产生幻觉或错误。\n\n安全扫描：集成CVE漏洞库（OSV）和OWASP MCP Top 10检查，识别社区MCP服务器中的代码异味和安全风险。据统计，66%的社区MCP服务器存在关键代码质量问题。\n\n健康状态示例：\n\n\nServer Status Latency Schema Circuit\nsnowflake-mcp ✅ UP 142ms Stable closed\nslack-mcp ⚠️ DEG 1,240ms Stable closed\njira-mcp ❌ DOWN — — open (5 failures)\npostgres-mcp ✅ UP 31ms Changed closed\n\n\n4. 成本精细化归因\n\n与传统仅关注模型token成本的工具不同，LangSight提供了工具维度的成本分析：\n\n工具级成本追踪：识别哪个MCP服务器或API调用正在消耗预算。例如，一次会话中geocoding-mcp可能占据了44.6%的成本。\n\n成本异常检测：快速定位成本异常的原因，如子Agent无限重试地理编码服务。\n\n成本报表示例：\n\n\nTool Calls Failed Cost % of Total\ngeocoding-mcp 2,340 12 $1,872 44.6%\npostgres-mcp/query 890 3 $445 10.6%\nclaude-3.5 (LLM) 156 0 $312 7.4%\n\n\n5. 故障影响分析\n\nLangSight构建了Agent与工具之间的依赖图谱，支持故障影响分析：\n\n血缘图谱（Lineage DAG）：展示哪些Agent调用了哪些工具，建立完整的依赖关系。\n\n爆炸半径分析：评估如果某个工具宕机，会影响多少其他组件。例如，postgres-mcp宕机可能影响3个Agent，每天约260个会话。\n\n影响告警：当工具故障时，自动生成影响报告，如"postgres-mcp已宕机——影响3个Agent，每天约260个会话"。\n\n智能故障调查：提供AI辅助的故障调查功能，自动聚合健康状态、schema变化、近期错误等信息，并给出修复建议。\n\n架构设计与技术实现\n\n系统架构\n\nLangSight采用现代云原生架构，主要组件包括：\n\nSDK层：提供多语言SDK，支持OpenTelemetry标准，可轻松集成到各种Agent框架中。\n\n数据采集层：通过OTEL Collector接收追踪数据，支持MCP服务器的健康检查和安全扫描。\n\n存储层：使用ClickHouse存储追踪、健康和成本数据，PostgreSQL存储用户、告警和SLO配置。\n\n服务层：FastAPI提供REST API，Next.js 15构建管理界面。\n\n告警层：支持Slack、Webhook、OpsGenie、PagerDuty等多种告警渠道。\n\n框架兼容性\n\nLangSight与主流Agent框架都有良好的集成支持：\n\n- LangGraph/LangChain：通过回调机制集成\n- CrewAI：专用回调类支持\n- OpenAI Agents SDK：通过Hooks机制集成\n- Pydantic AI：通过装饰器支持\n- 原生SDK：直接支持Google Gemini、OpenAI、Anthropic SDK\n- 通用OTEL：任何支持OpenTelemetry的框架\n\n对于直接使用原生SDK的开发者，LangSight提供了wrap_llm()方法，只需两行代码即可启用完整追踪：\n\npython\nimport langsight\nfrom google import genai\n\nls = langsight.init()\nraw_client = genai.Client(api_key=\"...\")\nclient = ls.wrap_llm(raw_client, agent_name=\"my-agent\", session_id=\"sess-001\")\n\n\n部署与使用\n\nLangSight提供了简化的部署体验：\n\n快速启动：通过./scripts/quickstart.sh脚本，约2分钟即可完成部署，自动生成密钥、启动5个容器并导入演示数据。\n\nCLI工具：提供丰富的命令行工具：\n\n- langsight init：自动发现MCP服务器并生成配置\n- langsight sessions：列出会话及其健康标签、成本和失败信息\n- langsight mcp-health：查看MCP健康状态和熔断器状态\n- langsight security-scan：执行CVE和OWASP安全扫描\n- langsight costs：按工具、Agent、会话分析成本\n- langsight investigate：AI辅助故障调查\n\n开发测试：支持通过uv和Docker Compose进行本地开发和测试，包含单元测试、集成测试和覆盖率检查。\n\n应用场景与价值\n\nLangSight适用于以下场景：\n\n生产环境监控：实时监控生产环境中Agent的工具调用情况，快速定位和解决问题。\n\n成本控制：通过预算管控和成本归因，防止Agent应用产生意外的高额费用。\n\n安全合规：对MCP服务器进行持续安全扫描，确保使用的第三方工具符合安全标准。\n\n故障排查：通过全链路追踪和影响分析，快速定位故障根因并评估影响范围。\n\n性能优化：识别高延迟工具调用，优化Agent的响应速度和用户体验。\n\n开源与生态\n\nLangSight采用Apache 2.0许可证开源，允许自由使用、修改、分发和二次开发。项目提供了完整的文档、SDK和集成示例，降低了采用门槛。\n\n作为AI Agent生态的重要基础设施，LangSight与Langfuse、LangWatch等工具形成互补，共同构建完整的Agent可观测性体系。对于正在构建生产级Agent应用的团队来说，LangSight填补了工具链监控的关键空白，是确保Agent系统可靠运行的重要保障。\n\n总结\n\nLangSight通过专注于AI Agent工具链的可观测性，解决了当前生态中的关键痛点。其循环检测、预算管控、熔断机制等运行时防护能力，结合全链路追踪、MCP健康监控、安全扫描和成本归因等观测能力，为Agent应用提供了生产环境所需的可靠性保障。对于任何正在构建或运营AI Agent的团队，LangSight都是一个值得认真评估的基础设施组件。

LangSight：AI Agent工具链的完整可观测性平台

导读 / 主楼：LangSight：AI Agent工具链的完整可观测性平台

背景

补充观点 1

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

LiteMind：统一多模态AI开发框架，简化LLM应用构建流程

OmniRoute：统一67+大模型提供商的智能API网关解决方案

Google Gemini Embedding 2 多模态 RAG 框架：统一处理文本、图像、视频与音频的检索增强生成方案