章节 01
导读 / 主楼:LangSight:AI Agent工具链的完整可观测性平台
LangSight为AI Agent生态系统提供了运行时可靠性保障层,专注于工具调用层面的监控、成本管控、安全扫描和故障排查,填补了现有观测工具在Agent工具链层面的空白。
正文
LangSight为AI Agent生态系统提供了运行时可靠性保障层,专注于工具调用层面的监控、成本管控、安全扫描和故障排查,填补了现有观测工具在Agent工具链层面的空白。
章节 01
LangSight为AI Agent生态系统提供了运行时可靠性保障层,专注于工具调用层面的监控、成本管控、安全扫描和故障排查,填补了现有观测工具在Agent工具链层面的空白。
章节 02
python\nfrom langsight.sdk import LangSightClient\n\nclient = LangSightClient(\n url=\"http://localhost:8000\",\n loop_detection=True, # 启用循环检测\n max_cost_usd=1.00, # 单次会话成本上限\n max_steps=25, # 单次会话步数上限\n circuit_breaker=True, # 启用熔断机制\n)\n\n\n### 2. 全链路追踪能力\n\nLangSight提供了细粒度的工具调用追踪,帮助开发者理解Agent的执行过程:\n\n会话追踪:每个会话的所有工具调用都被记录,包含延迟、状态、成本等关键指标。会话会被自动标记健康状态,如成功、检测到循环、预算超限、工具失败等。\n\n多Agent调用树:通过parent_span_id支持跨Agent handoff的完整调用链路追踪,清晰展示Agent之间的协作关系。\n\n可视化追踪示例:\n\n\nsess-f2a9b1 (support-agent) [LOOP_DETECTED]\n5 tool calls · 1 failed · 2,134ms · $0.023\n\nsess-f2a9b1\n├── jira-mcp/get_issue 89ms ✓\n├── postgres-mcp/query 42ms ✓\n├── → billing-agent handoff\n│ ├── crm-mcp/update 120ms ✓\n│ └── slack-mcp/notify — ✗ timeout\n\nRoot cause: slack-mcp timed out at 14:32 UTC\n\n\n### 3. MCP服务器健康监控\n\n针对MCP(Model Context Protocol)服务器的特殊监控需求,LangSight提供了专门的健康检查能力:\n\n持续健康检查:对MCP服务器进行持续ping检测,监控延迟和可用性。\n\nSchema漂移检测:当MCP服务器的工具schema发生变化时立即告警,防止Agent因schema不匹配而产生幻觉或错误。\n\n安全扫描:集成CVE漏洞库(OSV)和OWASP MCP Top 10检查,识别社区MCP服务器中的代码异味和安全风险。据统计,66%的社区MCP服务器存在关键代码质量问题。\n\n健康状态示例:\n\n\nServer Status Latency Schema Circuit\nsnowflake-mcp ✅ UP 142ms Stable closed\nslack-mcp ⚠️ DEG 1,240ms Stable closed\njira-mcp ❌ DOWN — — open (5 failures)\npostgres-mcp ✅ UP 31ms Changed closed\n\n\n### 4. 成本精细化归因\n\n与传统仅关注模型token成本的工具不同,LangSight提供了工具维度的成本分析:\n\n工具级成本追踪:识别哪个MCP服务器或API调用正在消耗预算。例如,一次会话中geocoding-mcp可能占据了44.6%的成本。\n\n成本异常检测:快速定位成本异常的原因,如子Agent无限重试地理编码服务。\n\n成本报表示例:\n\n\nTool Calls Failed Cost % of Total\ngeocoding-mcp 2,340 12 $1,872 44.6%\npostgres-mcp/query 890 3 $445 10.6%\nclaude-3.5 (LLM) 156 0 $312 7.4%\n\n\n### 5. 故障影响分析\n\nLangSight构建了Agent与工具之间的依赖图谱,支持故障影响分析:\n\n血缘图谱(Lineage DAG):展示哪些Agent调用了哪些工具,建立完整的依赖关系。\n\n爆炸半径分析:评估如果某个工具宕机,会影响多少其他组件。例如,postgres-mcp宕机可能影响3个Agent,每天约260个会话。\n\n影响告警:当工具故障时,自动生成影响报告,如"postgres-mcp已宕机——影响3个Agent,每天约260个会话"。\n\n智能故障调查:提供AI辅助的故障调查功能,自动聚合健康状态、schema变化、近期错误等信息,并给出修复建议。\n\n## 架构设计与技术实现\n\n### 系统架构\n\nLangSight采用现代云原生架构,主要组件包括:\n\nSDK层:提供多语言SDK,支持OpenTelemetry标准,可轻松集成到各种Agent框架中。\n\n数据采集层:通过OTEL Collector接收追踪数据,支持MCP服务器的健康检查和安全扫描。\n\n存储层:使用ClickHouse存储追踪、健康和成本数据,PostgreSQL存储用户、告警和SLO配置。\n\n服务层:FastAPI提供REST API,Next.js 15构建管理界面。\n\n告警层:支持Slack、Webhook、OpsGenie、PagerDuty等多种告警渠道。\n\n### 框架兼容性\n\nLangSight与主流Agent框架都有良好的集成支持:\n\n- LangGraph/LangChain:通过回调机制集成\n- CrewAI:专用回调类支持\n- OpenAI Agents SDK:通过Hooks机制集成\n- Pydantic AI:通过装饰器支持\n- 原生SDK:直接支持Google Gemini、OpenAI、Anthropic SDK\n- 通用OTEL:任何支持OpenTelemetry的框架\n\n对于直接使用原生SDK的开发者,LangSight提供了wrap_llm()方法,只需两行代码即可启用完整追踪:\n\npython\nimport langsight\nfrom google import genai\n\nls = langsight.init()\nraw_client = genai.Client(api_key=\"...\")\nclient = ls.wrap_llm(raw_client, agent_name=\"my-agent\", session_id=\"sess-001\")\n\n\n## 部署与使用\n\nLangSight提供了简化的部署体验:\n\n快速启动:通过./scripts/quickstart.sh脚本,约2分钟即可完成部署,自动生成密钥、启动5个容器并导入演示数据。\n\nCLI工具:提供丰富的命令行工具:\n\n- langsight init:自动发现MCP服务器并生成配置\n- langsight sessions:列出会话及其健康标签、成本和失败信息\n- langsight mcp-health:查看MCP健康状态和熔断器状态\n- langsight security-scan:执行CVE和OWASP安全扫描\n- langsight costs:按工具、Agent、会话分析成本\n- langsight investigate:AI辅助故障调查\n\n开发测试:支持通过uv和Docker Compose进行本地开发和测试,包含单元测试、集成测试和覆盖率检查。\n\n## 应用场景与价值\n\nLangSight适用于以下场景:\n\n生产环境监控:实时监控生产环境中Agent的工具调用情况,快速定位和解决问题。\n\n成本控制:通过预算管控和成本归因,防止Agent应用产生意外的高额费用。\n\n安全合规:对MCP服务器进行持续安全扫描,确保使用的第三方工具符合安全标准。\n\n故障排查:通过全链路追踪和影响分析,快速定位故障根因并评估影响范围。\n\n性能优化:识别高延迟工具调用,优化Agent的响应速度和用户体验。\n\n## 开源与生态\n\nLangSight采用Apache 2.0许可证开源,允许自由使用、修改、分发和二次开发。项目提供了完整的文档、SDK和集成示例,降低了采用门槛。\n\n作为AI Agent生态的重要基础设施,LangSight与Langfuse、LangWatch等工具形成互补,共同构建完整的Agent可观测性体系。对于正在构建生产级Agent应用的团队来说,LangSight填补了工具链监控的关键空白,是确保Agent系统可靠运行的重要保障。\n\n## 总结\n\nLangSight通过专注于AI Agent工具链的可观测性,解决了当前生态中的关键痛点。其循环检测、预算管控、熔断机制等运行时防护能力,结合全链路追踪、MCP健康监控、安全扫描和成本归因等观测能力,为Agent应用提供了生产环境所需的可靠性保障。对于任何正在构建或运营AI Agent的团队,LangSight都是一个值得认真评估的基础设施组件。章节 03
LangSight:AI Agent工具链的完整可观测性平台\n\n在AI Agent快速发展的今天,开发者们已经拥有了监控模型输出质量的工具(如Langfuse、LangWatch),也有了监控系统资源的平台(如Datadog)。然而,当Agent开始调用外部工具、MCP服务器和API时,一个关键的观测盲区出现了:我们不知道哪个工具在什么时候失败了,也不知道一次会话为何花费了预期之外的成本。LangSight正是为解决这一痛点而诞生的专业可观测性平台。\n\n现有观测工具的局限性\n\n当前的AI应用监控生态已经相当丰富,但各自关注的层面不同:\n\n- Langfuse/LangWatch:专注于模型层面的输出质量、token成本和评估指标\n- Datadog/New Relic:关注底层基础设施的CPU、内存和HTTP状态码\n- 传统APM工具:主要监控服务间的调用链,而非Agent与工具的交互\n\n这种分工带来了一个明显的空白:当Agent调用MCP服务器或外部API时,现有的工具无法回答以下关键问题:\n\n- Agent是否陷入了循环,反复调用同一个工具导致成本飙升?\n- 某个MCP服务器是否健康,其schema是否发生了变化?\n- 如果某个工具宕机,会影响哪些Agent和多少会话?\n- 社区MCP服务器是否存在安全风险?\n\nLangSight的核心定位\n\nLangSight将自己定位为"AI Agent工具链的运行时可靠性层",专注于监控Agent的"手"——即Agent调用的所有工具。与现有工具形成互补而非竞争关系,LangSight填补了Agent生态中工具层面的观测空白。\n\n关键差异化能力\n\nLangSight能够回答其他工具无法回答的问题:\n\n- 工具调用失败定位:精确追踪哪个工具在生产环境中失败\n- 循环检测:识别Agent是否陷入重复调用同一工具的循环\n- MCP健康监控:持续监控MCP服务器的可用性和性能\n- 安全扫描:检测MCP服务器的CVE漏洞和OWASP风险\n- 成本归因:按工具维度分析成本,而非仅按模型token\n- 影响范围分析:评估单个工具故障的级联影响\n\n核心功能详解\n\n1. 运行时防护机制\n\nLangSight SDK提供了多层防护机制,防止Agent运行时出现意外情况:\n\n循环检测:当同一个工具以相同参数被调用3次以上时,自动终止会话并触发告警。这有效防止了Agent陷入无限循环导致的成本失控。\n\n预算管控:支持设置单次会话的最大成本和最大步数硬限制,在账单冲击发生前强制停止。\n\n熔断机制:当某个工具连续失败5次后,自动将其禁用进入冷却期,同时触发告警和自动恢复测试。\n\n这些机制通过简单的SDK配置即可启用:\n\npython\nfrom langsight.sdk import LangSightClient\n\nclient = LangSightClient(\n url=\"http://localhost:8000\",\n loop_detection=True, 启用循环检测\n max_cost_usd=1.00, 单次会话成本上限\n max_steps=25, 单次会话步数上限\n circuit_breaker=True, 启用熔断机制\n)\n\n\n2. 全链路追踪能力\n\nLangSight提供了细粒度的工具调用追踪,帮助开发者理解Agent的执行过程:\n\n会话追踪:每个会话的所有工具调用都被记录,包含延迟、状态、成本等关键指标。会话会被自动标记健康状态,如成功、检测到循环、预算超限、工具失败等。\n\n多Agent调用树:通过parent_span_id支持跨Agent handoff的完整调用链路追踪,清晰展示Agent之间的协作关系。\n\n可视化追踪示例:\n\n\nsess-f2a9b1 (support-agent) [LOOP_DETECTED]\n5 tool calls · 1 failed · 2,134ms · $0.023\n\nsess-f2a9b1\n├── jira-mcp/get_issue 89ms ✓\n├── postgres-mcp/query 42ms ✓\n├── → billing-agent handoff\n│ ├── crm-mcp/update 120ms ✓\n│ └── slack-mcp/notify — ✗ timeout\n\nRoot cause: slack-mcp timed out at 14:32 UTC\n\n\n3. MCP服务器健康监控\n\n针对MCP(Model Context Protocol)服务器的特殊监控需求,LangSight提供了专门的健康检查能力:\n\n持续健康检查:对MCP服务器进行持续ping检测,监控延迟和可用性。\n\nSchema漂移检测:当MCP服务器的工具schema发生变化时立即告警,防止Agent因schema不匹配而产生幻觉或错误。\n\n安全扫描:集成CVE漏洞库(OSV)和OWASP MCP Top 10检查,识别社区MCP服务器中的代码异味和安全风险。据统计,66%的社区MCP服务器存在关键代码质量问题。\n\n健康状态示例:\n\n\nServer Status Latency Schema Circuit\nsnowflake-mcp ✅ UP 142ms Stable closed\nslack-mcp ⚠️ DEG 1,240ms Stable closed\njira-mcp ❌ DOWN — — open (5 failures)\npostgres-mcp ✅ UP 31ms Changed closed\n\n\n4. 成本精细化归因\n\n与传统仅关注模型token成本的工具不同,LangSight提供了工具维度的成本分析:\n\n工具级成本追踪:识别哪个MCP服务器或API调用正在消耗预算。例如,一次会话中geocoding-mcp可能占据了44.6%的成本。\n\n成本异常检测:快速定位成本异常的原因,如子Agent无限重试地理编码服务。\n\n成本报表示例:\n\n\nTool Calls Failed Cost % of Total\ngeocoding-mcp 2,340 12 $1,872 44.6%\npostgres-mcp/query 890 3 $445 10.6%\nclaude-3.5 (LLM) 156 0 $312 7.4%\n\n\n5. 故障影响分析\n\nLangSight构建了Agent与工具之间的依赖图谱,支持故障影响分析:\n\n血缘图谱(Lineage DAG):展示哪些Agent调用了哪些工具,建立完整的依赖关系。\n\n爆炸半径分析:评估如果某个工具宕机,会影响多少其他组件。例如,postgres-mcp宕机可能影响3个Agent,每天约260个会话。\n\n影响告警:当工具故障时,自动生成影响报告,如"postgres-mcp已宕机——影响3个Agent,每天约260个会话"。\n\n智能故障调查:提供AI辅助的故障调查功能,自动聚合健康状态、schema变化、近期错误等信息,并给出修复建议。\n\n架构设计与技术实现\n\n系统架构\n\nLangSight采用现代云原生架构,主要组件包括:\n\nSDK层:提供多语言SDK,支持OpenTelemetry标准,可轻松集成到各种Agent框架中。\n\n数据采集层:通过OTEL Collector接收追踪数据,支持MCP服务器的健康检查和安全扫描。\n\n存储层:使用ClickHouse存储追踪、健康和成本数据,PostgreSQL存储用户、告警和SLO配置。\n\n服务层:FastAPI提供REST API,Next.js 15构建管理界面。\n\n告警层:支持Slack、Webhook、OpsGenie、PagerDuty等多种告警渠道。\n\n框架兼容性\n\nLangSight与主流Agent框架都有良好的集成支持:\n\n- LangGraph/LangChain:通过回调机制集成\n- CrewAI:专用回调类支持\n- OpenAI Agents SDK:通过Hooks机制集成\n- Pydantic AI:通过装饰器支持\n- 原生SDK:直接支持Google Gemini、OpenAI、Anthropic SDK\n- 通用OTEL:任何支持OpenTelemetry的框架\n\n对于直接使用原生SDK的开发者,LangSight提供了wrap_llm()方法,只需两行代码即可启用完整追踪:\n\npython\nimport langsight\nfrom google import genai\n\nls = langsight.init()\nraw_client = genai.Client(api_key=\"...\")\nclient = ls.wrap_llm(raw_client, agent_name=\"my-agent\", session_id=\"sess-001\")\n\n\n部署与使用\n\nLangSight提供了简化的部署体验:\n\n快速启动:通过./scripts/quickstart.sh脚本,约2分钟即可完成部署,自动生成密钥、启动5个容器并导入演示数据。\n\nCLI工具:提供丰富的命令行工具:\n\n- langsight init:自动发现MCP服务器并生成配置\n- langsight sessions:列出会话及其健康标签、成本和失败信息\n- langsight mcp-health:查看MCP健康状态和熔断器状态\n- langsight security-scan:执行CVE和OWASP安全扫描\n- langsight costs:按工具、Agent、会话分析成本\n- langsight investigate:AI辅助故障调查\n\n开发测试:支持通过uv和Docker Compose进行本地开发和测试,包含单元测试、集成测试和覆盖率检查。\n\n应用场景与价值\n\nLangSight适用于以下场景:\n\n生产环境监控:实时监控生产环境中Agent的工具调用情况,快速定位和解决问题。\n\n成本控制:通过预算管控和成本归因,防止Agent应用产生意外的高额费用。\n\n安全合规:对MCP服务器进行持续安全扫描,确保使用的第三方工具符合安全标准。\n\n故障排查:通过全链路追踪和影响分析,快速定位故障根因并评估影响范围。\n\n性能优化:识别高延迟工具调用,优化Agent的响应速度和用户体验。\n\n开源与生态\n\nLangSight采用Apache 2.0许可证开源,允许自由使用、修改、分发和二次开发。项目提供了完整的文档、SDK和集成示例,降低了采用门槛。\n\n作为AI Agent生态的重要基础设施,LangSight与Langfuse、LangWatch等工具形成互补,共同构建完整的Agent可观测性体系。对于正在构建生产级Agent应用的团队来说,LangSight填补了工具链监控的关键空白,是确保Agent系统可靠运行的重要保障。\n\n总结\n\nLangSight通过专注于AI Agent工具链的可观测性,解决了当前生态中的关键痛点。其循环检测、预算管控、熔断机制等运行时防护能力,结合全链路追踪、MCP健康监控、安全扫描和成本归因等观测能力,为Agent应用提供了生产环境所需的可靠性保障。对于任何正在构建或运营AI Agent的团队,LangSight都是一个值得认真评估的基础设施组件。