Sage（明略）· AI 智能运维平台

核心能力

从告警到根因，AI 全程串联

六大核心能力，覆盖运维全链路——故障排查、自动化巡检、可观测性整合、安全管控

⚡

多系统关联诊断

将指标、链路、日志、数据库、容器等多系统数据在同一对话内并行分析，自动输出带根因定位的诊断报告。过去需要 3 人协作 40 分钟，现在 1 人 3 分钟。

🔌

接入已有可观测性体系

不替换你现有的监控工具链，而是在之上增加 AI 推理层。无论你用的是哪套指标监控、链路追踪、日志平台或 API 网关，明略都可以接入并联合分析。

🤖

多代理专家矩阵

SRE 编排代理统一接收问题，自动路由至数据库、容器、服务、搜索等领域专家。每个专家只看本领域工具，误选概率接近零，复杂问题精准分解。

🗓️

自动化巡检引擎

将团队 SOP 固化为可调度的 AI 自主任务。支持 Cron 周期、一次性定时、手工触发三种模式。AI 自主执行、输出结构化报告、异常时精准推送通知。

🔍

执行过程完全透明

AI 不是黑盒——每个专家的推理步骤、工具调用、诊断依据在主对话中实时展示。执行历史完整保留，支持事后逐步回放，工程师可学习 AI 排查路径。

🔒

凭据安全零暴露

数据库密码、密钥、Token 全程不经过 AI 推理路径，AES-256-GCM 加密存储。DDL、数据删除等危险操作默认拦截，需显式授权。平台输出层自动脱敏兜底。

产品截图

每一个交互都经过深度打磨

自然语言输入 → AI 多系统并行分析 → 根因报告 + 处置建议，全程工具调用可见

AI 的每一步推理和工具调用实时展示，子代理执行轨迹可展开回放，过程完全透明

SOP 变成定时任务，结构化巡检报告自动生成，支持 Cron / 一次性 / 手工触发三种模式

巡检结论智能推送到企微群，区分执行异常与巡检告警，精准 @值班人员，避免告警疲劳

统一纳管多类型基础设施资源，三级权限模型，组内自助授权，凭据 AES-256-GCM 加密存储

填写资源信息后自动加密存储凭据，支持 SSH 通道连接测试，配置完成即可验证连通性

多代理架构

一个入口，七支专家团队

用户始终面对统一入口，内部由编排代理自动判断领域、路由专家、汇总结论，拓扑对用户完全透明

👤 工程师（自然语言描述问题）

🎯 SRE 编排代理 · 问题定界 → 领域路由 → 多专家协调 → 结论汇总

🗄️ 数据库
运行时专家

🔗 数据库
同步链路专家

📊 数据库
巡检专家

☸️ 容器
集群专家

🔎 服务
排障专家

🔍 搜索
集群专家

🛡️ 安全
守卫

每个专家仅加载本领域技能（白名单隔离）· 主编排代理不下钻具体分析 · 新增专家不影响现有结构

可观测性接入

接入你的工具链，而非替换它

明略在你现有的监控体系之上增加 AI 推理层，三支柱数据在同一对话里关联分析，不再需要人工在多个系统间拼图

可观测性维度	AI 分析能力	当前已支持（举例）
📈 指标监控	PromQL 查询、阈值分析、多指标趋势对比、异常点定位	Prometheus、VictoriaMetrics 等
🔗 链路追踪	Trace 检索、慢 Span 定位、服务依赖拓扑分析	SkyWalking、Jaeger、Zipkin 等
📋 日志平台	全文检索、聚合统计、错误模式提取、上下文关联	Elasticsearch、Loki、ClickHouse 等
🌐 API 网关	访问日志分析、错误率统计、上游健康状态	APISIX、Nginx、Kong、Traefik 等
🗄️ 关系型数据库	慢查询分析、锁等待、复制延迟、容量趋势、连接池	MySQL、TiDB、PostgreSQL 等
⚡ 缓存 / 消息	命中率、内存水位、热 Key 检测、消费延迟	Redis、Kafka、RocketMQ 等
☸️ 容器编排	Pod 状态诊断、Node 资源水位、事件日志分析	Kubernetes 等

注：以上为当前已实现能力的代表性举例，并非排他列表。明略的扩展架构支持持续接入新的数据源和工具类型，适配你的技术栈而非要求你迁移。

典型应用场景

从模糊症状到根因结论，全程 AI 驱动

用户反馈"页面打不开 / 一直转圈"

最难排查的往往不是告警，而是用户主动反馈的模糊症状。工程师不知道从哪里开始查——明略从用户描述出发，自动串联全链路分析。

网关日志链路追踪数据库连接池

明略 · AI 诊断

用户 › 商品详情页用户反馈一直转圈，帮我查下 ────────────────────────────── 路由 › 调用服务排障专家 ① API 网关日志（近 30min） /api/product/{id} P99 延迟 12s，错误率 3.2% ② 链路追踪慢 Trace → product-service → inventory-service inventory 调用耗时 11.2s（超时阈值 10s） ③ inventory-service 日志 ERROR 连接池耗尽，队列积压 340 个请求 WARN 数据库连接等待 > 5s × 427次 ④ 数据库慢查询 stock_check 接口触发全表扫描（缺少索引）执行时长 avg 3.8s，调用量 ×12（促销期间） ────────────────────────────── 根因 › 数据库慢查询 → 连接池耗尽 → 反压传导至商品页建议 › 临时扩容 inventory-service；优化索引（附 SQL）

502 Bad Gateway 快速定位

502 往往意味着上游服务不可用。背后可能是 OOM Kill、健康检查失败、资源不足——明略帮你在几分钟内锁定根因。

网关错误日志容器状态 OOM 检测应用日志

明略 · AI 诊断

用户 › order-service 刚开始报 502，帮我查 ────────────────────────────── 路由 › 调用服务排障专家 + 容器集群专家 ① 网关错误日志 502 集中于 /api/order/create 上游连接被拒绝，14:31 开始 ② 容器平台 order-service 6 个 Pod：4 个 Terminating 容器事件：OOMKilled × 4 内存 Limit: 512Mi，实际峰值: 891Mi ③ 应用日志（14:20-14:31） java.lang.OutOfMemoryError: Java heap space × 2,847 次，14:22 起持续增长 ────────────────────────────── 根因 › 内存泄漏触发 OOM Kill，健康实例不足导致 502 建议 › 调高 Limit 至 1.5Gi；排查 14:22 前的代码变更

504 Gateway Timeout 根因分析

504 通常是某个下游调用耗时超过网关阈值。根因可能藏在 DNS、网络、第三方依赖的任何一层——明略逐层拆解。

网关超时日志链路追踪网络诊断第三方依赖

明略 · AI 诊断

用户 › 结算接口 504，用户在投诉，快帮我定位 ────────────────────────────── 路由 › 调用服务排障专家 ① 网关日志 /api/checkout 响应时间持续 > 30s 触发网关超时阈值（30s），HTTP 504 ② 链路追踪 checkout-service → payment-service → 第三方支付 SDK 等待 28.4s (重试 3 次，每次 ~9s) ③ payment-service 日志 Connection timeout to pay.example.com DNS 解析耗时 avg 4.2s（正常 < 10ms） ④ 网络指标出口带宽正常 ✓，丢包率 0% ✓ Node DNS 配置：使用集群内 CoreDNS CoreDNS 近 1h upstream 超时 × 1,240 次 ────────────────────────────── 根因 › CoreDNS upstream 异常 → DNS 解析慢 → SDK 超时叠加重试 → 504 建议 › 检查 CoreDNS upstream；临时 hosts 绕过支付域名解析

P0 故障快速止血（变更引入）

大量 P0 故障由变更引入。明略帮助工程师在几分钟内锁定变更与故障的关联，而不是在茫茫日志里大海捞针。

指标突变变更关联数据库 MTTR 降低 87%

明略 · AI 诊断

00:17 监控告警：支付成功率 99.8% → 91% 用户 › 支付成功率在跌，帮我查 ────────────────────────────── 路由 › 调用服务排障专家 + 数据库运行时专家 ① 指标监控 payment_success_rate 在 00:09 开始下降 payment-service error_rate +8.9% ② 应用日志 ERROR Data too long for column 'extra_info' INSERT INTO payment_records 全部失败，00:09 起 ③ 数据库变更记录 00:09 上线：ALTER TABLE payment_records ADD COLUMN extra_info TEXT 未设置 DEFAULT 值，旧版应用未传该字段 ────────────────────────────── 根因 › DDL 变更未加 DEFAULT，旧应用 INSERT 全部失败建议 › 回滚变更（附 SQL）或补加 DEFAULT 后重启服务 00:21 回滚执行完毕，成功率恢复 99.9% 全程 4 分钟，MTTR 降低 87%

容量风险提前预警（自动化巡检）

不依赖"磁盘满了才告警"。明略的计划任务每天自动执行容量巡检，在问题演变为故障之前推送预警。

Cron 自动执行趋势预测企微通知零人工介入

明略 · 计划任务执行

07:30 Cron 触发 · 核心数据库容量巡检 ────────────────────────────── 巡检项 1 / order_db 磁盘使用率当前：87%（7 日增速 1.2%/天） ⚠ 预计 11 天触及扩容阈值（90%）巡检项 2 / user_db 缓冲池 Buffer Pool 命中率：89.3%（阈值 95%） ⚠ 建议扩容内存至 64GB（当前 32GB）巡检项 3 / inventory_db 综合健康磁盘 62% ✓ 同步延迟 < 200ms ✓ 慢查询 0 条 ✓ 健康巡检项 4 / 主从同步延迟最大延迟 312ms（阈值 1000ms）✓ 正常 ────────────────────────────── ⚠ 发现 2 项告警，已推送企微通知 ✓ 全程无需人工干预

大促前全链路性能基线

大促前的性能评估，需要覆盖网关、服务、数据库、缓存的完整链路。明略帮你一次完成所有检查，给出明确的上线判断。

全链路覆盖 P99 分析容量水位上线建议

明略 · AI 诊断

用户 › 大促前帮我跑一遍 order 链路性能基线 ────────────────────────────── ① API 网关层 /api/order P50 45ms / P99 320ms 历史大促 P99 < 500ms ✓ 达标 ② 数据库性能慢查询日均 8 条，其中 2 条 > 1s ⚠ 建议大促前优化（附索引建议） ③ 容器资源水位 order-service CPU 峰值 78% HPA 触发阈值 80%（弹性余量仅 2%） ⚠ 建议调整阈值至 70% ④ 缓存命中率 Redis 命中率 96.2% ✓ 健康 ────────────────────────────── 结论 › 整体健康，发现 2 项需处理的风险点建议 › 优先处理慢 SQL；HPA 阈值调至 70% 后可上线

企业价值

可量化的 ROI，看得见的改变

指标	传统模式	使用明略后
故障根因定位（MTTR）	平均 40 分钟（多人协作）	< 5 分钟（AI 辅助）
例行巡检耗时	每人每天 2–3 小时手动执行	全自动，人工零介入
跨系统排查切换	人工在 5–10 个控制台间切换	单一对话入口
On-call 疲劳	人工逐条研判告警，疲于奔命	AI 直出根因结论，精准处置
新人上手速度	依赖老员工传帮带，3–6 个月	AI 引导完成标准排查，快速独立

🎯

从被动救火到主动防御

容量预警、性能退化在成为故障之前就被发现，变更后自动核查服务健康状态

🔐

安全合规开箱即用

凭据零暴露架构、细粒度三级权限、完整审计链路，满足企业级安全与合规要求

🏗️

私有化部署，数据不出网

支持完全私有化部署，所有运维数据留存在企业内网，无需将任何数据上传外部

📈

SRE 产能放大，而非替代

重复性劳动由 AI 承担，需要判断力的工作（架构优化、容量规划）由工程师主导

技术架构

为企业生产环境而设计

每一个架构决策都服务于安全、稳定、可扩展三个目标

⚡

原生工具直连，能力无损耗

Agent Runtime 直接调用原生命令行工具（mysql、kubectl、redis-cli 等），无中间层封装。能力边界等于工具本身的全量能力，AI 可自由组合命令应对任意场景。

🔒

凭据零暴露架构

密码和密钥存于 AES-256-GCM 加密隔离区，全程不经过 AI 推理路径。平台输出层对所有 AI 响应做流式脱敏兜底，JWT、Token、私钥等敏感内容自动过滤。

🔍

资源按需发现，任意规模

资源列表不预注入 AI 上下文，按需动态查询、按权限过滤。纳管数千个实例也不会导致上下文膨胀，新增资源实时可用无需重启服务。

🛡️

三级权限 + 完整审计

超级管理员 / 组管理员 / 普通成员三级权限模型，API 层角色检查 + 业务层对象级检查双重保障。所有 AI 操作有完整审计记录，可查可溯。

🤖

多代理技能白名单隔离

每个领域专家的可用技能通过白名单精确控制，新技能上线只影响指定专家，不会意外扩散。主编排代理不持有任何领域技能，职责边界清晰稳定。

🏗️

私有化部署，开箱即用

提供 Docker Compose 和 Kubernetes Helm Chart 两种交付方式，支持完全私有化部署。支持 Claude（Anthropic）及 OpenAI 兼容接口，适配企业现有 LLM 接入方式。

故障止于发现

规模化之后，人工运维遇到了上限

用户反馈慢，不知从哪查

告警响了，40 分钟才定位

例行巡检，每天重复劳动

经验靠人，关键人一走就抓瞎

从告警到根因，AI 全程串联

多系统关联诊断

接入已有可观测性体系

多代理专家矩阵

自动化巡检引擎

执行过程完全透明

凭据安全零暴露

每一个交互都经过深度打磨

一个入口，七支专家团队

接入你的工具链，而非替换它

从模糊症状到根因结论，全程 AI 驱动

用户反馈"页面打不开 / 一直转圈"

502 Bad Gateway 快速定位

504 Gateway Timeout 根因分析

P0 故障快速止血（变更引入）

容量风险提前预警（自动化巡检）

大促前全链路性能基线

可量化的 ROI，看得见的改变

从被动救火到主动防御

安全合规开箱即用

私有化部署，数据不出网

SRE 产能放大，而非替代

为企业生产环境而设计

原生工具直连，能力无损耗

凭据零暴露架构

资源按需发现，任意规模

三级权限 + 完整审计

多代理技能白名单隔离

私有化部署，开箱即用

持续演进中

准备好让故障止于发现了吗？

申请免费试用