Sage（明略）· AI 智能运维平台

核心能力

7 位 AI 运维专家，全天候为你的团队作战

每位运维专家深耕一个领域，互相协作、各司其职。你描述问题，它们并行分析，结论直达，覆盖故障排查、自动巡检、安全管控全链路

⚡

多系统关联诊断

将指标、链路、日志、数据库、容器等多系统数据在同一对话内并行分析，自动输出带根因定位的诊断报告。过去需要 3 人协作 40 分钟，现在 1 人 3 分钟。

🔌

接入已有可观测性体系

不替换你现有的监控工具链，而是在之上增加 AI 推理层。无论你用的是哪套指标监控、链路追踪、日志平台或 API 网关，明略都可以接入并联合分析。

🤖

多代理运维专家矩阵

SRE 编排代理统一接收问题，自动路由至数据库、容器、服务、搜索等领域专家。每个专家只看本领域工具，误选概率接近零，复杂问题精准分解。

🗓️

自动化巡检引擎

将团队 SOP 固化为可调度的 AI 自主任务。支持 Cron 周期、一次性定时、手工触发三种模式。AI 自主执行、输出结构化报告、异常时精准推送通知。

🔍

执行过程完全透明

AI 不是黑盒——每个专家的推理步骤、工具调用、诊断依据在主对话中实时展示。执行历史完整保留，支持事后逐步回放，工程师可学习 AI 排查路径。

🔒

凭据安全零暴露

数据库密码、密钥、Token 全程不经过 AI 推理路径，AES-256-GCM 加密存储。DDL、数据删除等危险操作默认拦截，需显式授权。平台输出层自动脱敏兜底。

产品截图

每一个交互都经过深度打磨

自然语言输入 → AI 多系统并行分析 → 根因报告 + 处置建议，全程工具调用可见

AI 的每一步推理和工具调用实时展示，子代理执行轨迹可展开回放，过程完全透明

SOP 变成定时任务，结构化巡检报告自动生成，支持 Cron / 一次性 / 手工触发三种模式

巡检结论智能推送到企微群，区分执行异常与巡检告警，精准 @值班人员，避免告警疲劳

统一纳管多类型基础设施资源，三级权限模型，组内自助授权，凭据 AES-256-GCM 加密存储

填写资源信息后自动加密存储凭据，支持 SSH 通道连接测试，配置完成即可验证连通性

AI 专家矩阵

七位不下班的 AI 运维专家，永远在你身边

数据库深挖、链路慢查、容器集群巡检……每位运维专家只看本领域工具，精准而不越界。你只需描述问题，运维专家矩阵自动调度、并行出击、汇聚结论

👤 工程师（自然语言描述问题）

🎯 SRE 编排代理 · 问题定界 → 领域路由 → 多专家协调 → 结论汇总

🗄️ 数据库
运行时专家

🔗 数据库
同步链路专家

📊 数据库
巡检专家

☸️ 容器
集群专家

🔎 服务
排障专家

🔍 搜索
集群专家

🛡️ 安全
守卫

每个专家仅加载本领域技能（白名单隔离）· 主编排代理不下钻具体分析 · 新增专家不影响现有结构

无缝接入

在你已有的工具链上，直接赋能

不替换现有监控体系，不需要数据迁移。Sage 在其上增加 AI 推理层，让指标、链路、日志在同一对话里自动关联，AI 运维专家的能力边界，就是工具本身的全量能力

可观测性维度	AI 分析能力	当前已支持（举例）
📈 指标监控	PromQL 查询、阈值分析、多指标趋势对比、异常点定位	Prometheus、VictoriaMetrics 等
🔗 链路追踪	Trace 检索、慢 Span 定位、服务依赖拓扑分析	SkyWalking、Jaeger、Zipkin 等
📋 日志平台	全文检索、聚合统计、错误模式提取、上下文关联	Elasticsearch、Loki、ClickHouse 等
🌐 API 网关	访问日志分析、错误率统计、上游健康状态	APISIX、Nginx、Kong、Traefik 等
🗄️ 关系型数据库	慢查询分析、锁等待、复制延迟、容量趋势、连接池	MySQL、TiDB、PostgreSQL 等
⚡ 缓存 / 消息	命中率、内存水位、热 Key 检测、消费延迟	Redis、Kafka、RocketMQ 等
☸️ 容器编排	Pod 状态诊断、Node 资源水位、事件日志分析	Kubernetes 等

注：以上为当前已实现能力的代表性举例，并非排他列表。明略的扩展架构支持持续接入新的数据源和工具类型，适配你的技术栈而非要求你迁移。

典型应用场景

从模糊症状到根因结论，全程 AI 驱动

用户反馈"页面打不开 / 一直转圈"

最难排查的往往不是告警，而是用户主动反馈的模糊症状。工程师不知道从哪里开始查——明略从用户描述出发，自动串联全链路分析。

网关日志链路追踪数据库连接池

明略 · AI 诊断

用户 › 商品详情页用户反馈一直转圈，帮我查下 ────────────────────────────── 路由 › 调用服务排障专家 ① API 网关日志（近 30min） /api/product/{id} P99 延迟 12s，错误率 3.2% ② 链路追踪慢 Trace → product-service → inventory-service inventory 调用耗时 11.2s（超时阈值 10s） ③ inventory-service 日志 ERROR 连接池耗尽，队列积压 340 个请求 WARN 数据库连接等待 > 5s × 427次 ④ 数据库慢查询 stock_check 接口触发全表扫描（缺少索引）执行时长 avg 3.8s，调用量 ×12（促销期间） ────────────────────────────── 根因 › 数据库慢查询 → 连接池耗尽 → 反压传导至商品页建议 › 临时扩容 inventory-service；优化索引（附 SQL）

502 Bad Gateway 快速定位

502 往往意味着上游服务不可用。背后可能是 OOM Kill、健康检查失败、资源不足——明略帮你在几分钟内锁定根因。

网关错误日志容器状态 OOM 检测应用日志

明略 · AI 诊断

用户 › order-service 刚开始报 502，帮我查 ────────────────────────────── 路由 › 调用服务排障专家 + 容器集群专家 ① 网关错误日志 502 集中于 /api/order/create 上游连接被拒绝，14:31 开始 ② 容器平台 order-service 6 个 Pod：4 个 Terminating 容器事件：OOMKilled × 4 内存 Limit: 512Mi，实际峰值: 891Mi ③ 应用日志（14:20-14:31） java.lang.OutOfMemoryError: Java heap space × 2,847 次，14:22 起持续增长 ────────────────────────────── 根因 › 内存泄漏触发 OOM Kill，健康实例不足导致 502 建议 › 调高 Limit 至 1.5Gi；排查 14:22 前的代码变更

504 Gateway Timeout 根因分析

504 通常是某个下游调用耗时超过网关阈值。根因可能藏在 DNS、网络、第三方依赖的任何一层——明略逐层拆解。

网关超时日志链路追踪网络诊断第三方依赖

明略 · AI 诊断

用户 › 结算接口 504，用户在投诉，快帮我定位 ────────────────────────────── 路由 › 调用服务排障专家 ① 网关日志 /api/checkout 响应时间持续 > 30s 触发网关超时阈值（30s），HTTP 504 ② 链路追踪 checkout-service → payment-service → 第三方支付 SDK 等待 28.4s (重试 3 次，每次 ~9s) ③ payment-service 日志 Connection timeout to pay.example.com DNS 解析耗时 avg 4.2s（正常 < 10ms） ④ 网络指标出口带宽正常 ✓，丢包率 0% ✓ Node DNS 配置：使用集群内 CoreDNS CoreDNS 近 1h upstream 超时 × 1,240 次 ────────────────────────────── 根因 › CoreDNS upstream 异常 → DNS 解析慢 → SDK 超时叠加重试 → 504 建议 › 检查 CoreDNS upstream；临时 hosts 绕过支付域名解析

P0 故障快速止血（变更引入）

大量 P0 故障由变更引入。明略帮助工程师在几分钟内锁定变更与故障的关联，而不是在茫茫日志里大海捞针。

指标突变变更关联数据库 MTTR 降低 87%

明略 · AI 诊断

00:17 监控告警：支付成功率 99.8% → 91% 用户 › 支付成功率在跌，帮我查 ────────────────────────────── 路由 › 调用服务排障专家 + 数据库运行时专家 ① 指标监控 payment_success_rate 在 00:09 开始下降 payment-service error_rate +8.9% ② 应用日志 ERROR Data too long for column 'extra_info' INSERT INTO payment_records 全部失败，00:09 起 ③ 数据库变更记录 00:09 上线：ALTER TABLE payment_records ADD COLUMN extra_info TEXT 未设置 DEFAULT 值，旧版应用未传该字段 ────────────────────────────── 根因 › DDL 变更未加 DEFAULT，旧应用 INSERT 全部失败建议 › 回滚变更（附 SQL）或补加 DEFAULT 后重启服务 00:21 回滚执行完毕，成功率恢复 99.9% 全程 4 分钟，MTTR 降低 87%

容量风险提前预警（自动化巡检）

不依赖"磁盘满了才告警"。明略的计划任务每天自动执行容量巡检，在问题演变为故障之前推送预警。

Cron 自动执行趋势预测企微通知零人工介入

明略 · 计划任务执行

07:30 Cron 触发 · 核心数据库容量巡检 ────────────────────────────── 巡检项 1 / order_db 磁盘使用率当前：87%（7 日增速 1.2%/天） ⚠ 预计 11 天触及扩容阈值（90%）巡检项 2 / user_db 缓冲池 Buffer Pool 命中率：89.3%（阈值 95%） ⚠ 建议扩容内存至 64GB（当前 32GB）巡检项 3 / inventory_db 综合健康磁盘 62% ✓ 同步延迟 < 200ms ✓ 慢查询 0 条 ✓ 健康巡检项 4 / 主从同步延迟最大延迟 312ms（阈值 1000ms）✓ 正常 ────────────────────────────── ⚠ 发现 2 项告警，已推送企微通知 ✓ 全程无需人工干预

大促前全链路性能基线

大促前的性能评估，需要覆盖网关、服务、数据库、缓存的完整链路。明略帮你一次完成所有检查，给出明确的上线判断。

全链路覆盖 P99 分析容量水位上线建议

明略 · AI 诊断

用户 › 大促前帮我跑一遍 order 链路性能基线 ────────────────────────────── ① API 网关层 /api/order P50 45ms / P99 320ms 历史大促 P99 < 500ms ✓ 达标 ② 数据库性能慢查询日均 8 条，其中 2 条 > 1s ⚠ 建议大促前优化（附索引建议） ③ 容器资源水位 order-service CPU 峰值 78% HPA 触发阈值 80%（弹性余量仅 2%） ⚠ 建议调整阈值至 70% ④ 缓存命中率 Redis 命中率 96.2% ✓ 健康 ────────────────────────────── 结论 › 整体健康，发现 2 项需处理的风险点建议 › 优先处理慢 SQL；HPA 阈值调至 70% 后可上线

企业价值

投入一套 AI 运维专家团队，收获可量化的回报

指标	传统模式	使用明略后
故障根因定位（MTTR）	平均 40 分钟（多人协作）	< 5 分钟（AI 辅助）
例行巡检耗时	每人每天 2–3 小时手动执行	全自动，人工零介入
跨系统排查切换	人工在 5–10 个控制台间切换	单一对话入口
On-call 疲劳	人工逐条研判告警，疲于奔命	AI 直出根因结论，精准处置
新人上手速度	依赖老员工传帮带，3–6 个月	AI 引导完成标准排查，快速独立

🚀

小团队，扛住大规模

AI 运维专家矩阵补足人力短板——团队规模不变，系统覆盖能力成倍扩展，业务快速增长时不必同步扩招运维

🧠

经验沉淀，告别能力断层

把老工程师的排障经验固化为 AI 运维专家，新人入职即可获得专家级支撑，团队抗风险能力不再依赖个人

🏗️

私有化部署，数据自主可控

完全私有化交付，所有运维数据不出企业内网；凭据 AES-256-GCM 加密，细粒度三级权限，合规开箱即用

📈

工程师专注高价值工作

重复巡检、例行查障交给 AI，工程师的精力回归架构优化、稳定性建设和真正需要判断力的事

技术架构

为企业生产环境而生

安全、稳定、可扩展——每一个架构决策都服务于让 AI 运维专家团队在生产环境中可信赖地运转

⚡

原生工具直连，能力无损耗

Agent Runtime 直接调用原生命令行工具（mysql、kubectl、redis-cli 等），无中间层封装。能力边界等于工具本身的全量能力，AI 可自由组合命令应对任意场景。

🔒

凭据零暴露架构

密码和密钥存于 AES-256-GCM 加密隔离区，全程不经过 AI 推理路径。平台输出层对所有 AI 响应做流式脱敏兜底，JWT、Token、私钥等敏感内容自动过滤。

🔍

资源按需发现，任意规模

资源列表不预注入 AI 上下文，按需动态查询、按权限过滤。纳管数千个实例也不会导致上下文膨胀，新增资源实时可用无需重启服务。

🛡️

三级权限 + 完整审计

超级管理员 / 组管理员 / 普通成员三级权限模型，API 层角色检查 + 业务层对象级检查双重保障。所有 AI 操作有完整审计记录，可查可溯。

🤖

多代理技能白名单隔离

每个领域专家的可用技能通过白名单精确控制，新技能上线只影响指定专家，不会意外扩散。主编排代理不持有任何领域技能，职责边界清晰稳定。

🏗️

私有化部署，开箱即用

提供 Docker Compose 和 Kubernetes Helm Chart 两种交付方式，支持完全私有化部署。支持 Claude（Anthropic）及 OpenAI 兼容接口，适配企业现有 LLM 接入方式。

打造你的 AI 运维专家团队

打造你的 AI 运维专家团队，能力边界 = 工具边界，无上限

人力有限，但系统的复杂度不等人

症状模糊，不知从哪下手

告警触发，40 分钟过去了

重复巡检，高薪工程师做低效活

经验锁在人脑，团队抗风险能力弱

7 位 AI 运维专家，全天候为你的团队作战

多系统关联诊断

接入已有可观测性体系

多代理运维专家矩阵

自动化巡检引擎

执行过程完全透明

凭据安全零暴露

每一个交互都经过深度打磨

七位不下班的 AI 运维专家，永远在你身边

在你已有的工具链上，直接赋能

从模糊症状到根因结论，全程 AI 驱动

用户反馈"页面打不开 / 一直转圈"

502 Bad Gateway 快速定位

504 Gateway Timeout 根因分析

P0 故障快速止血（变更引入）

容量风险提前预警（自动化巡检）

大促前全链路性能基线

投入一套 AI 运维专家团队，收获可量化的回报

小团队，扛住大规模

经验沉淀，告别能力断层

私有化部署，数据自主可控

工程师专注高价值工作

为企业生产环境而生

原生工具直连，能力无损耗

凭据零暴露架构

资源按需发现，任意规模

三级权限 + 完整审计

多代理技能白名单隔离

私有化部署，开箱即用

持续演进中

准备好给团队配备 AI 运维专家了吗？

申请免费试用