Back to Blog

AWS DevOps Agent:亚马逊的自主运维 Agent 来了

2026-05-11T21:10:00+08:00
AWS DevOps Agent SRE Incident Response Cloud

AWS DevOps Agent:亚马逊的自主运维 Agent 来了

AWS 出了一个新产品:DevOps Agent。不是一个需要你盯着用的助手工具,而是一个自主调查故障、预防事故的前沿 Agent

它的定位很明确——像一个有经验的 DevOps 工程师一样工作,7×24 小时在线,不需要你触发,警报一响就自己开始排查。

本文提纲

  1. 它到底是什么
  2. 核心能力:自主响应 + 主动预防
  3. 技术架构:Agent Space + 拓扑图
  4. 集成生态
  5. 跟其他 AI 运维工具的区别
  6. 谁该用、怎么用

它到底是什么

AWS DevOps Agent 做三件事:

  1. 学习你的资源——自动发现 AWS 资源及其关系
  2. 关联数据——把遥测数据、代码、部署信息关联起来理解应用架构
  3. 自主行动——告警进来就开始调查,生成缓解方案,协调沟通

支持多云和混合环境,不限于纯 AWS 架构。

核心能力:自主响应 + 主动预防

自主事故响应

这是最有价值的功能。不需要人工触发:

  • 自动调查——告警或工单一进来,立刻开始排查
  • Chat 交互——在整个 Web App 里用自然语言查询基础设施、分析系统健康、引导调查方向。上下文感知,你在 Topology 页面问和 Prevention 页面问,回答不一样
  • 具体缓解方案——不只告诉你"哪里有问题",而是给出具体修复步骤、验证方法、以及回滚方案
  • 自动协调——调查发现自动推送到 Slack、ServiceNow 等渠道
  • AWS Support 集成——一键创建 AWS 支持工单,自动带上调查上下文

传统运维流程:告警 → 值班工程师被叫醒 → 登录控制台查日志 → 排查可能原因 → 尝试修复 → 验证。整个过程可能 30 分钟到几小时。

DevOps Agent 的流程:告警 → Agent 立刻开始调查 → 几分钟内给出根因和缓解方案。MTTR 从小时级降到分钟级。

主动预防事故

不只是事后响应,Agent 还分析历史事故模式,帮你从"救火"转向"防火":

  • 针对性建议——在四个关键领域给出可操作的改进:可观测性(监控、告警、日志)、基础设施优化(自动伸缩、容量调优)、部署管线增强(测试、验证)
  • 持续学习——根据团队反馈持续优化建议

技术架构:Agent Space + 拓扑图

graph TB
    A[Alert / Ticket] --> B[Agent Space]
    B --> C[Topology Graph]
    C --> D[Investigation]
    D --> E{Resolution}
    E -->|Auto| F[Slack / ServiceNow]
    E -->|Manual| G[Engineer Review]
    B --> H[Prevention Engine]
    H --> I[Recommendations]
    
    subgraph "Data Sources"
        J[CloudWatch] --> C
        K[Datadog / Dynatrace / New Relic / Splunk] --> C
        L[GitHub / GitLab] --> C
    end

Agent Space

Agent Space 是一个逻辑容器,定义了 Agent 能访问和调查什么。每个 Space 包含:

  • AWS 账号配置
  • 第三方工具集成
  • 访问权限

管理员用 AWS Management Console 创建和管理 Agent Space。运维团队用 DevOps Agent Web App 做日常事故响应。

拓扑图

Agent 自动构建应用拓扑——把你的资源和它们的关系画成图。调查事故时,这个拓扑帮助 Agent 理解你的应用架构,快速定位问题影响范围。

集成生态

内置集成

类别 工具
可观测性 Amazon CloudWatch、Dynatrace、Datadog、New Relic、Splunk
代码仓库 GitHub、GitLab
CI/CD GitHub Actions、GitLab Workflows
沟通协调 Slack、ServiceNow

MCP 扩展

支持自定义 MCP(Model Context Protocol)服务器。如果你的团队用了不在内置列表里的工具,可以通过 MCP 接入。这意味着 DevOps Agent 的能力可以按需扩展。

自然语言查询

不用在多个控制台之间跳来跳去。直接用自然语言查询 AWS 资源、系统指标和告警状态。Chat 维护对话历史,可以追问。

跟其他 AI 运维工具的区别

AWS 不是唯一做 AI 运维的。但 DevOps Agent 有几个独特之处:

vs PagerDuty AIOps:PagerDuty 擅长告警聚合和降噪,但调查还是靠人。DevOps Agent 直接自主调查。

vs Datadog AI:Datadog 的 AI 主要在自己生态内工作。DevOps Agent 跨平台——多云、混合环境、多个可观测性工具。

vs 自建 Agent:如果你用 Claude Code 或其他 Agent 框架自建运维 Agent,需要自己处理 AWS API 调用、权限管理、拓扑构建。DevOps Agent 这些都内置了。

谁该用、怎么用

适合

  • 运行大规模 AWS 基础设施的团队,MTTR 还是小时级的
  • 值班工程师频繁被叫醒,事故响应占了太多时间
  • 多个可观测性工具数据分散,排查问题需要跨平台跳转
  • 想从"救火模式"转向"预防模式"

不太适合

  • 基础设施规模小,事故响应不是瓶颈
  • 纯非 AWS 环境(虽然支持多云,但核心能力还是围绕 AWS)
  • 预算有限的小团队

AWS 的定位很清晰:DevOps Agent 不是要替代运维工程师,而是把工程师从重复的调查工作中解放出来,让他们专注于架构改进和创新。如果它真的能做到"告警一响就开始调查,几分钟给出根因",对 SRE 团队来说是一个实质性的效率提升。


原文:AWS DevOps Agent 官方文档


作者: itech001
来源: 公众号:AI人工智能时代
主页: https://www.theaiera.cn(每日分享最前沿的AI新闻和技术)

本文首发于 AI人工智能时代,转载请注明出处。

Enjoyed this article? Share it with others!