返回博客列表

kagent:CNCF 首个 Kubernetes 原生 AI Agent 框架深度解析

2026-06-17T15:00:00+08:00
AgentKubernetesCNCFkagent云原生 AI

kagent:CNCF 首个 Kubernetes 原生 AI Agent 框架深度解析

2026 年,AI Agent 已经从实验室走向生产。

但当你真正试图把 Agent 部署到生产环境时,你会发现一个尴尬的事实:我们有 100 种方法写 Agent,却没有一种标准的方法管 Agent。

  • 怎么定义 Agent 的规范?
  • 怎么管理它的生命周期?
  • 怎么水平扩展?
  • 怎么监控和日志?
  • 怎么处理故障恢复?

在 Kubernetes 已经成为云原生基础设施标准的今天,答案似乎很自然:像管理 Pod、Service、Deployment 一样管理 Agent。

kagent 把这个想法变成了现实。

什么是 kagent?

kagent 是 CNCF 首个 Kubernetes 原生的 AI Agent 框架。它的核心思想很简单:

如果 Agent 就是一种特殊的工作负载,那为什么不能用 Kubernetes 来编排它?

由 Solo.io 开发,2025 年 5 月被接受为 CNCF Sandbox 项目,Apache 2.0 开源。

GitHub:https://github.com/kagent-dev/kagent

kagent 没有发明一套新的 Agent 运行时。它做的事情更底层,也更重要:把 Agent 变成 Kubernetes 的一等公民。

核心设计:Agent 就是 CRD

kagent 的整个架构建立在一个简单而强大的抽象之上:

Agent = Kubernetes Custom Resource

就像你用 YAML 定义一个 Deployment 一样,现在你可以用 YAML 定义一个 Agent:

apiVersion: agent.kagent.dev/v1alpha1
kind: Agent
metadata:
  name: my-smart-agent
spec:
  model:
    provider: openai
    name: gpt-4o
    apiKeySecret:
      name: openai-keys
      key: api-key
  tools:
    - name: kubernetes-api
      permissions: ["read", "list"]
    - name: bash-executor
      allowedCommands: ["kubectl", "helm"]
  memory:
    type: vectorDB
    store: pinecone
  policy:
    maxIterations: 20
    timeout: 300s
    humanApprovalRequired: false

这就是 kagent 的魔力。当你 kubectl apply -f agent.yaml 之后:

  1. ✅ kagent Operator 监听到 Agent CR 创建
  2. ✅ 自动拉起 Agent Pod
  3. ✅ 注入 Model API Key(从 Secret)
  4. ✅ 配置网络策略和 RBAC
  5. ✅ 挂载 Tool 插件
  6. ✅ 配置 Prometheus 监控端点
  7. ✅ Agent 开始运行

就像你管理任何其他 Kubernetes 资源一样。

kagent 的核心组件

1. Agent CRD

这是整个系统的基石。Agent 自定义资源定义了 Agent 的完整规范:

字段 说明
spec.model 模型配置:provider、name、temperature、max tokens
spec.tools 工具列表:名称、权限、配置参数
spec.memory 记忆配置:类型、存储后端、检索策略
spec.policy 策略配置:最大迭代、超时、人工审批规则
spec.resources 资源限制:CPU、内存、GPU
spec.affinity 调度策略:节点亲和性、污点容忍

2. kagent Operator

用 Go 编写的 Kubernetes Operator,是整个系统的大脑:

┌─────────────────────────────────────────┐
│           kagent Operator               │
├─────────────┬─────────────┬─────────────┤
│  Controller │  Reconciler │  Webhook    │
└─────────────┴─────────────┴─────────────┘
       │             │             │
       ▼             ▼             ▼
  Watch CRs     Reconcile     Validate
  & Events     State         & Mutate

Operator 的核心职责:

  • 监听:监控 AgentToolModel 等 CR 的变化
  • 协调:确保实际状态与期望状态一致
  • 验证:准入 Webhook 校验 Agent 配置合法性
  • 注入:Pod 创建时自动注入 Sidecar 和配置

3. Tool CRD

Tool 也是独立的 CRD,可以被多个 Agent 复用:

apiVersion: tools.kagent.dev/v1alpha1
kind: Tool
metadata:
  name: database-query
spec:
  type: sql
  image: kagentdev/tool-sql:v0.1.0
  config:
    connectionStringSecret: db-credentials
    allowedDatabases: ["production"]
    readOnly: true

这意味着:

  • 工具开发者可以独立发布和更新工具
  • 平台管理员可以集中管理工具权限
  • Agent 作者只需要引用工具名称,不需要关心工具如何部署

4. Model CRD

同样,Model 也是可复用的资源:

apiVersion: models.kagent.dev/v1alpha1
kind: Model
metadata:
  name: company-gpt-standard
spec:
  provider: openai
  baseModel: gpt-4o
  temperature: 0.7
  rateLimit: 1000/hour
  budget: 100 USD/month

平台团队可以定义公司级别的模型配置,业务团队直接引用即可,不用每个人都去申请 API Key。

为什么这很重要?

在 kagent 出现之前,Agent 部署的状态是这样的:

开发者笔记本 ── scp/rsync ──> 某台服务器
                                     
  监控:SSH 上去看日志
  扩容:再开几个 screen 会话
  升级:杀掉进程重新跑
  回滚:什么是回滚?

这就是 2025 年大多数 "生产级" Agent 的真实部署状态。

kagent 带来的是整个范式的转变:

传统 Agent 部署 kagent 方式
定义 代码里硬编码 YAML 声明式
部署 手动 / 脚本 kubectl apply
扩缩容 手动改进程数 kubectl scale --replicas=10
监控 print + grep Prometheus + Grafana
日志 看文件 ELK / Loki
密钥 .env 文件 Kubernetes Secrets
高可用 靠人盯着 Pod 自动重启 + 故障转移
RBAC 没有 Kubernetes RBAC

这不是渐进式的改进,这是从石器时代到工业时代的跨越。

kagent 的架构优势

1. 真正的多租户

在同一个 Kubernetes 集群中,你可以有:

  • 团队 A 的 Agent 运行在 Namespace A,只能访问数据库 A
  • 团队 B 的 Agent 运行在 Namespace B,只能调用内部 API
  • 运维团队的 Agent 有集群级别的只读权限

所有的隔离和权限控制都是标准的 Kubernetes 能力,kagent 不需要重新发明一遍。

2. 无限的可扩展性

需要 GPU 加速你的 Agent?

spec:
  resources:
    limits:
      nvidia.com/gpu: 1

需要 Agent 只能在特定节点上运行?

spec:
  affinity:
    nodeSelector:
      agent-type: premium

需要自动扩缩容基于队列长度?用 KEDA。需要金丝雀发布?用 Argo Rollouts。需要服务网格?用 Istio。

整个云原生生态系统,现在都是你的 Agent 基础设施的一部分。

3. 统一的可观测性

kagent 自动暴露 Prometheus metrics 端点:

  • agent_iterations_total:Agent 迭代总次数
  • agent_tool_calls_total:工具调用次数
  • agent_errors_total:错误次数
  • agent_duration_seconds:单次任务耗时
  • agent_tokens_used:Token 消耗量

配合 Grafana Dashboard,你可以一眼看到整个组织所有 Agent 的运行状态。

典型使用场景

场景 1:DevOps Agent

apiVersion: agent.kagent.dev/v1alpha1
kind: Agent
metadata:
  name: k8s-ops-agent
spec:
  model:
    name: gpt-4o
  tools:
    - name: kubectl-read-only
    - name: prometheus-query
    - name: incident-creator
  policy:
    humanApprovalRequired: true
    approvalTimeout: 10m

这个 Agent 可以:

  • 监控集群异常
  • 自动排查问题
  • 提出修复建议
  • 需要人类确认后才执行操作

场景 2:客服 Agent 集群

apiVersion: agent.kagent.dev/v1alpha1
kind: Agent
metadata:
  name: customer-support
spec:
  replicas: 50
  autoscaling:
    minReplicas: 10
    maxReplicas: 100
    targetQueueLength: 10
  model:
    name: claude-3.5-sonnet
  tools:
    - name: ticket-database
    - name: knowledge-base-search

基于排队长度自动扩缩容的客服 Agent 集群,高峰期自动扩容,低谷期自动缩容节省成本。

场景 3:数据科学家 Agent 沙箱

apiVersion: agent.kagent.dev/v1alpha1
kind: Agent
metadata:
  name: data-scientist-assistant
  namespace: data-science
spec:
  resources:
    limits:
      cpu: "8"
      memory: "32Gi"
      nvidia.com/gpu: "1"
  tools:
    - name: jupyter-executor
    - name: s3-data-access
  policy:
    maxBudget: "50 USD/month"

每个数据科学家可以一键申请自己的 AI Assistant,资源隔离,成本可控。

当前状态与展望

kagent 目前处于 CNCF Sandbox 阶段(2025年5月加入),但发展速度非常快。

已经实现的功能:

  • ✅ Agent CRD 与 Operator
  • ✅ Tool CRD 与插件系统
  • ✅ Model CRD 与多 Provider 支持
  • ✅ Prometheus Metrics
  • ✅ 基础的策略引擎
  • ✅ 人工审批工作流

正在开发的功能:

  • 🔄 Agent 工作流编排(类似 Argo Workflows)
  • 🔄 跨集群 Agent 联邦
  • 🔄 Agent 市场与一键安装
  • 🔄 成本分析与优化建议

写在最后

kagent 最令人兴奋的地方,不是它实现了什么特别牛逼的 Agent 功能,而是它选择了正确的抽象层。

大多数 Agent 框架都在问:"怎么让 Agent 更聪明?"

kagent 在问:"怎么让 10000 个 Agent 可靠地跑在生产环境里?"

这是一个非常重要的区别。当 Agent 从 Demo 走向生产时,后者才是真正的瓶颈。

在 Web 开发从裸服务器走向 Kubernetes 的过程中,我们花了 10 年时间才沉淀出现在的云原生技术栈。而 AI Agent 的基础设施建设,kagent 给我们开了一个很好的头。

未来的某一天,当你打开公司的 Kubernetes Dashboard,看到成百上千个 Agent Pod 在默默地工作时,请记住这一切的起点:kagent,第一个把 Agent 真正云原生化的框架。


参考文章

  1. kagent 官方 GitHubhttps://github.com/kagent-dev/kagent 项目的官方仓库,包含完整的文档、示例和 Roadmap

  2. CNCF Sandbox Project Announcementhttps://www.cncf.io/blog/2025/05/15/welcoming-kagent-to-the-cncf-sandbox/ CNCF 官方博客宣布 kagent 加入 Sandbox 项目

  3. Solo.io Blog: Introducing kagenthttps://www.solo.io/blog/introducing-kagent-kubernetes-native-ai-agent-framework/ Solo.io CTO 撰写的深度介绍,包含设计理念和架构细节

  4. Cloud Native AI Agents Whitepaperhttps://github.com/cncf/tag-runtime/blob/main/whitepapers/cloud-native-ai-agents.md CNCF TAG Runtime 发布的云原生 AI Agent 白皮书


作者: itech001 来源: 公众号:AI人工智能时代 网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

觉得文章不错?分享给更多人!