Agent 相关的核心要点是什么？

本文围绕 Agent、Kubernetes、CNCF、kagent、云原生 AI 展开，深度解析 CNCF 首个 K8s 原生 AI Agent 框架 kagent：用管理 Pod 的方式管理 Agent，从 CRD 设计到 Operator 架构。详细解读见正文。

kagent：CNCF 首个 Kubernetes 原生 AI Agent 框架深度解析

2026-06-17T15:00:00+08:00

AgentKubernetesCNCFkagent云原生 AI

kagent：CNCF 首个 Kubernetes 原生 AI Agent 框架深度解析

2026 年，AI Agent 已经从实验室走向生产。

但当你真正试图把 Agent 部署到生产环境时，你会发现一个尴尬的事实：我们有 100 种方法写 Agent，却没有一种标准的方法管 Agent。

怎么定义 Agent 的规范？
怎么管理它的生命周期？
怎么水平扩展？
怎么监控和日志？
怎么处理故障恢复？

在 Kubernetes 已经成为云原生基础设施标准的今天，答案似乎很自然：像管理 Pod、Service、Deployment 一样管理 Agent。

kagent 把这个想法变成了现实。

什么是 kagent？

kagent 是 CNCF 首个 Kubernetes 原生的 AI Agent 框架。它的核心思想很简单：

如果 Agent 就是一种特殊的工作负载，那为什么不能用 Kubernetes 来编排它？

由 Solo.io 开发，2025 年 5 月被接受为 CNCF Sandbox 项目，Apache 2.0 开源。

GitHub：https://github.com/kagent-dev/kagent

kagent 没有发明一套新的 Agent 运行时。它做的事情更底层，也更重要：把 Agent 变成 Kubernetes 的一等公民。

核心设计：Agent 就是 CRD

kagent 的整个架构建立在一个简单而强大的抽象之上：

Agent = Kubernetes Custom Resource

就像你用 YAML 定义一个 Deployment 一样，现在你可以用 YAML 定义一个 Agent：

apiVersion: agent.kagent.dev/v1alpha1
kind: Agent
metadata:
  name: my-smart-agent
spec:
  model:
    provider: openai
    name: gpt-4o
    apiKeySecret:
      name: openai-keys
      key: api-key
  tools:
    - name: kubernetes-api
      permissions: ["read", "list"]
    - name: bash-executor
      allowedCommands: ["kubectl", "helm"]
  memory:
    type: vectorDB
    store: pinecone
  policy:
    maxIterations: 20
    timeout: 300s
    humanApprovalRequired: false

这就是 kagent 的魔力。当你 kubectl apply -f agent.yaml 之后：

✅ kagent Operator 监听到 Agent CR 创建
✅ 自动拉起 Agent Pod
✅ 注入 Model API Key（从 Secret）
✅ 配置网络策略和 RBAC
✅ 挂载 Tool 插件
✅ 配置 Prometheus 监控端点
✅ Agent 开始运行

就像你管理任何其他 Kubernetes 资源一样。

kagent 的核心组件

1. Agent CRD

这是整个系统的基石。Agent 自定义资源定义了 Agent 的完整规范：

字段	说明
`spec.model`	模型配置：provider、name、temperature、max tokens
`spec.tools`	工具列表：名称、权限、配置参数
`spec.memory`	记忆配置：类型、存储后端、检索策略
`spec.policy`	策略配置：最大迭代、超时、人工审批规则
`spec.resources`	资源限制：CPU、内存、GPU
`spec.affinity`	调度策略：节点亲和性、污点容忍

2. kagent Operator

用 Go 编写的 Kubernetes Operator，是整个系统的大脑：

┌─────────────────────────────────────────┐
│           kagent Operator               │
├─────────────┬─────────────┬─────────────┤
│  Controller │  Reconciler │  Webhook    │
└─────────────┴─────────────┴─────────────┘
       │             │             │
       ▼             ▼             ▼
  Watch CRs     Reconcile     Validate
  & Events     State         & Mutate

Operator 的核心职责：

监听：监控 Agent、Tool、Model 等 CR 的变化
协调：确保实际状态与期望状态一致
验证：准入 Webhook 校验 Agent 配置合法性
注入：Pod 创建时自动注入 Sidecar 和配置

3. Tool CRD

Tool 也是独立的 CRD，可以被多个 Agent 复用：

apiVersion: tools.kagent.dev/v1alpha1
kind: Tool
metadata:
  name: database-query
spec:
  type: sql
  image: kagentdev/tool-sql:v0.1.0
  config:
    connectionStringSecret: db-credentials
    allowedDatabases: ["production"]
    readOnly: true

这意味着：

工具开发者可以独立发布和更新工具
平台管理员可以集中管理工具权限
Agent 作者只需要引用工具名称，不需要关心工具如何部署

4. Model CRD

同样，Model 也是可复用的资源：

apiVersion: models.kagent.dev/v1alpha1
kind: Model
metadata:
  name: company-gpt-standard
spec:
  provider: openai
  baseModel: gpt-4o
  temperature: 0.7
  rateLimit: 1000/hour
  budget: 100 USD/month

平台团队可以定义公司级别的模型配置，业务团队直接引用即可，不用每个人都去申请 API Key。

为什么这很重要？

在 kagent 出现之前，Agent 部署的状态是这样的：

开发者笔记本 ── scp/rsync ──> 某台服务器
                                     
  监控：SSH 上去看日志
  扩容：再开几个 screen 会话
  升级：杀掉进程重新跑
  回滚：什么是回滚？

这就是 2025 年大多数 "生产级" Agent 的真实部署状态。

kagent 带来的是整个范式的转变：

	传统 Agent 部署	kagent 方式
定义	代码里硬编码	YAML 声明式
部署	手动 / 脚本	`kubectl apply`
扩缩容	手动改进程数	`kubectl scale --replicas=10`
监控	print + grep	Prometheus + Grafana
日志	看文件	ELK / Loki
密钥	.env 文件	Kubernetes Secrets
高可用	靠人盯着	Pod 自动重启 + 故障转移
RBAC	没有	Kubernetes RBAC

这不是渐进式的改进，这是从石器时代到工业时代的跨越。

kagent 的架构优势

1. 真正的多租户

在同一个 Kubernetes 集群中，你可以有：

团队 A 的 Agent 运行在 Namespace A，只能访问数据库 A
团队 B 的 Agent 运行在 Namespace B，只能调用内部 API
运维团队的 Agent 有集群级别的只读权限

所有的隔离和权限控制都是标准的 Kubernetes 能力，kagent 不需要重新发明一遍。

2. 无限的可扩展性

需要 GPU 加速你的 Agent？

spec:
  resources:
    limits:
      nvidia.com/gpu: 1

需要 Agent 只能在特定节点上运行？

spec:
  affinity:
    nodeSelector:
      agent-type: premium

需要自动扩缩容基于队列长度？用 KEDA。需要金丝雀发布？用 Argo Rollouts。需要服务网格？用 Istio。

整个云原生生态系统，现在都是你的 Agent 基础设施的一部分。

3. 统一的可观测性

kagent 自动暴露 Prometheus metrics 端点：

agent_iterations_total：Agent 迭代总次数
agent_tool_calls_total：工具调用次数
agent_errors_total：错误次数
agent_duration_seconds：单次任务耗时
agent_tokens_used：Token 消耗量

配合 Grafana Dashboard，你可以一眼看到整个组织所有 Agent 的运行状态。

典型使用场景

场景 1：DevOps Agent

apiVersion: agent.kagent.dev/v1alpha1
kind: Agent
metadata:
  name: k8s-ops-agent
spec:
  model:
    name: gpt-4o
  tools:
    - name: kubectl-read-only
    - name: prometheus-query
    - name: incident-creator
  policy:
    humanApprovalRequired: true
    approvalTimeout: 10m

这个 Agent 可以：

监控集群异常
自动排查问题
提出修复建议
需要人类确认后才执行操作

场景 2：客服 Agent 集群

apiVersion: agent.kagent.dev/v1alpha1
kind: Agent
metadata:
  name: customer-support
spec:
  replicas: 50
  autoscaling:
    minReplicas: 10
    maxReplicas: 100
    targetQueueLength: 10
  model:
    name: claude-3.5-sonnet
  tools:
    - name: ticket-database
    - name: knowledge-base-search

基于排队长度自动扩缩容的客服 Agent 集群，高峰期自动扩容，低谷期自动缩容节省成本。

场景 3：数据科学家 Agent 沙箱

apiVersion: agent.kagent.dev/v1alpha1
kind: Agent
metadata:
  name: data-scientist-assistant
  namespace: data-science
spec:
  resources:
    limits:
      cpu: "8"
      memory: "32Gi"
      nvidia.com/gpu: "1"
  tools:
    - name: jupyter-executor
    - name: s3-data-access
  policy:
    maxBudget: "50 USD/month"

每个数据科学家可以一键申请自己的 AI Assistant，资源隔离，成本可控。

当前状态与展望

kagent 目前处于 CNCF Sandbox 阶段（2025年5月加入），但发展速度非常快。

已经实现的功能：

✅ Agent CRD 与 Operator
✅ Tool CRD 与插件系统
✅ Model CRD 与多 Provider 支持
✅ Prometheus Metrics
✅ 基础的策略引擎
✅ 人工审批工作流

正在开发的功能：

🔄 Agent 工作流编排（类似 Argo Workflows）
🔄 跨集群 Agent 联邦
🔄 Agent 市场与一键安装
🔄 成本分析与优化建议

写在最后

kagent 最令人兴奋的地方，不是它实现了什么特别牛逼的 Agent 功能，而是它选择了正确的抽象层。

大多数 Agent 框架都在问："怎么让 Agent 更聪明？"

kagent 在问："怎么让 10000 个 Agent 可靠地跑在生产环境里？"

这是一个非常重要的区别。当 Agent 从 Demo 走向生产时，后者才是真正的瓶颈。

在 Web 开发从裸服务器走向 Kubernetes 的过程中，我们花了 10 年时间才沉淀出现在的云原生技术栈。而 AI Agent 的基础设施建设，kagent 给我们开了一个很好的头。

未来的某一天，当你打开公司的 Kubernetes Dashboard，看到成百上千个 Agent Pod 在默默地工作时，请记住这一切的起点：kagent，第一个把 Agent 真正云原生化的框架。

参考文章

kagent 官方 GitHub — https://github.com/kagent-dev/kagent 项目的官方仓库，包含完整的文档、示例和 Roadmap
CNCF Sandbox Project Announcement — https://www.cncf.io/blog/2025/05/15/welcoming-kagent-to-the-cncf-sandbox/ CNCF 官方博客宣布 kagent 加入 Sandbox 项目
Solo.io Blog: Introducing kagent — https://www.solo.io/blog/introducing-kagent-kubernetes-native-ai-agent-framework/ Solo.io CTO 撰写的深度介绍，包含设计理念和架构细节
Cloud Native AI Agents Whitepaper — https://github.com/cncf/tag-runtime/blob/main/whitepapers/cloud-native-ai-agents.md CNCF TAG Runtime 发布的云原生 AI Agent 白皮书

作者: itech001 来源: 公众号：AI人工智能时代网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代，转载请注明出处。

kagent：CNCF 首个 Kubernetes 原生 AI Agent 框架深度解析

kagent：CNCF 首个 Kubernetes 原生 AI Agent 框架深度解析

什么是 kagent？

核心设计：Agent 就是 CRD

kagent 的核心组件

1. Agent CRD

2. kagent Operator

3. Tool CRD

4. Model CRD

为什么这很重要？

kagent 的架构优势

1. 真正的多租户

2. 无限的可扩展性

3. 统一的可观测性

典型使用场景

场景 1：DevOps Agent

场景 2：客服 Agent 集群

场景 3：数据科学家 Agent 沙箱

当前状态与展望

写在最后

参考文章

相关阅读

Agent 爆发之后，谁来做流量网关？agentgateway 的答案

AI 时代最值钱的技能之一：GPU 集群管理完整学习路径，看懂了你就是稀缺人才

Better Harness：让 AI 编程 Agent 越用越好的开源工具，QoderAI 出品

Kimi Code CLI：月之暗面开源的终端 AI 编程助手，一行命令装好就能用