Mastra AI 框架深度解析:25.5k Star,Replit/Brex/MongoDB 都在用的生产级 Agent 平台
Mastra AI 框架深度解析:25.5k Star,Replit/Brex/MongoDB 都在用的生产级 Agent 平台
2026 年,AI Agent 框架的战场出现了一个低调但绝对不容忽视的玩家:Mastra。
说它低调,是因为你可能很少在中文技术社区看到它的讨论。说它不容忽视,是因为它的客户名单和使用规模,足以让任何其他 AI 框架汗颜:
- Replit:Agent 3 每天运行数千个 Mastra 沙箱
- Brex:51 亿美元收购 Capital One 的交易背后,agentic finance 系统由 Mastra 驱动
- Marsh McLennan:10 万员工的全球分布式团队使用基于 Mastra 的 LenAI 智能搜索
- Sanity:内容 Agent 扩展到 30,000+ 组织
- MongoDB:Mastra Agent 每天在基础设施内部处理 10TB CI 日志
- PayPal、Elastic、SoftBank、WorkOS……
GitHub 25.5k Stars,TypeScript 原生,全栈可观测性,从初创公司到财富 500 强都在用。
这篇文章,我们来深度解析这个可能是目前最被低估的生产级 AI Agent 框架。
Mastra 是什么?
官方定义很简单:
Mastra is the modern TypeScript framework for AI-powered applications and agents.
翻译一下:Mastra 是为 AI 应用和 Agent 设计的现代 TypeScript 框架。
但这个定义远远不能概括它的全部。
Mastra 不是又一个 LangChain 克隆。它的设计哲学和定位,和目前市面上的大多数 AI 框架都不一样:
| 维度 | Mastra | LangChain / LlamaIndex |
|---|---|---|
| 核心定位 | 生产级 Agent 应用平台 | 通用 AI 工具集 |
| 语言绑定 | TypeScript 原生,深度集成 | 多语言(Python 优先) |
| 可观测性 | 内置,一等公民 | 第三方插件 |
| 评估系统 | 内置 Evals 框架 | 需要自己实现 |
| 部署方式 | 内置 Server,一键部署 | 需要自己搭服务 |
| 目标用户 | 专业工程团队,生产环境 | 所有开发者,原型优先 |
Mastra 是给认真想把 Agent 跑到生产环境的工程团队准备的。
五大核心能力
Mastra 的功能模块非常清晰,五大块:Agents、Workflows、Harness、Memory、Server。
🔹 1. Agents:类型化的 Agent 定义
这是 Mastra 最基础也是最核心的抽象。
看一眼代码你就懂了:
import { Agent } from "@mastra/core/agent";
export const weatherAgent = new Agent({
id: "weather-agent",
name: "Weather Agent",
instructions: `
You are a helpful weather assistant.
Always provide the temperature in Celsius.
`,
model: "openai/gpt-5.5",
tools: { weatherTool },
});看起来很简单对不对?但这里有几个关键的设计决策:
- 强类型:所有字段都是 TypeScript 类型化的,IDE 自动补全,编译时错误检查
- 声明式:你告诉它"是什么",而不是"怎么运行"
- 关注点分离:instructions、model、tools,各司其职
- 可组合:Agent 可以调用其他 Agent,可以嵌套,可以协作
最重要的一点:这个定义不是只在你的代码里有用。
这个 Agent 定义,会被 Mastra 的整个生态系统消费:
- 可观测性系统用它来做 tracing
- 评估系统用它来跑 evals
- 部署系统用它来自动生成 API 端点
- 管理面板用它来展示 Agent 状态
你只定义一次,处处可用。
🔹 2. Workflows:有状态的 Agent 工作流
大多数 AI 框架的 Agent 都是无状态的——给一个输入,返回一个输出。但真实世界的 Agent 应用,几乎都是有状态的多步骤流程。
Mastra Workflows 就是解决这个问题的。
一个典型的用户入职 Workflow:
import { Workflow, step } from "@mastra/core/workflow";
export const onboardingWorkflow = new Workflow({
id: "user-onboarding",
trigger: { event: "user.signed.up" },
steps: {
createUser: step(async ({ context }) => {
// 创建用户记录
return { userId: context.user.id };
}),
sendWelcomeEmail: step(async ({ context, prev }) => {
// 发送欢迎邮件
await emailService.sendWelcome(context.user.email);
return { sent: true };
}),
provisionResources: step(async ({ context }) => {
// 为用户创建专属资源
return { resources: provisioned };
}),
},
});关键特性:
- 持久化状态:工作流执行到一半,服务重启了也没关系,状态会保留
- 步骤重试:单个步骤失败,自动按策略重试
- 条件分支:根据上一步的输出决定走哪条路
- 人工审核:支持"人在回路",暂停工作流等人来审批
- 版本管理:工作流定义可以升级,不影响正在运行的实例
这才是生产级应用真正需要的东西。大多数 AI 框架在这一层几乎是空白。
🔹 3. Harness:Agent 的安全沙箱
这是 Mastra 最独特也是最强大的功能之一。
Harness 是什么?它是 Agent 代码的安全执行环境。
当你的 Agent 需要执行任意代码、调用外部工具、访问用户数据的时候,你不能直接让它跑在你的主进程里。你需要一个沙箱。
Mastra Harness 提供:
- 代码执行隔离:Agent 生成的代码跑在独立的 V8 隔离环境里
- 权限控制:精细控制 Agent 能访问什么、不能访问什么
- 资源限制:CPU、内存、执行时间的硬限制
- 行为审计:Agent 做的每一件事都被记录和审计
- 超时和中断:Agent 死循环了?直接 kill 掉,不影响主服务
这就是为什么 Replit 可以每天安全地运行数千个 Mastra 沙箱。
没有这个,你永远不敢把 Agent 真正开放给用户。
🔹 4. Memory:结构化的 Agent 记忆
Mastra 的 Memory 系统不是简单的向量数据库包装。
它支持多层级的记忆结构:
- 会话记忆:当前对话的上下文
- 长期记忆:跨会话的用户画像和历史
- 工作记忆:Agent 当前正在处理的任务状态
- 知识库记忆:RAG 的外部知识
而且,最重要的是:记忆是可观察、可编辑、可解释的。
你可以在 Mastra 的管理面板里看到:
- 这个 Agent 记住了什么?
- 它是从哪次交互里记住的?
- 它为什么做出了这个决策?
- 你甚至可以手动编辑记忆,修正 Agent 的行为。
大多数 AI 框架把记忆做成了一个黑盒——你往向量数据库里塞东西,然后祈祷 RAG 能搜到正确的。Mastra 把记忆做成了一个透明的、可管理的系统。
🔹 5. Server:零配置部署
定义好了 Agent 和 Workflow,怎么把它们变成可以调用的服务?
Mastra 的答案是:什么都不用做。
mastra serve就这么简单。
所有的 Agent 自动变成 REST API + GraphQL 端点:
POST /api/agents/weather-agent/invoke
POST /api/workflows/user-onboarding/start
GET /api/agents/weather-agent/traces
GET /api/agents/weather-agent/evals自动生成 OpenAPI 文档,自动支持 Webhook,自动集成可观测性。
你不需要写任何路由代码,不需要配置任何中间件,不需要处理鉴权(当然你可以加)。
真正的杀手级功能:内置可观测性
这是 Mastra 和所有其他 AI 框架最大的区别。
对于生产级 AI 应用来说,可观测性不是锦上添花,是生死攸关的基础设施。
你的 Agent 在生产环境里:
- 为什么做出了这个回答?
- 它调用了哪些工具?花了多长时间?
- 这次调用花了多少钱?
- 失败率是多少?哪类问题最容易失败?
- 新版本的 Agent 比旧版本好还是坏?
如果你回答不了这些问题,你就不应该把你的 Agent 放到生产环境。
Mastra 把可观测性做到了骨子里。四大模块,全部内置:
📊 Evals(评估)
Score agent runs against repeatable checks before changes reach production.
在变更发布到生产之前,自动运行评估检查,确保新版本的表现符合预期。
📈 Metrics(指标)
- Token 用量和成本
- 调用延迟和成功率
- 工具调用频率和失败率
- 用户满意度评分
所有指标自动聚合,自带 Prometheus exporter,直接接入你的监控系统。
📚 Datasets(数据集)
- 自动收集生产环境的真实交互数据
- 一键导出用于微调或评估
- 版本管理,可回溯,可复现
🔍 Traces(链路追踪)
完整的 OpenTelemetry 链路追踪。从用户发请求,到 Agent 思考,到调用每一个工具,到最后生成回答,每一步都有完整的 trace。
你可以在管理面板里看到一次完整调用的火焰图:
User Request (2.3s)
├─ Agent Thinking (0.8s)
│ └─ LLM Call (0.7s) [Tokens: 1200 → Cost: $0.0024]
├─ Tool Call: search_database (0.5s)
│ └─ SQL Query (0.3s)
├─ Tool Call: send_email (0.4s)
└─ Generate Response (0.6s)
└─ LLM Call (0.5s) [Tokens: 800 → Cost: $0.0016]没有其他任何 AI 框架,把可观测性做到了这个粒度。
客户案例:Mastra 在真实世界的用法
让我们看看那些真正把 Mastra 用到生产环境的公司,都用它来做什么。
案例 1:Replit Agent 3
每天运行数千个 Mastra 沙箱
Replit 的 Agent 3 是一个可以帮你写代码、运行代码、调试代码的 AI 助手。所有 Agent 代码的执行,全部跑在 Mastra Harness 沙箱里。
对于 Replit 来说,安全性是第一要求。用户让 AI 生成的代码,可能是任何东西——有 bug,有漏洞,甚至是恶意的。Mastra Harness 提供的隔离环境和权限控制,让 Replit 可以安全地每天运行成千上万次不可信的代码执行。
案例 2:Brex Agentic Finance
51 亿美元收购案的技术支撑
Brex 是一家金融科技公司,他们用 Mastra 构建了整个 agentic finance 系统。AI Agent 可以:
- 自动分析数百万条交易记录
- 检测异常和欺诈
- 自动生成财务报告
- 回答复杂的财务问题
在 Brex 收购 Capital One 商业部门的 51 亿美元交易中,Mastra Agent 处理和分析了海量的财务数据,为决策提供了关键支持。
案例 3:Marsh McLennan LenAI
10 万员工的智能搜索
Marsh McLennan 是世界上最大的保险经纪和专业服务公司,10 万员工分布在全球 130 多个国家。他们用 Mastra 构建了 LenAI——一个智能搜索 Agent,可以理解员工的自然语言问题,从公司内部海量的文档、邮件、知识库中找到答案。
对于这么大的组织来说,可观测性和合规性是硬要求。所有 Agent 的访问、查询、回答都必须可审计、可追溯。Mastra 的内置 tracing 和审计日志,满足了最严格的企业合规要求。
案例 4:MongoDB CI Agent
每天处理 10TB CI 日志
MongoDB 的 CI 系统每天产生海量的日志。工程师最头疼的问题就是:CI 失败了,几千行日志,我到底该看哪?
他们用 Mastra 构建了一个 CI 诊断 Agent,可以:
- 自动分析失败的 CI 日志
- 定位根本原因
- 建议修复方案
- 自动关联相关的 Issue 和 PR
每天处理 10TB 日志,这不是玩具 Demo,这是真实的、大规模的生产使用。
Mastra 的设计哲学
为什么这么多顶级公司选择了 Mastra,而不是更流行的 LangChain?我认为核心是三个设计原则:
原则 1:生产优先,而不是原型优先
LangChain 的设计目标是"让你快速做一个 Demo"。Mastra 的设计目标是"让你能把这个 Demo 安全、可靠、可观测地运行在生产环境,服务几百万用户"。
这是完全不同的设计优先级。
原则 2:Opinionated,但灵活
Mastra 对"怎么写 Agent 应用"有很强的主见。它告诉你:
- Agent 应该这么定义
- 工作流应该这么写
- 可观测性应该这么做
- 部署应该这么搞
你不需要自己做 100 个架构决策。Mastra 已经帮你选好了经过生产验证的最佳实践。
但如果你真的需要定制,所有的模块都是可替换、可扩展的。
原则 3:完整的闭环,而不是零散的工具
大多数 AI 框架给你一堆积木,然后告诉你"你自己拼吧"。Mastra 给你一个完整的闭环:
- 开发 → 测试 → 评估 → 部署 → 监控 → 迭代
从你写第一行代码,到你在生产环境里观察它的表现,整个流程都在 Mastra 的体系里。
谁应该用 Mastra?
✅ 你应该用 Mastra,如果:
- 你是一个专业的工程团队,不是个人爱好者
- 你需要把 Agent 应用真正跑到生产环境
- 可观测性、可靠性、安全性对你来说很重要
- 你的技术栈是 TypeScript / Node.js
- 你不想自己搭一整套 AI 基础设施
❌ 你不应该用 Mastra,如果:
- 你只是想快速做个原型玩玩
- 你的技术栈是 Python 为主,不想换
- 你需要极致的灵活性,所有东西都想自己控制
- 你的应用很简单,不需要工作流、可观测性这些东西
挑战和隐忧
当然,Mastra 也不是完美的。
⚠️ 挑战 1:生态系统还比较小
和 LangChain 比,Mastra 的第三方集成、插件、社区教程的数量都少得多。如果你需要一些非常小众的 LLM 提供商或者工具,可能需要自己写集成。
⚠️ 挑战 2:有一定的学习曲线
Mastra 有很多概念:Agent、Workflow、Harness、Memory、Evals、Traces... 对于刚接触的开发者来说,需要一段时间才能完全理解和掌握。
⚠️ 挑战 3:TypeScript Only
目前 Mastra 是 TypeScript 原生,而且看起来短期内也没有支持 Python 的计划。对于 Python 栈的团队来说,这是一个硬门槛。
行业影响
Mastra 的崛起,标志着 AI Agent 框架的一个重要转折点:
从"怎么让 Agent 跑起来",到"怎么让 Agent 可靠地运行在生产环境"。
前几年,大家都在兴奋地做各种 Agent Demo——看起来很酷,但是一到生产环境就各种问题:不可观测、不可调试、失败率高、成本不可控、安全有风险。
现在,行业开始成熟了。我们需要的不再是又一个能调用 LLM 的库。我们需要的是一套完整的、经过生产验证的工程体系,让我们能像开发、部署、监控传统软件一样,开发、部署、监控 AI Agent。
Mastra 就是这个方向的先行者。
接下来的一两年,我们大概率会看到:
- 所有主流 AI 框架都会开始认真做可观测性
- 工作流编排会成为 Agent 框架的标准功能
- 安全沙箱和权限控制会从"没人在乎"变成"标配"
- 评估系统会和 CI/CD 深度集成
而 Mastra,已经在这些方向上领先了至少 1-2 年。
写在最后
AI 领域的炒作太多了。每天都有新的框架、新的模型、新的范式,让人眼花缭乱。
但当你拨开这些炒作,看真实的生产环境里到底在用什么,你会发现一些不一样的答案。
Mastra 就是这样一个答案。它没有那么多炒作,没有那么多头条,但是顶级的工程团队在用它,用它跑大规模的、真实的、赚钱的业务。
这才是真正有价值的技术。
如果你是一个认真想把 Agent 应用做到生产环境的开发者,我强烈建议你花一个下午看看 Mastra。它可能会彻底改变你对"AI 应用开发"的理解。
npm create mastra试试看。
参考资源
Mastra 官方网站 — https://mastra.ai 官方文档、教程、快速开始
Mastra GitHub — https://github.com/mastra-ai/mastra02 源码、Issue、Discussions
客户案例 — https://mastra.ai/customers Replit、Brex、MongoDB 等公司的详细案例
Mastra Workshop — "Patterns for Production AI Agents" 官方线上研讨会,6 月 30 日 4pm UTC
作者: itech001 来源: 公众号:AI人工智能时代 网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。
本文首发于 AI人工智能时代,转载请注明出处。