AI 相关的核心要点是什么？

本文围绕 AI、OpenRouter、多模型融合、LLM、Benchmark、DRACO、API 展开，OpenRouter Fusion多模型并行融合，DRACO基准超越Fable 5，便宜模型组队半价达前沿水平。详细解读见正文。

三个便宜模型组队干翻 Fable 5：OpenRouter Fusion 的多模型融合实验

2026-06-16T18:00:00+08:00

AIOpenRouter多模型融合LLMBenchmarkDRACOAPI

三个便宜模型组队干翻 Fable 5：OpenRouter Fusion 的多模型融合实验

一个模型想不通的问题，三个模型一起想。OpenRouter 用"模型陪审团"的思路，把深度研究任务的质量推到了前沿模型之上。

OpenRouter 上周发布了 Fusion Router（openrouter/fusion），一个多模型融合推理工具。核心思路很直接：让一组模型并行回答同一个问题，然后由一个"裁判模型"对比分析各模型的回答——不是简单合并，而是结构化地提取共识、矛盾、覆盖盲区、独特洞察——最终由你的模型基于这份分析写出更好的答案。

OpenRouter 团队在 DRACO 深度研究基准上做了 100 个任务的测试，结果相当有说服力。

本文提纲

DRACO 基准测试结果：Fusion 全面超越单模型
Fusion 的工作原理：Panel + Judge 架构
四种使用方式：从零代码到完全自定义
成本与延迟：值得的取舍
模型自己融合自己也有提升
防止作弊的工程设计
适用场景和局限性

DRACO 基准测试结果：Fusion 全面超越单模型

DRACO 是 Perplexity AI 设计的深度研究基准，包含 100 个跨 10 个领域的复杂研究任务（学术、金融、法律、医学、技术等）。每个任务有约 39 个加权评分标准，涵盖事实准确性、广度与深度、呈现质量、引用质量四个维度。负权标准意味着说出错误信息会被扣分——这使得靠"废话多"来刷分变得不可能。

每个回答由裁判模型独立评分三次，报告平均归一化分数（0-100）。

类型	模型	得分
Fusion	Fable 5 + GPT-5.5（Opus 4.8 综合）	69.0%
Fusion	Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro（Opus 4.8 综合）	68.3%
Fusion	Opus 4.8 + GPT-5.5（Opus 4.8 综合）	67.6%
Fusion	Opus 4.8 + Opus 4.8（Opus 4.8 综合）	65.5%
Solo	Claude Fable 5	65.3%
Fusion	Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro	64.7%
Solo	DeepSeek V4 Pro	60.3%
Solo	GPT-5.5	60.0%
Solo	Claude Opus 4.8	58.8%
Solo	Kimi K2.6	53.7%
Solo	Gemini 3.1 Pro	45.4%
Solo	Gemini 3 Flash	43.1%

三个关键发现：

Panel 始终优于单模型。Fable 5 + GPT-5.5 融合得分 69.0%，比 Fable 5 单独跑的 65.3% 高 3.7 个百分点。
前沿面板可以实现超越前沿的性能。这在单模型范式下是不可能的——你不能让一个模型表现得比它自己能做的更好。
便宜模型组队可以逼近前沿。Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 这三个模型各自的得分都不算顶尖（43-60%），但组队后达到 64.7%——以约 50% 的成本逼近 Fable 5 的水平。

Fusion 的工作原理：Panel + Judge 架构

flowchart LR
    A["你的请求"] --> B["你的模型"]
    B -->|"调用 openrouter:fusion"| C["Panel 面板
最多 8 个模型
+ web_search + web_fetch"]
    C --> D["Judge 裁判
+ web_search + web_fetch
输出结构化 JSON"]
    D -->|"分析报告"| B
    B --> E["最终答案"]

工作流程：

你发送请求，模型判断任务是否需要多模型讨论。如果需要，调用 openrouter:fusion 工具。
Panel（面板）——一组模型并行回答你的 prompt，每个模型都启用了 web_search 和 web_fetch。
Judge（裁判） 接收所有面板回答，不是简单合并，而是产出结构化 JSON 分析：
- 共识：多数模型同意的观点（高置信度）
- 矛盾：模型间分歧之处
- 覆盖盲区：只有部分模型覆盖的内容
- 独特洞察：个别模型的独到见解
- 盲点：所有模型都没涉及的领域
你的模型基于分析报告写出最终答案。

一个重要的设计选择：裁判分析而非合并。这意味着最终答案不是各模型答案的拼贴，而是经过结构化思考后的综合输出。

四种使用方式

Fusion 提供四种接入方式，复杂度递增：

1. 聊天室（零代码）

打开 openrouter.ai/fusion，选预设或自建面板。

2. Model Slug（最简 API 调用）

{
  "model": "openrouter/fusion",
  "messages": [
    { "role": "user", "content": "碳税的最强论据和反对意见分别是什么？" }
  ]
}

一行 "model": "openrouter/fusion" 搞定，自动注入 Fusion 工具。

3. Server Tool（完全自定义）

{
  "model": "~anthropic/claude-opus-latest",
  "messages": [
    { "role": "user", "content": "..." }
  ],
  "tools": [
    {
      "type": "openrouter:fusion",
      "parameters": {
        "analysis_models": [
          "~anthropic/claude-opus-latest",
          "~openai/gpt-latest",
          "~google/gemini-pro-latest"
        ],
        "model": "~openai/gpt-latest"
      }
    }
  ]
}

你可以自选外层模型，自定义面板成员和裁判模型，还能把 Fusion 和其他工具组合使用。

4. Plugin（插件模式）

{
  "model": "openrouter/fusion",
  "messages": [{ "role": "user", "content": "..." }],
  "plugins": [{
    "id": "fusion",
    "model": "google/gemini-3-flash-preview",
    "analysis_models": [
      "google/gemini-3-flash-preview",
      "moonshotai/kimi-k2.6",
      "deepseek/deepseek-v4-pro"
    ]
  }]
}

强制每次调用 Fusion：默认模型自行判断是否需要 Fusion。加 tool_choice: "required" 可强制每次请求都触发。

成本与延迟：值得的取舍

Fusion 运行 N 个面板调用 + 1 个裁判调用。默认 3 模型面板时，成本约为单次完成的 4-5 倍，随面板大小线性增长。

延迟方面，正常请求速度和平时一样——只有当模型判断需要 Fusion 时才会触发多步流程，通常比标准调用慢 2-3 倍。

这个取舍是合理的：简单问题直接回答不额外花钱，只在需要深度研究的复杂问题上多花几倍成本换一个更好的答案。

省钱策略：用便宜模型组队。Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 的组合成本约为 Fable 5 单模型的一半，但得分只低 0.6 个百分点。

模型自己融合自己也有提升

一个有趣的实验：Opus 4.8 和自己组队（两个 Opus 4.8 面板 + Opus 4.8 裁判），得分 65.5%——比单独 Opus 4.8 的 58.8% 高出 6.7 个百分点。

这说明 Fusion 的提升相当一部分来自综合步骤本身，而不仅仅是模型多样性。同一个 prompt 跑两次会产生不同的推理路径、不同的工具调用、不同的来源选择。综合步骤把这些差异整合成更全面的答案。

当然，这还比不上多样化模型面板的效果（67.6-69.0%），但说明即使你只有一个模型的访问权限，Fusion 仍然有价值。

防止作弊的工程设计

OpenRouter 在测试中发现了一个意外：给了面板模型 web 搜索能力后，它们搜索时偶然找到了 DRACO 的评分标准。虽然不是故意作弊，但确实暴露了一个真实的污染风险。

解决方案：通过 excluded_domains 和 blocked_domains 配置，阻止模型访问基准测试相关页面。OpenRouter 的 server tools 支持全局排除列表，一行配置搞定，无需按模型单独处理。

另外，Fusion 有递归保护机制：内部 Fusion 调用携带 x-openrouter-fusion-depth 头，面板和裁判模型无法递归调用 openrouter:fusion，确保讨论限制在单层。

适用场景和局限性

最适合的场景：

深度研究问题（多来源综合分析）
专家级评审（需要多角度审视）
"比较和对比"类 prompt
犯错的代价高于多跑几次 API 调用的场景
架构决策、最佳实践调研

不太适合的场景：

简单问答（模型会直接回答，不触发 Fusion）
编码任务（Fusion 不是编码模型的替代品，而是辅助工具）
长周期任务（Fable 5 在这方面更强）
对延迟敏感的场景

Fusion vs Fable 5：OpenRouter 明确说 Fusion 不是 Fable 5 的替代品。基准测试只覆盖了 DRACO 深度研究任务，Fable 5 在长周期任务上有自己的优势。但 Fusion 的"模型陪审团"思路，为那些无法访问 Fable 5 或想要更低成本的团队提供了一条可行的路径。

你有在用多模型融合的方案吗？评论区聊聊你的经验。觉得有用就点个赞，让更多人看到这个工具。

参考文档与链接

OpenRouter 官方

Fusion Router 文档 — 完整的 API 文档和配置指南
Surpassing Frontier Performance with Fusion — DRACO 基准测试博客文章
Fusion 聊天室 — 在线交互式体验
Fusion Server Tool 文档 — Server Tool 模式详解
Fusion Plugin 文档 — Plugin 模式详解

相关基准和研究

DRACO Benchmark (Perplexity AI) — 深度研究评估基准论文
OpenRouter Auto Router — 自动路由器文档
OpenRouter Pareto Router — 帕累托路由器文档

相关技术讨论

Reddit: Introducing Fusion — 社区讨论和反馈
Techmeme: OpenRouter debuts Fusion — Techmeme 报道和评论
TheRundown: How to Test Multiple AI Models with the Same Prompt — 实用教程

作者: itech001
来源: 公众号：AI人工智能时代
网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代，转载请注明出处。

三个便宜模型组队干翻 Fable 5：OpenRouter Fusion 的多模型融合实验

三个便宜模型组队干翻 Fable 5：OpenRouter Fusion 的多模型融合实验

本文提纲

DRACO 基准测试结果：Fusion 全面超越单模型

Fusion 的工作原理：Panel + Judge 架构

四种使用方式

成本与延迟：值得的取舍

模型自己融合自己也有提升

防止作弊的工程设计

适用场景和局限性

参考文档与链接

相关阅读

AI 技术日报 - 2026-07-31

AI 技术日报 - 2026-07-30

AI 技术日报 - 2026-07-29

AI 技术日报 - 2026-07-22