Qwen3.7 相关的核心要点是什么？

本文围绕 Qwen3.7、阿里、千问、代码竞技场、SOTA、LLM 展开，阿里 Qwen3.7 Max 在代码竞技场斩获第四名，与 Claude Opus、GPT-5.5 并肩，成为中国排名最高的模型。一文讲清 SOTA 是什么。。详细解读见正文。

Qwen3.7 Max 代码竞技场第四名：中国模型首次杀入全球顶尖梯队

2026-05-27T09:00:00+08:00

Qwen3.7阿里千问代码竞技场SOTALLM

Qwen3.7 Max 代码竞技场排名

阿里 Qwen 团队发布了最新旗舰模型 Qwen3.7 Max，在代码竞技场（Code Arena）中斩获第四名，与 Claude Opus 4.7、GPT-5.5 等顶尖模型肩并肩。这是中国模型在该榜单上的历史最高排名。

这篇文章涵盖什么

Qwen3.7 Max 的核心能力和规格
代码竞技场排名意味着什么
与全球顶尖模型的价格性能对比
SOTA 是什么意思，和模型排名的关系

Qwen3.7 Max 核心规格

特性	Qwen3.7 Max
上下文窗口	1M tokens（100 万）
推理模式	支持（可开关）
工具调用	✅
输入价格	$2.5/百万 token
输出价格	$7.5/百万 token
开源权重	❌（API 专属）
发布日期	2026-05-21

1M 上下文窗口 + 推理能力 + 工具调用，这是 2026 年旗舰模型的标配。Qwen3.7 Max 全部具备。

代码竞技场第四名意味着什么

代码竞技场（Code Arena / LiveCodeBench Arena）是一个社区驱动的模型评测排行榜。它的独特之处在于：用户盲评——不知道哪个回答来自哪个模型，纯粹按代码质量打分。

这意味着排名反映的是「真实编码场景下的模型实力」，而不是刷榜跑分。能在这个榜单上拿到第四名，说明 Qwen3.7 Max 的代码生成、调试、理解能力已经达到全球第一梯队。

目前榜单前列大致是：

排名	模型	厂商
1	Claude Opus 4.7	Anthropic
2	GPT-5.5 Pro	OpenAI
3	o3	OpenAI
4	Qwen3.7 Max	阿里
5	Gemini 3.5 Flash	Google
6	Grok 4.3	xAI
7	DeepSeek V4 Pro	DeepSeek

Qwen3.7 Max 是排名最高的中国模型，也是前五名中唯一的非美国模型。

与全球顶尖模型的价格性能对比

模型	输入价	输出价	上下文	推理	Qwen 相对优势
Qwen3.7 Max	$1.25~2.5	$3.75~7.5	1M	✅	—
Claude Opus 4.7	$5	$25	1M	✅	输出便宜 6.7 倍
GPT-5.5	$5	$30	1050k	✅	输出便宜 8 倍
o3	$2	$8	200k	✅	上下文窗口大 5 倍
DeepSeek V4 Pro	$0.435	$0.87	1M	✅	性能更强（但价格更高）

Qwen3.7 Max 在 Qwen Cloud（海外平台）限时 5 折，价格 $1.25/$3.75；国内百炼平台原价 ¥8/¥24（约 $1.1/$3.3）。

Qwen3.7 Max 的价格定位在 Claude/GPT 和 DeepSeek 之间：比 Anthropic/OpenAI 便宜数倍，比 DeepSeek 贵但代码竞技场排名更高。

SOTA 是什么意思

你可能经常在 AI 新闻里看到「某某模型达到了 SOTA」这样的说法。

SOTA = State of the Art，中文译为「当前最佳」或「业界最先进水平」。

具体含义

在 AI/ML 领域，SOTA 指的是在某个特定基准测试（Benchmark）上，当前获得最高分的模型或方法。

举个例子：

「Qwen3.7 Max 在代码竞技场达到 SOTA」——意思是它在代码生成评测中拿到了最高分（或接近最高分）
「GPT-5.5 在 MMLU 上达到 SOTA」——在多任务语言理解测试中表现最好

SOTA 和模型排名的关系

SOTA 是一个相对于特定基准的概念，不是绝对标签：

不同基准有不同的 SOTA：一个模型可能在代码生成上是 SOTA，但在数学推理上不是
SOTA 是动态的：今天达到 SOTA，下周可能被新模型超越
SOTA ≠ 最好用：跑分最高不代表在你的具体任务上表现最好
多个维度可以同时有 SOTA：MMLU（知识）、HumanEval（代码）、GSM8K（数学）各有各的 SOTA

常见的基准测试

基准	测什么	当前 SOTA 热门
MMLU	多任务知识理解	GPT-5.5、Claude Opus
HumanEval	Python 代码生成	Claude Opus、Qwen3.7 Max
GSM8K	数学推理	o3、Qwen3.7 Max
MATH	高等数学	o3、Gemini 3.5
Code Arena	社区盲评代码质量	Claude Opus、Qwen3.7 Max
Chatbot Arena	综合对话能力	Claude Opus、GPT-5.5

当有人说「某模型达到 SOTA」时，关键问题是：在哪个基准上？ 单一基准的 SOTA 不代表全面领先。

Qwen 全产品线

模型	定位	输入价	输出价	上下文	开源
Qwen3.7 Max	旗舰	$2.5	$7.5	1M	❌
Qwen3.6 Max	上代旗舰	$2.5	$7.5	1M	❌
Qwen3.6 Flash	性价比	$0.19	$1.13	1M	✅

Qwen3.6 Flash 是开源的，有 GPU 的团队可以免费本地运行。

怎么用

OpenAI 兼容 API

from openai import OpenAI

client = OpenAI(
    api_key="your-dashscope-api-key",
    base_url="https://dashscope.aliyuncs.com/compatible_mode/v1"
)

response = client.chat.completions.create(
    model="qwen3.7-max",
    messages=[{"role": "user", "content": "用 Python 实现快速排序"}],
)

阿里云百炼平台（国内）

通过 DashScope API 调用，支持 OpenAI 兼容格式。

Qwen Cloud 出海：面向全球开发者的新平台

就在昨天（5 月 26 日），阿里同步上线了 Qwen Cloud——面向海外市场的 AI 云平台，由 Intelligent Cloud Computing (Singapore) Pte. Ltd. 运营。

核心亮点

全英文界面：国际化的开发者体验，文档、控制台、API 全部英文
OpenAI 兼容 API：一行代码切换，迁移成本几乎为零
限时 5 折：Qwen3.7 Max 在 Qwen Cloud 上的价格为 $1.25/$3.75（百万 token），比国内定价便宜一半
全球合规：150+ 合规认证，企业级 VPC 隔离
Agent Skills 支持：给 AI 编码 Agent 安装 Qwen Cloud 的能力包

Qwen Cloud 上的模型矩阵

模型	类型	价格	特色
Qwen3.7 Max	文本 LLM	$1.25/$3.75	旗舰推理，1M 上下文
Qwen3.5-27B	开源 VLM	$0.3/$2.4	视觉+语言，262K 上下文
HappyHorse T2V	文生视频	$0.112/秒	高清视频生成
CosyVoice	语音合成	$0.26/万字	自然语音合成
Qwen3-Omni-Flash	多模态	$0.43/$1.66	119 种语言交互

Agent 集成

Qwen Cloud 专门为 Agent 场景设计了 Skills 机制。在你的编码 Agent（Claude Code、Cursor、Codex 等）中运行：

Read https://www.qwencloud.com/skills.md and follow the instructions to install qwencloud skills for me.

Agent 自动安装 Qwen Cloud 的能力包，直接在编码工作流中使用 Qwen 模型。

价格对比：Qwen Cloud vs 其他平台

模型	Qwen Cloud	国内百炼	Models.dev 数据
Qwen3.7 Max 输入	$1.25	¥8（约 $1.1）	$2.5
Qwen3.7 Max 输出	$3.75	¥24（约 $3.3）	$7.5

Qwen Cloud 的限时价格比 Models.dev 记录的原价便宜 50%，与 DeepSeek V4 Pro（$0.435/$0.87）的差距大幅缩小，同时性能更强。

为什么这个排名重要

中国模型的里程碑：首次有中国模型在社区盲评中进入全球前四
价格性能比的突破：比同级别的 Claude/GPT 便宜数倍
1M 上下文 + 推理能力：不是缩减版，是完整旗舰
竞争加速：Qwen 的进步会推动 OpenAI、Anthropic、Google 进一步降价和提升性能

作者: itech001 来源: 公众号：AI人工智能时代网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代，转载请注明出处。