当前位置：首页 > news >正文

100 万亿 tokens 实证洞察：OpenRouter 揭示 LLM 真实使用图景 —— 开源崛起、智能体推理主导，角色扮演与编程成核心场景，全球生态呈现多元化新格局

news 2026/3/26 17:26:02

总结至：《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》

1. 一段话总结

本研究基于OpenRouter平台100万亿 tokens的真实LLM交互数据，聚焦2024-2025年关键趋势：OpenAI o1模型推动行业从单轮生成转向多步审慎推理，开源模型占比达30%且中国模型快速崛起，创意角色扮演（占开源模型使用量超50%）和编程辅助成为核心应用场景，智能体推理（工具调用、长序列交互）兴起，同时观察到"灰姑娘玻璃鞋效应"（早期用户留存率显著更高），全球 usage 呈现北美主导、亚洲占比升至31%的多元化格局，为模型构建者、开发者和基础设施提供商提供了数据驱动的决策参考。

2. 思维导图（mindmap）

## 研究基础 - 数据来源：OpenRouter平台100万亿tokens真实交互数据 - 时间范围：主要覆盖2024年11月-2025年11月 - 核心方法：基于元数据分析，GoogleTagClassifier分类任务 ## 模型生态趋势 - 开源vs闭源：开源占比30%，闭源仍主导高价值场景 - 开源关键玩家：DeepSeek（14.37万亿tokens）、Qwen、Meta LLaMA等 - 模型规模演变：中型模型（15-70B参数）崛起，小型模型份额下降 - 地域分布：北美<50%，亚洲升至31%，中国模型贡献显著 ## 核心应用场景 - 开源模型：角色扮演（52%）、编程（15-20%）居前 - 全量模型：编程占比从11%升至50%，成为第一大场景 - 其他场景：翻译、知识问答、教育、科技/科学等 ## 关键使用趋势 - 推理模式：智能体推理兴起，推理模型占比超50% - 交互特征：提示词 tokens 增4倍，序列长度增3倍，编程场景驱动复杂交互 - 工具调用：使用率持续上升，Claude、Gemini等模型主导 ## 关键现象与动态 - 留存效应："灰姑娘玻璃鞋效应"，早期契合用户需求的模型留存率更高 - 成本与使用：需求弹性弱，闭源模型占高价值场景，开源模型主导高容量低价值场景 - 市场格局：多模型生态，无单一主导者，竞争聚焦差异化能力 ## 研究意义 - 对开发者：多模型整合策略 - 对模型提供商：持续创新与差异化 - 对基础设施商：适配智能体推理需求

3. 详细总结

一、研究背景与数据基础

研究契机：2024年12月OpenAI o1模型发布，推动LLM从单轮文本生成转向多步审慎推理，行业实践应用快速迭代，但实证研究滞后，本研究填补这一空白。
数据规模：基于OpenRouter平台100万亿 tokens的匿名元数据，涵盖全球数十亿次prompt-Completion交互，覆盖超300个模型、60+提供商，50%以上使用量来自美国以外地区。
研究方法：
- 任务分类：通过GoogleTagClassifier对0.25%样本分类，映射为编程、角色扮演等9大核心类别；
- 模型划分：按开源（权重公开）/闭源（API受限）、中国/非中国 origin 分类；
- 地理划分：基于账单地址确定用户区域，确保隐私合规；
- 时间范围：主要分析2024年11月-2025年11月，类别分析聚焦2025年5月后（标签系统稳定期）。

二、模型生态格局

维度	核心发现	关键数据
开源vs闭源	闭源仍占主导，开源稳步增长，形成双轨生态	开源模型占比达30%，闭源模型平均占70%；中国开源模型周占比最高近30%，平均13%
开源模型TOP10	DeepSeek居首，Qwen、Meta LLaMA紧随，市场从垄断转向多元化	DeepSeek（14.37万亿）、Qwen（5.59万亿）、Meta LLaMA（3.96万亿）
模型规模演变	中型模型（15-70B参数）崛起，小型模型（<15B）份额下降，大型模型（≥70B）多元化	中型模型自2024年11月Qwen2.5 Coder 32B发布后快速成为核心类别
地域分布	北美占比下降，亚洲快速增长，全球使用多元化	北美<50%，亚洲占比从13%升至31%；英语占82.87%，简体中文占4.95%

三、核心应用场景分析

开源模型场景分布：
- 主导场景：角色扮演（52%）和编程（15-20%），合计占比超70%；
- 角色扮演优势：开源模型内容限制更少，适配创意对话、游戏场景需求；
- 中国开源模型特色：编程+科技类占比达39%，高于全球开源平均水平。
全量模型场景趋势：
- 编程场景爆发：占比从2025年初11%升至年末50%，成为第一大场景；
- 头部模型主导：Anthropic Claude系列占编程场景60%以上，OpenAI、Google紧随；
- 其他场景：翻译、知识问答、教育、科技/科学等形成长尾分布，健康、法律场景碎片化明显。

四、关键使用行为趋势

智能体推理崛起：
- 推理模型占比：2025年末超50%，xAI Grok Code Fast 1、Google Gemini 2.5 Pro主导；
- 工具调用：使用率持续上升，Claude 3.5/4.5、Gemini系列为核心支持模型；
- 交互复杂度提升：提示词tokens增4倍（从1.5K→6K），序列长度增3倍（从2K→5.4K），编程场景驱动长文本交互（平均3-4倍于其他场景）。
成本与使用动态：
- 市场四象限：
  - 高端工作负载（高成本高使用）：科技、科学；
  - 大众流量驱动（低成本高使用）：编程、角色扮演；
  - 专业小众（高成本低使用）：金融、医疗、营销；
  - niche工具（低成本低使用）：翻译、法律、 trivia；
- 价格弹性：需求相对无弹性，10%降价仅带来0.5-0.7%使用增长，闭源模型垄断高价值场景，开源模型主导高容量场景。

五、关键现象与用户留存

灰姑娘"玻璃鞋"效应：早期用户与模型形成深度契合后，留存率显著高于后期用户，如Gemini 2.5 Pro（2025年6月 cohort 5个月留存40%）、Claude 4 Sonnet（2025年5月 cohort 5个月留存40%）；
特殊留存模式：
- 回归效应：DeepSeek模型出现用户流失后回归现象，因特定场景适配性优于竞品；
- 无契合困境：Gemini 2.0 Flash、Llama 4 Maverick未形成核心用户群，所有cohort留存低迷。

六、研究意义与启示

对模型构建者：聚焦中型模型优化、编程/角色扮演场景适配、多步推理能力；
对开发者：采用多模型策略，按任务选择最优模型，而非单一依赖；
对基础设施商：适配智能体推理的长序列、工具集成、跨模型调度需求；
对市场参与者：开源模型持续挤压闭源定价空间，差异化（可靠性、集成能力）成为核心竞争力。

4. 关键问题

问题1：开源LLM的核心应用场景是什么？其崛起对市场格局产生了哪些关键影响？

答案：开源LLM的核心应用场景是创意角色扮演（占比52%）和编程辅助（15-20%），合计贡献超70%的开源模型使用量。关键影响包括：1）形成"闭源主导高价值场景+开源占据高容量场景"的双轨生态，开源模型整体占比达30%；2）市场从单模型垄断转向多元化，DeepSeek、Qwen等开源模型与OpenAI、Anthropic形成竞争；3）中国开源模型快速崛起，平均占全球开源使用量13%，在编程、科技场景表现突出，重塑全球开源竞争格局；4）推动成本优化，开源模型以高性价比适配角色扮演、中小开发者编程等场景，挤压闭源模型的中低端市场空间。

问题2：LLM从"单轮交互"向"智能体推理"转型的关键特征的是什么？这一转型对产业链各环节提出了哪些新要求？

答案：转型的关键特征包括：1）推理模型占比超50%，多步审慎推理成为主流；2）工具调用使用率持续上升，模型需协调外部工具完成复杂任务；3）交互复杂度激增，提示词tokens增4倍、序列长度增3倍，编程场景驱动长文本推理；4）任务目标从"生成文本"转向"完成复合任务"，需规划、迭代、整合外部数据。对产业链的新要求：1）模型提供商：强化推理稳定性、工具适配能力、长上下文支持；2）基础设施商：优化长序列推理性能、支持工具集成与权限管理、构建多模型调度系统；3）开发者：设计agentic工作流，整合多模型与工具链，聚焦任务完成率而非单一响应质量；4）评估体系：从"事实准确性"转向"任务完成效率、推理一致性、工具协同效果"。

问题3："灰姑娘玻璃鞋效应"的核心内涵是什么？这一现象对模型提供商的产品策略有哪些启示？

答案：核心内涵是：在LLM快速迭代的市场中，若新发布模型能精准契合某类高价值未被满足的用户需求（即"穿上玻璃鞋"），则该批早期用户会形成深度 workload-model 契合，产生技术与行为惯性，留存率显著高于后期用户，且难以被竞品替代；反之，若模型未找到核心契合场景，则无法形成稳定用户群。对产品策略的启示：1）聚焦"首发优势"，针对未被满足的细分场景（如特定领域编程、沉浸式角色扮演）打造差异化能力，抢占 foundational 用户；2）重视早期用户反馈，快速迭代优化核心场景适配性，巩固 workload-model 契合度；3）避免"大而全"，优先突破高价值窄场景，再拓展泛化能力；4）长期留存关键在于"持续契合"，通过版本更新维持核心场景优势，而非仅依赖初始功能；5）针对不同区域用户需求定制化（如中国用户对编程、科技场景的高需求），提升区域市场契合度。

查看全文

http://www.jsqmd.com/news/157195/