当前位置: 首页 > news >正文

100 万亿 tokens 实证洞察:OpenRouter 揭示 LLM 真实使用图景 —— 开源崛起、智能体推理主导,角色扮演与编程成核心场景,全球生态呈现多元化新格局

总结至:《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》

1. 一段话总结

本研究基于OpenRouter平台100万亿 tokens的真实LLM交互数据,聚焦2024-2025年关键趋势:OpenAI o1模型推动行业从单轮生成转向多步审慎推理开源模型占比达30%且中国模型快速崛起,创意角色扮演(占开源模型使用量超50%)和编程辅助成为核心应用场景,智能体推理(工具调用、长序列交互)兴起,同时观察到"灰姑娘玻璃鞋效应"(早期用户留存率显著更高),全球 usage 呈现北美主导、亚洲占比升至31%的多元化格局,为模型构建者、开发者和基础设施提供商提供了数据驱动的决策参考。


2. 思维导图(mindmap)

## 研究基础 - 数据来源:OpenRouter平台100万亿tokens真实交互数据 - 时间范围:主要覆盖2024年11月-2025年11月 - 核心方法:基于元数据分析,GoogleTagClassifier分类任务 ## 模型生态趋势 - 开源vs闭源:开源占比30%,闭源仍主导高价值场景 - 开源关键玩家:DeepSeek(14.37万亿tokens)、Qwen、Meta LLaMA等 - 模型规模演变:中型模型(15-70B参数)崛起,小型模型份额下降 - 地域分布:北美<50%,亚洲升至31%,中国模型贡献显著 ## 核心应用场景 - 开源模型:角色扮演(52%)、编程(15-20%)居前 - 全量模型:编程占比从11%升至50%,成为第一大场景 - 其他场景:翻译、知识问答、教育、科技/科学等 ## 关键使用趋势 - 推理模式:智能体推理兴起,推理模型占比超50% - 交互特征:提示词 tokens 增4倍,序列长度增3倍,编程场景驱动复杂交互 - 工具调用:使用率持续上升,Claude、Gemini等模型主导 ## 关键现象与动态 - 留存效应:"灰姑娘玻璃鞋效应",早期契合用户需求的模型留存率更高 - 成本与使用:需求弹性弱,闭源模型占高价值场景,开源模型主导高容量低价值场景 - 市场格局:多模型生态,无单一主导者,竞争聚焦差异化能力 ## 研究意义 - 对开发者:多模型整合策略 - 对模型提供商:持续创新与差异化 - 对基础设施商:适配智能体推理需求

3. 详细总结

一、研究背景与数据基础
  1. 研究契机:2024年12月OpenAI o1模型发布,推动LLM从单轮文本生成转向多步审慎推理,行业实践应用快速迭代,但实证研究滞后,本研究填补这一空白。
  2. 数据规模:基于OpenRouter平台100万亿 tokens的匿名元数据,涵盖全球数十亿次prompt-Completion交互,覆盖超300个模型、60+提供商,50%以上使用量来自美国以外地区。
  3. 研究方法
    • 任务分类:通过GoogleTagClassifier对0.25%样本分类,映射为编程、角色扮演等9大核心类别;
    • 模型划分:按开源(权重公开)/闭源(API受限)、中国/非中国 origin 分类;
    • 地理划分:基于账单地址确定用户区域,确保隐私合规;
    • 时间范围:主要分析2024年11月-2025年11月,类别分析聚焦2025年5月后(标签系统稳定期)。
二、模型生态格局
维度核心发现关键数据
开源vs闭源闭源仍占主导,开源稳步增长,形成双轨生态开源模型占比达30%,闭源模型平均占70%;中国开源模型周占比最高近30%,平均13%
开源模型TOP10DeepSeek居首,Qwen、Meta LLaMA紧随,市场从垄断转向多元化DeepSeek(14.37万亿)、Qwen(5.59万亿)、Meta LLaMA(3.96万亿)
模型规模演变中型模型(15-70B参数)崛起,小型模型(<15B)份额下降,大型模型(≥70B)多元化中型模型自2024年11月Qwen2.5 Coder 32B发布后快速成为核心类别
地域分布北美占比下降,亚洲快速增长,全球使用多元化北美<50%,亚洲占比从13%升至31%;英语占82.87%,简体中文占4.95%
三、核心应用场景分析
  1. 开源模型场景分布
    • 主导场景:角色扮演(52%)编程(15-20%),合计占比超70%;
    • 角色扮演优势:开源模型内容限制更少,适配创意对话、游戏场景需求;
    • 中国开源模型特色:编程+科技类占比达39%,高于全球开源平均水平。
  2. 全量模型场景趋势
    • 编程场景爆发:占比从2025年初11%升至年末50%,成为第一大场景;
    • 头部模型主导:Anthropic Claude系列占编程场景60%以上,OpenAI、Google紧随;
    • 其他场景:翻译、知识问答、教育、科技/科学等形成长尾分布,健康、法律场景碎片化明显。
四、关键使用行为趋势
  1. 智能体推理崛起
    • 推理模型占比:2025年末超50%,xAI Grok Code Fast 1、Google Gemini 2.5 Pro主导;
    • 工具调用:使用率持续上升,Claude 3.5/4.5、Gemini系列为核心支持模型;
    • 交互复杂度提升:提示词tokens增4倍(从1.5K→6K),序列长度增3倍(从2K→5.4K),编程场景驱动长文本交互(平均3-4倍于其他场景)。
  2. 成本与使用动态
    • 市场四象限:
      • 高端工作负载(高成本高使用):科技、科学;
      • 大众流量驱动(低成本高使用):编程、角色扮演;
      • 专业小众(高成本低使用):金融、医疗、营销;
      • niche工具(低成本低使用):翻译、法律、 trivia;
    • 价格弹性:需求相对无弹性,10%降价仅带来0.5-0.7%使用增长,闭源模型垄断高价值场景,开源模型主导高容量场景。
五、关键现象与用户留存
  1. 灰姑娘"玻璃鞋"效应:早期用户与模型形成深度契合后,留存率显著高于后期用户,如Gemini 2.5 Pro(2025年6月 cohort 5个月留存40%)、Claude 4 Sonnet(2025年5月 cohort 5个月留存40%);
  2. 特殊留存模式
    • 回归效应:DeepSeek模型出现用户流失后回归现象,因特定场景适配性优于竞品;
    • 无契合困境:Gemini 2.0 Flash、Llama 4 Maverick未形成核心用户群,所有cohort留存低迷。
六、研究意义与启示
  1. 对模型构建者:聚焦中型模型优化、编程/角色扮演场景适配、多步推理能力;
  2. 对开发者:采用多模型策略,按任务选择最优模型,而非单一依赖;
  3. 对基础设施商:适配智能体推理的长序列、工具集成、跨模型调度需求;
  4. 对市场参与者:开源模型持续挤压闭源定价空间,差异化(可靠性、集成能力)成为核心竞争力。

4. 关键问题

问题1:开源LLM的核心应用场景是什么?其崛起对市场格局产生了哪些关键影响?

答案:开源LLM的核心应用场景是创意角色扮演(占比52%)编程辅助(15-20%),合计贡献超70%的开源模型使用量。关键影响包括:1)形成"闭源主导高价值场景+开源占据高容量场景"的双轨生态,开源模型整体占比达30%;2)市场从单模型垄断转向多元化,DeepSeek、Qwen等开源模型与OpenAI、Anthropic形成竞争;3)中国开源模型快速崛起,平均占全球开源使用量13%,在编程、科技场景表现突出,重塑全球开源竞争格局;4)推动成本优化,开源模型以高性价比适配角色扮演、中小开发者编程等场景,挤压闭源模型的中低端市场空间。

问题2:LLM从"单轮交互"向"智能体推理"转型的关键特征的是什么?这一转型对产业链各环节提出了哪些新要求?

答案:转型的关键特征包括:1)推理模型占比超50%,多步审慎推理成为主流;2)工具调用使用率持续上升,模型需协调外部工具完成复杂任务;3)交互复杂度激增,提示词tokens增4倍、序列长度增3倍,编程场景驱动长文本推理;4)任务目标从"生成文本"转向"完成复合任务",需规划、迭代、整合外部数据。对产业链的新要求:1)模型提供商:强化推理稳定性、工具适配能力、长上下文支持;2)基础设施商:优化长序列推理性能、支持工具集成与权限管理、构建多模型调度系统;3)开发者:设计agentic工作流,整合多模型与工具链,聚焦任务完成率而非单一响应质量;4)评估体系:从"事实准确性"转向"任务完成效率、推理一致性、工具协同效果"。

问题3:"灰姑娘玻璃鞋效应"的核心内涵是什么?这一现象对模型提供商的产品策略有哪些启示?

答案:核心内涵是:在LLM快速迭代的市场中,若新发布模型能精准契合某类高价值未被满足的用户需求(即"穿上玻璃鞋"),则该批早期用户会形成深度 workload-model 契合,产生技术与行为惯性,留存率显著高于后期用户,且难以被竞品替代;反之,若模型未找到核心契合场景,则无法形成稳定用户群。对产品策略的启示:1)聚焦"首发优势",针对未被满足的细分场景(如特定领域编程、沉浸式角色扮演)打造差异化能力,抢占 foundational 用户;2)重视早期用户反馈,快速迭代优化核心场景适配性,巩固 workload-model 契合度;3)避免"大而全",优先突破高价值窄场景,再拓展泛化能力;4)长期留存关键在于"持续契合",通过版本更新维持核心场景优势,而非仅依赖初始功能;5)针对不同区域用户需求定制化(如中国用户对编程、科技场景的高需求),提升区域市场契合度。

http://www.jsqmd.com/news/157195/

相关文章:

  • PyTorch-CUDA-v2.6镜像实测:GPU加速模型训练性能提升显著
  • NVIDIA Profile Inspector终极指南:5个步骤彻底释放显卡性能
  • ‘Installing, this may take a few minutes...’ 卡住?换用CUDA-v2.6镜像秒解决
  • PyTorch-CUDA-v2.6镜像是否支持神经辐射场(NeRF)训练?
  • Conda环境冲突频发?转向PyTorch-CUDA-v2.6容器化解决方案
  • FastAPI+Swagger技术栈详解:从入门到实战,高效构建API服务
  • PyTorch-CUDA-v2.6镜像是否支持半监督学习?Mean Teacher实现
  • B站视频转文字终极指南:三分钟实现高效内容提取
  • 图解说明并行计算在网格划分中的作用
  • 《nx12.0异常处理实战:捕获std异常完整示例》
  • 快速理解LCD显示屏驱动流程:5分钟掌握基本步骤
  • PyTorch-CUDA-v2.6镜像如何实现在线学习(Online Learning)
  • Intel HAXM安装异常处理:管理员权限操作指南
  • Elasticsearch教程:新手必看的数据索引与映射入门
  • 闲鱼自动化工具2025:终极解决方案,每天多赚200闲鱼币!
  • SPI通信中集成UDS诊断功能的可行性分析
  • 深度剖析Batocera游戏整合包如何充分发挥Pi 4性能
  • B站视频内容智能提取:让语音转文字变得轻松自如
  • PyTorch-CUDA-v2.6镜像能否用于法律文书智能审查?
  • 基于Docker的PyTorch环境搭建:CUDA-v2.6镜像使用详解
  • PyTorch-CUDA-v2.6镜像如何实现主动学习(Active Learning)流程
  • 从零实现ES6函数扩展在Babel中的编译流程
  • 从零实现:消除Keil工业控制工程中的中文注释乱码问题
  • PyTorch-CUDA-v2.6镜像如何实现文档布局分析?LayoutLM
  • 超详细版:续流二极管与TVS在电机保护中的协同
  • Elasticsearch设置密码:常见错误排查与修复
  • 2025机顶盒刷机包下载大全中的分区表修改技巧
  • 如何在NVIDIA显卡上运行PyTorch?使用CUDA-v2.6镜像轻松实现
  • 一文说清AUTOSAR网络管理中各配置项的核心要点
  • 从零实现PCB布线:线宽与电流配置指南