当前位置: 首页 > news >正文

LLM运行机制

以下知识整理来自网络。

一、自回归生成(Autoregressive Generation)

LLM基于用户提供的上下文,每次只“补”一个 Token(文本碎片),然后把这个碎片加进上下文,再预测下一个,如此循环,直到生成完整回答,这个过程叫自回归生成。

Token:文本碎片。

Temperature/Top-p/Top-k:模型选择Token的策略。

Max Tokens:允许模型最多“补”多少步。

二、Token估算

英文:1 Token 大约对应 3~4 个字符。

中文:1 Token 大约对应 1~2 个汉字。

Token 成本与 Tokenizer 版本强相关。

精确计数时建议使用模型对应的官方 Tokenizer 工具。

三、上下文窗口

上下文窗口是 LLM 的“工作记忆”(Working Memory)。它决定了模型在单次对话可以处理或“记住”的文本量(以 Token 为单位)。

上下文窗口并非越大越好,它受限于Transformer 架构的自注意力机制(Self-Attention)。

上下文窗口包括:

  • System Prompt:调节模型行为的系统指令(对用户隐藏,但占用窗口)。
  • 工具调用 Schema:函数定义与参数结构。
  • User Prompt:业务数据与指令。
  • 多轮对话历史:过往的消息记录。
  • RAG 检索片段:从外部知识库检索到的补充信息。
  • 格式开销:特殊字符、换行符、Markdown 标记等。
  • 模型生成的输出 Token:输出也占用上下文窗口

四、Prompt Caching

Prompt Caching 是供应商会缓存请求中“可复用的前缀部分”。下次请求如果前缀相同,这部分就不重新计费,只收“缓存读取”的费用(通常是正常价格的 10%~50%)。

降低Token成本的建议:

  1. 把不变的内容放前面(System Prompt、工具定义、RAG Context),把变化的内容放后面(User Prompt)。
  2. 监控cache_read_tokenscache_creation_tokens指标,验证缓存命中率。
  3. 批量任务尽量在缓存时间窗口内完成(不同模型的缓存时长不一样)。

五、Logits到概率采样

模型每一步会给词表中每个候选 Token 打一个分数(叫logits),分数越高说明模型越觉得这个词应该出现在这里。原始分数经过一次数学变换(softmax)变成每个候选Token被选中的概率。最后,模型按这个概率分布“抽签”(采样),决定输出哪个 Token。

解码参数(Temperature、Top-p、Top-k 等)就是在这个“打分 → 概率 → 抽签”的过程中施加控制:

  • Temperature:调整概率分布的“形状”,让高分选项更突出,或者让各选项更均匀。
  • Top-p / Top-k:直接砍掉不靠谱的候选项,缩小“抽签池”。
  • Penalty 系列:对已经出现过的词降分,防止“复读机”。

5.1Temperature 的工作原理:在 softmax 之前,先把所有分数除以温度值 T。

温度越低,输出越确定;温度越高,输出越随机。

Temperature:词表里所有 Token 理论上都有被选中的可能。

5.2Top-k = 5:只保留概率最高的 5 个候选Token。

Top-p = 0.8:从高到低累加概率,保留累计刚好达到 80% 的最小Token集合。

六、Penalty与复读问题

Penalty 参数用来缓解这类问题:模型反复输出同一句话,或者在长回答里不断重复相同观点。方法是在解码时降低已出现 Token 的分数:

参数作用
Repetition Penalty降低所有已出现 Token 的概率
Presence Penalty只要 Token 出现过就扣分(不看次数)
Frequency PenaltyToken 出现次数越多扣分越重

建议:如果不确定这些参数的精确语义(不同供应商定义可能不同),建议保持默认值。用低温 + 更强 Prompt 约束 + 更短输出来获得稳定性,比调 Penalty 更可控。

七、首字延迟(TTFT,Time-To-First-Token)

价值:改善用户体验。

批量处理图片时,TTFT会显著增加。

上下文变长后,TTFT会显著增加。

八、参数配置建议

场景TemperatureTop-pPenalty其他
JSON / 结构化输出0-0.31.0保持默认配合 Strict Mode + 重试策略
代码评审 / 技术分析0.4-0.70.9保持默认结合 CoT(Chain of Thought) Prompt
多轮对话0.6-0.80.9适度开启控制历史消息长度
创意写作 / 头脑风暴0.8-1.20.95按需开启接受输出多样性,做好后处理
思维链模型不支持--通过prompt控制
http://www.jsqmd.com/news/1068030/

相关文章:

  • 学习创建支持演示公式的复杂表格|《经济学人》杂志巨无霸指数的可视化图表代码
  • 化学结构识别:为何OCSR视觉技术优于纯文本JSON解析?
  • π0.7项目解析:跨机器人零样本迁移与高效推理的具身智能新范式
  • 专利代理师:2025年专利代理师资格考试《实务》模拟真题及答案
  • 大语言模型推理优化:从思维链到潜在状态轨迹的范式跃迁
  • AI+仿真构建交互式电力工程教学框架:从原理到实践
  • 多集群管理
  • 51单片机音乐盒
  • 基于Fxlms算法用于宽带和窄带主动噪声控制(ANC)研究(Matlab代码实现)
  • 稀疏与突发数据下的漏洞活动预测:SARIMAX与计数模型对比实战
  • 线性合约与标准合约选择及支付机制优化实战指南
  • 接口幂等性设计与实现
  • 视觉语言模型在扫描路径语义相似性分析中的应用
  • 基于神经元激活图的目标导向预训练数据选择:原理、实现与实战
  • MATRIX框架:基于双通道约束奇偶校验的多层代码水印技术实践
  • IA-CLAHE:让传统图像增强算法自适应学习最优参数
  • 奇智创达知识产权管理系统:把「请款→缴费→到款核销→预收款→退款」做成真正的业财一体化闭环
  • PLAF:实现开放词汇3D场景理解的像素级语言对齐特征提取
  • 联邦学习在3D物体检测中的应用:Fed3D框架解析与实践
  • 成都工装市场,现在到底是啥格局?说点实在的
  • Kubernetes原生AI Agent实时架构设计与落地
  • 动态列生成在双目标切割问题中的优化应用
  • 基于卷积低秩与改进分位数回归的高维时间序列区间预测方法
  • Go语言的race检测器与数据竞争在并发程序中的重现方法
  • ST-STORM框架:自监督学习中的内容与风格特征解耦实践
  • 高维VAR模型中的潜在社区路径分析与应用
  • MUSCAT基准:如何评估与优化多语言科学对话语音识别系统
  • AEGIS技术解析:基于梯度正交投影的大模型微调防遗忘实战
  • 2026 年命理研究工具的功能和配套内容,会不会买了之后就不再更新了?第三方学习路径观察
  • 专业的金属矿山数智化标杆服务商