当前位置：首页 > news >正文

ChatGPT API实战入门：从401报错到生产级对话服务

news 2026/6/14 20:22:10

1. 这不是“调用API”的说明书，而是一份写给真实开发者的入门手记

你点开这篇内容，大概率正站在两个现实之间：一边是网上铺天盖地的“三行代码调通ChatGPT”的短视频，另一边是你本地终端里反复报错的401 Unauthorized、429 Too Many Requests，或是返回一串毫无上下文的JSON，连choices[0].message.content都取不出来。你试过复制粘贴示例代码，改了API Key，跑了，但输出像机器人在念字典；你查文档，发现OpenAI官网的Reference页密密麻麻全是字段说明，却没人告诉你——为什么temperature=0.7比1.0更“靠谱”，为什么max_tokens设成2048不等于你能拿到2048个汉字，为什么你发了5条消息，第6条突然卡住不动。

这正是我写这篇《ChatGPT API 101》的出发点：它不叫“快速上手”，也不叫“零基础教程”，它是一份从第一次curl命令失败开始，到能稳定跑通带历史记忆的对话流，再到能判断该不该换模型、该不该加system prompt、该不该拆分长文本的真实路径记录。核心关键词就三个：ChatGPT API、初学者、可落地的判断力。它适合刚学完Python基础、会装pip、知道什么是HTTP请求，但没碰过生产级AI集成的开发者；也适合产品/运营想自己验证一个AI功能是否可行，不想被外包团队牵着鼻子走的非技术同学。它不教你怎么微调模型，不讲RLHF原理，不堆砌术语——它只回答你在敲下回车键前，真正会问自己的那几个问题：Key怎么管？请求怎么发才不翻车？返回怎么解析才不丢信息？出错了到底该看哪一行日志？

我带过十几支小团队做过AI功能接入，最常听到的不是“怎么写prompt”，而是：“为什么昨天好好的，今天就429？”、“用户发了一段PDF文字，API直接返回空？”、“我明明传了history，为什么它还当自己是第一次聊天？”——这些问题，全藏在API调用的“毛细血管”里：header的写法、body的嵌套层级、token计数的隐性逻辑、流式响应的缓冲机制……它们不会出现在官方Quickstart里，但会实实在在卡住你三天进度。所以这篇内容，我会把每个步骤背后“为什么必须这样”，掰开揉碎讲清楚。比如，为什么推荐你用openai>=1.0.0而不是旧版openai==0.28？不是因为新版本“更先进”，而是因为旧版默认用HTTP/1.1+短连接，在高并发下会耗尽本地端口；而新版底层切到了httpx，支持连接池复用——这个细节，决定了你本地测试能跑通，和上线后扛住10QPS完全是两回事。接下来的内容，全部基于这种颗粒度展开。

2. 整体设计思路：避开“玩具级Demo”陷阱，直奔生产可用基线

2.1 为什么不用“Hello World”式教学？

几乎所有公开教程开头都是：

curl https://api.openai.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_KEY" \ -d '{ "model": "gpt-3.5-turbo", "messages": [{"role": "user", "content": "Say this is a test!"}] }'

然后告诉你：“看，成功了！”——这就像教人开车，只让你点火、挂D档、轻踩油门，却不提刹车距离、盲区判断、雨天胎压。真实场景中，你会遇到：

用户输入含emoji、换行符、XML标签，导致messages数组结构被破坏；
同一用户连续提问，你没维护对话历史，模型每次“失忆”重来；
返回内容含Markdown语法（如**加粗**），前端直接渲染成乱码；
某次请求因网络抖动超时，你没设retry逻辑，整个对话流程中断。

所以本指南的设计基线是：所有代码示例，默认满足以下四条生产级要求：

可重入：单次请求失败（网络超时/429）后，自动按指数退避重试，最多3次；
可追溯：每条请求附带唯一request_id，便于日志关联和问题定位；
可降级：当gpt-3.5-turbo不可用时，自动fallback到gpt-4o-mini（成本更低且响应更快）；
可审计：完整记录输入messages长度、输出content长度、实际消耗total_tokens，用于后续配额分析。

这不是过度设计。我见过太多项目卡在“为什么每天只用了2000 tokens却被告知超额”，最后发现是日志没打全，根本无法反查哪次请求偷偷吃了500 tokens。

2.2 模型选型：别被名字骗了，先看Token效率和延迟曲线

新手最容易踩的坑，是把模型名当性能指标。看到gpt-4-turbo就以为“肯定比gpt-3.5-turbo强”，结果一测：同样1000字输入，gpt-4-turbo平均响应3.2秒，gpt-3.5-turbo-0125只要1.1秒，且价格低60%。关键不在“谁更聪明”，而在你的场景是否需要那多出来的0.3%准确率，来换2秒用户等待时间。

我实测过主流模型在典型场景下的表现（测试环境：AWS us-east-1，Python 3.11，openaiSDK v1.35.11）：

模型名	输入1000 tokens耗时（P95）	输出100 tokens耗时（P95）	1M tokens价格（USD）	适合场景
`gpt-3.5-turbo-0125`	0.82s	0.31s	$0.50	客服问答、摘要生成、基础代码补全
`gpt-4o-mini`	0.45s	0.18s	$0.15	高频轻量交互（如App内智能助手）
`gpt-4o-2024-05-13`	1.93s	0.87s	$5.00	复杂推理、多图理解、长文档深度分析
`gpt-4-turbo-preview`	2.61s	1.24s	$10.00	极少数需最高上限的科研/法律场景

提示：gpt-4o-mini是2024年6月新推的模型，很多人忽略它。它在简单任务上比gpt-3.5-turbo快40%，便宜70%，且支持128K上下文——这意味着你传入一篇10万字小说，它真能“记住”开头伏笔。但它的弱点是：对模糊指令容忍度低，比如你写“用轻松的语气解释量子纠缠”，它可能直接拒绝，而gpt-3.5-turbo会硬编一段。所以我的建议是：默认用gpt-3.5-turbo-0125，当实测延迟>1.5秒或成本超标时，切到gpt-4o-mini；只有当gpt-4o-mini连续3次无法理解你的prompt时，再升到gpt-4o。

2.3 架构选择：为什么坚持用SDK而非裸curl？

有人觉得“curl最简单”，但实际项目里，裸HTTP请求会埋下大量隐形债：

认证管理：curl每次都要拼-H "Authorization: Bearer $KEY"，而SDK自动处理Key轮换、过期刷新；
错误分类：curl返回{"error": {"code": "rate_limit_exceeded"}}，你需要手动解析JSON再判断；SDK直接抛RateLimitError异常，except openai.RateLimitError:就能捕获；
流式响应：curl的--no-buffer参数在Windows下行为不一致，而SDK的stream=True在所有平台返回统一Stream[ChatCompletionChunk]对象。

更重要的是，SDK内置了token预估机制。当你调用client.chat.completions.create()前，SDK会根据messages内容，用与OpenAI服务端几乎一致的算法（tiktoken库）估算本次请求的prompt_tokens。这让你能在发送前就判断：“这次请求会不会超配额？”——而裸curl只能等返回400 Bad Request才知道context_length_exceeded。

所以本指南所有代码，均基于openai>=1.0.0官方SDK。它不是“为了用而用”，而是因为SDK帮你挡掉了80%的底层协议细节，让你专注在业务逻辑上。就像你不会为了写Web应用，自己实现TCP三次握手一样。

3. 核心细节解析：从Key管理到Token计算，每一个坑我都替你踩过

3.1 API Key：安全不是口号，是具体操作

Key泄露是初学者最高发事故。我见过最离谱的案例：某创业公司把Key硬编码在GitHub公开仓库的config.py里，3小时后被爬虫扫走，刷了$2000账单。安全不是“别放GitHub”，而是建立分层管控机制：

第一层：环境变量隔离
永远不要在代码里写api_key = "sk-..."。正确做法：

# .env文件（加入.gitignore！） OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx OPENAI_BASE_URL=https://api.openai.com/v1 # 可选，用于代理或私有部署

然后用python-dotenv加载：

from dotenv import load_dotenv import os load_dotenv() # 自动读取.env client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

注意：load_dotenv()必须在OpenAI()实例化之前调用，否则SDK会读不到环境变量。

第二层：Key权限最小化
OpenAI后台支持为每个Key设置Scope（作用域）。新创建的Key默认拥有All scopes，但你应该：

创建独立Key用于开发环境（dev-key），仅授予chat_completions权限；
创建独立Key用于生产环境（prod-key），额外开启moderations权限（用于内容安全过滤）；
绝对禁用fine_tuning和assistants权限，除非你明确要微调模型——这些权限一旦泄露，攻击者可直接窃取你的训练数据。

第三层：Key轮换自动化
别等Key泄露才换。设定规则：

所有开发Key每月1号自动失效（OpenAI后台可设TTL）；
生产Key每季度轮换，轮换时用openai.KeyManager（需自行封装）实现平滑过渡：

# 伪代码：KeyManager会同时持有新旧Key，旧Key失效前逐步导流 class KeyManager: def __init__(self): self.active_key = os.getenv("PROD_KEY_V2") # 新Key self.fallback_key = os.getenv("PROD_KEY_V1") # 旧Key，即将过期 def get_client(self): return OpenAI(api_key=self.active_key) def on_failure(self, error): if "invalid_api_key" in str(error): self.active_key, self.fallback_key = self.fallback_key, self.active_key return self.get_client() raise error

这听起来复杂？但比半夜被报警电话叫醒处理$5000账单简单得多。

3.2 Messages结构：Role不是标签，是模型的认知锚点

messages数组看着简单：[{"role": "user", "content": "..."}, ...]，但role值（system/user/assistant）直接决定模型如何构建内部状态。很多人忽略这点，导致：

把system提示写成user角色，模型当成普通提问，不执行指令；
在assistant消息里混入用户输入，模型误以为自己在“自问自答”；
system消息放在数组末尾，模型直接忽略。

正确用法铁律：

system消息必须且只能出现一次，且必须是数组第一个元素；
system内容要具体、可执行，避免模糊表述。❌"Be helpful."→ ✅"You are a senior Python developer. Respond only in code blocks with no explanations unless asked."；
user和assistant消息必须严格交替，不能连续两个user——如果用户发了两条消息，中间必须插入一条assistant的回复（哪怕是空字符串""），否则API返回400。

我实测过system位置的影响：当system放在第3位时，模型对指令的遵循率从92%暴跌至37%。这不是玄学，是模型训练时的注意力机制决定的——它默认把第一个systemtoken作为“认知起点”。

3.3 Token计算：为什么你算的和API返回的总不一样？

这是最让初学者崩溃的问题。你用tiktoken库算出输入占850 tokens，API返回"usage": {"prompt_tokens": 923, "completion_tokens": 42}，多出来的73个tokens去哪了？答案是：模型自身的系统指令、格式模板、以及你没意识到的隐藏字符。

OpenAI的token计数包含三部分：

显式内容：你传入的messages中所有content文本；
隐式模板：模型内部的对话格式，例如gpt-3.5-turbo会在每条消息前加<|im_start|>user\n，结尾加<|im_end|>\n，这部分约占用15-20 tokens/消息；
特殊字符：emoji、中文标点、URL中的/和.，在tiktoken的cl100k_base编码下，一个emoji可能占3-4 tokens（如👍=3 tokens），而英文句号.只占1 token。

实操技巧：

用tiktoken.get_encoding("cl100k_base")精确计算：

import tiktoken enc = tiktoken.get_encoding("cl100k_base") def count_tokens(text: str) -> int: return len(enc.encode(text)) # 计算整个messages数组 def count_messages_tokens(messages: list) -> int: total = 0 for msg in messages: total += count_tokens(msg["content"]) # 加上role标识符（user/assistant/system各占1-2 tokens） total += 2 return total + 3 * len(messages) # 每条消息的<|im_start|>和<|im_end|>模板

永远以API返回的usage.prompt_tokens为准。你的本地计算只是预估，用于防止超限；最终配额消耗，以OpenAI后台统计为准。

注意：max_tokens参数限制的是模型生成的completion tokens数量，不是总tokens。如果你设max_tokens=100，但prompt_tokens=900，那么本次请求最多消耗1000 tokens，但API不会报错——它只保证输出不超过100 tokens。很多新手因此误判配额，以为“我只设了100，怎么花了1000？”。

4. 实操过程：从零搭建一个带历史记忆、自动重试、成本可控的对话服务

4.1 环境准备：5分钟完成可运行基线

Step 1：安装依赖（仅3个包）

pip install openai==1.35.11 tiktoken==0.6.0 python-dotenv==1.0.1

为什么锁死版本？openai==1.35.11是当前最稳定的LTS版本，修复了v1.30+的流式响应内存泄漏；tiktoken==0.6.0确保与OpenAI服务端token计数完全一致；python-dotenv==1.0.1避免新版本的.env解析bug。

Step 2：创建配置文件
新建.env（务必加入.gitignore）：

# .env OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx OPENAI_MODEL=gpt-3.5-turbo-0125 OPENAI_MAX_RETRIES=3 OPENAI_TIMEOUT=30

Step 3：初始化客户端（带重试和超时）

# client.py import os from openai import OpenAI from dotenv import load_dotenv load_dotenv() client = OpenAI( api_key=os.getenv("OPENAI_API_KEY"), max_retries=int(os.getenv("OPENAI_MAX_RETRIES", "3")), timeout=float(os.getenv("OPENAI_TIMEOUT", "30")), )

这里max_retries不是“重试3次”，而是指数退避重试：第一次失败后等1秒，第二次等2秒，第三次等4秒。OpenAI SDK默认启用此策略，你只需传入次数即可。

4.2 核心函数：一个能处理历史、防超限、带日志的`chat`方法

# chat.py import time import json import tiktoken from openai import OpenAI from openai.types.chat import ChatCompletion from typing import List, Dict, Optional, Any # 全局token编码器 ENCODER = tiktoken.get_encoding("cl100k_base") def count_tokens(text: str) -> int: """精确计算text的tokens数""" return len(ENCODER.encode(text)) def estimate_messages_tokens(messages: List[Dict[str, str]]) -> int: """估算messages数组的总tokens（含模板开销）""" total = 0 for msg in messages: total += count_tokens(msg["content"]) total += 2 # role标识符 total += 3 * len(messages) # <|im_start|>和<|im_end|>模板 return total def chat( messages: List[Dict[str, str]], model: str = "gpt-3.5-turbo-0125", temperature: float = 0.7, max_tokens: Optional[int] = None, stream: bool = False, ) -> ChatCompletion: """ 封装OpenAI chat接口，增加token预估、日志、错误处理 """ # Step 1: Token预估（防止超限） estimated_prompt_tokens = estimate_messages_tokens(messages) if estimated_prompt_tokens > 120000: # gpt-3.5-turbo最大上下文128K，留8K余量 raise ValueError(f"Prompt too long: {estimated_prompt_tokens} tokens (max 120K)") # Step 2: 构建请求参数 params = { "model": model, "messages": messages, "temperature": temperature, "stream": stream, } if max_tokens: params["max_tokens"] = max_tokens # Step 3: 发送请求（SDK自动处理重试） start_time = time.time() try: response = client.chat.completions.create(**params) # Step 4: 记录关键指标 usage = response.usage duration = time.time() - start_time print(f"[INFO] Request completed in {duration:.2f}s | " f"Prompt: {usage.prompt_tokens} | " f"Completion: {usage.completion_tokens} | " f"Total: {usage.total_tokens}") return response except Exception as e: duration = time.time() - start_time print(f"[ERROR] Request failed after {duration:.2f}s: {e}") raise e

关键设计说明：

estimate_messages_tokens()不是精确值，但误差<5%，足够用于前置拦截；
print日志包含prompt_tokens和completion_tokens，方便你后续做成本分析（比如发现某类用户提问平均消耗800 tokens，而其他用户仅200，就要优化前端输入框）；
所有异常原样抛出，由上层业务逻辑决定是重试、降级还是告警——不在此处做“智能处理”，避免掩盖真实问题。

4.3 完整对话服务：支持历史记忆、自动清理、成本预警

现在组装一个真实可用的对话服务：

# conversation.py from chat import chat from typing import List, Dict, Any class ConversationManager: def __init__(self, system_prompt: str = ""): self.history: List[Dict[str, str]] = [] if system_prompt: self.history.append({"role": "system", "content": system_prompt}) def add_user_message(self, content: str): """添加用户消息，自动处理长文本截断""" # 如果content超长，用tiktoken截断（保留最后1000 tokens） if count_tokens(content) > 1000: tokens = ENCODER.encode(content) truncated = ENCODER.decode(tokens[-1000:]) print(f"[WARN] User message truncated from {len(tokens)} to 1000 tokens") content = truncated self.history.append({"role": "user", "content": content}) def get_response(self, temperature: float = 0.7, max_tokens: int = 512) -> str: """获取模型回复，自动处理历史、token限制、错误""" try: # Step 1: 构建完整messages（含system + history） messages = self.history.copy() # Step 2: Token预估，如果超限则清理最老的user+assistant对 while estimate_messages_tokens(messages) > 120000: if len(messages) <= 2: # 至少保留system和最新user break # 删除最老的一对（user + assistant） messages.pop(1) # system在index 0，所以删index 1开始的 messages.pop(1) print("[INFO] History pruned to fit context window") # Step 3: 调用API response = chat( messages=messages, temperature=temperature, max_tokens=max_tokens, ) # Step 4: 提取回复并存入history content = response.choices[0].message.content.strip() self.history.append({"role": "assistant", "content": content}) return content except Exception as e: # 记录错误，但不清空history，避免用户丢失上下文 print(f"[ERROR] Failed to get response: {e}") raise e def clear_history(self): """清空对话历史（保留system prompt）""" if self.history and self.history[0]["role"] == "system": self.history = [self.history[0]] else: self.history = [] # 使用示例 if __name__ == "__main__": # 初始化对话（带system指令） conv = ConversationManager( system_prompt="You are a helpful coding assistant. Respond in Chinese, use Markdown for code." ) # 模拟用户连续提问 questions = [ "Python中如何用pandas读取CSV文件？", "如果CSV有中文列名，怎么处理？", "能给我一个完整的示例吗？" ] for q in questions: conv.add_user_message(q) answer = conv.get_response() print(f"User: {q}") print(f"Assistant: {answer}\n")

这段代码解决了初学者90%的痛点：

✅ 自动截断超长用户输入（避免context_length_exceeded）；
✅ 历史自动清理（当对话太长时，删除最老的问答对，而非粗暴清空）；
✅ 错误时不丢失上下文（clear_history()需显式调用）；
✅ 所有日志带[INFO]/[WARN]/[ERROR]前缀，方便grep过滤。

运行它，你会看到类似输出：

[INFO] Request completed in 1.23s | Prompt: 142 | Completion: 218 | Total: 360 User: Python中如何用pandas读取CSV文件？ Assistant: 使用 `pandas.read_csv()` 函数： ```python import pandas as pd df = pd.read_csv("data.csv")

### 4.4 成本监控：用50行代码搭起实时配额仪表盘 配额超支往往悄无声息。我建议在项目启动时，就加入成本监控： ```python # cost_monitor.py import time from datetime import datetime from typing import Dict, List class CostMonitor: def __init__(self): self.log: List[Dict[str, Any]] = [] self.start_time = time.time() def log_request(self, model: str, prompt_tokens: int, completion_tokens: int, duration: float): """记录单次请求成本""" # OpenAI官方定价（USD per 1M tokens） PRICING = { "gpt-3.5-turbo-0125": {"input": 0.50, "output": 1.50}, "gpt-4o-mini": {"input": 0.15, "output": 0.60}, "gpt-4o-2024-05-13": {"input": 5.00, "output": 15.00}, } pricing = PRICING.get(model, {"input": 1.0, "output": 3.0}) cost_usd = ( prompt_tokens / 1_000_000 * pricing["input"] + completion_tokens / 1_000_000 * pricing["output"] ) record = { "timestamp": datetime.now().isoformat(), "model": model, "prompt_tokens": prompt_tokens, "completion_tokens": completion_tokens, "duration_sec": round(duration, 2), "cost_usd": round(cost_usd, 6), } self.log.append(record) return cost_usd def get_summary(self) -> Dict[str, Any]: """获取当前会话成本摘要""" if not self.log: return {"total_cost_usd": 0.0, "total_requests": 0} total_cost = sum(r["cost_usd"] for r in self.log) total_req = len(self.log) avg_latency = sum(r["duration_sec"] for r in self.log) / total_req return { "total_cost_usd": round(total_cost, 4), "total_requests": total_req, "avg_latency_sec": round(avg_latency, 2), "last_request_cost_usd": self.log[-1]["cost_usd"], } # 在chat()函数中集成 monitor = CostMonitor() def chat_with_monitor(...): start_time = time.time() try: response = client.chat.completions.create(...) duration = time.time() - start_time monitor.log_request( model=response.model, prompt_tokens=response.usage.prompt_tokens, completion_tokens=response.usage.completion_tokens, duration=duration ) return response except Exception as e: duration = time.time() - start_time # 即使失败也记录（可能是429，也算一次尝试） monitor.log_request( model=model, prompt_tokens=estimate_messages_tokens(messages), completion_tokens=0, duration=duration ) raise e

现在，你随时可以调用monitor.get_summary()查看：

print(monitor.get_summary()) # 输出：{'total_cost_usd': 0.0023, 'total_requests': 5, 'avg_latency_sec': 1.42, 'last_request_cost_usd': 0.0005}

这比登录OpenAI后台查账单快10倍，且能关联到具体代码行。

5. 常见问题与排查技巧实录：那些文档里不会写的“血泪经验”

5.1 “401 Unauthorized”：不是Key错了，是环境变量没生效

现象：

$ python main.py openai.AuthenticationError: Error code: 401 - {'error': {'message': 'Incorrect API key provided', ...}}

排查步骤：

确认.env文件路径：load_dotenv()默认读取当前工作目录下的.env。如果你在/project/src/下运行python ../scripts/test.py，它会去/project/找.env，而非/project/src/。解决方案：显式指定路径

load_dotenv(dotenv_path="../.env") # 或用os.path.join

检查Key是否含空格：复制Key时容易带前后空格。在代码中加调试：

key = os.getenv("OPENAI_API_KEY") print(f"[DEBUG] Key length: {len(key)}, starts with: '{key[:5]}'") # 应该是'sk-xx'

验证Key状态：访问 OpenAI Platform Keys页面，确认Key未被禁用（Disabled）且未过期。

实操心得：我在三个不同项目里，两次遇到这个问题，根源都是.env路径错误。后来养成习惯：每次新建项目，第一件事就是写个debug_env.py：

# debug_env.py import os from dotenv import load_dotenv load_dotenv() print("API_KEY:", repr(os.getenv("OPENAI_API_KEY"))) print("CWD:", os.getcwd()) print("ENV FILES:", [f for f in os.listdir('.') if f.endswith('.env')])

运行它，5秒定位问题。

5.2 “429 Too Many Requests”：不是你调太快，是没理解配额维度

现象：

{"error": {"message": "Rate limit reached for model `gpt-3.5-turbo` in organization `org-xxx` on requests per min.", ...}}

真相：OpenAI的速率限制是三维的：

RPM（Requests Per Minute）：每分钟最多多少次请求（免费账户约3 RPM）；
TPM（Tokens Per Minute）：每分钟最多消耗多少tokens（免费账户约10K TPM）；
Concurrency：同一时刻最多多少个并发请求（免费账户约1）。

很多人只盯着RPM，却忽略了TPM。比如你发一个100K tokens的请求，虽然只算1次RPM，但它吃掉了你整分钟的TPM配额，后续所有小请求都会被429。

解决方案：

监控TPM使用率：用cost_monitor.py里的get_summary()，每分钟打印一次total_cost_usd，如果突增，说明有大请求；
主动限流：在chat()函数前加time.sleep(0.5)（对免费账户足够）；
升级配额：在 Usage Dashboard 点击“Request more quota”，填写用途（如“教育项目”通过率很高）。

5.3 返回内容为空或乱码：不是API故障，是流式响应没处理好

现象：

response = client.chat.completions.create(stream=True, ...) for chunk in response: print(chunk.choices[0].delta.content or "") # 输出一堆空行，或中文变成

原因：

stream=True时，chunk.choices[0].delta.content在首帧可能是None（只含role），后续帧才逐步返回内容；
终端编码问题：Windows默认GBK，而API返回UTF-8，中文显示为``。

正确处理方式：

def stream_chat(messages: List[Dict]): response = client.chat.completions.create( model="gpt-3.5-turbo-0125", messages=messages, stream=True, ) full_content = "" for chunk in response: delta = chunk.choices[0].delta if delta.content: full_content += delta.content print(delta.content, end="", flush=True) # flush=True确保实时输出 return full_content # 调用 stream_chat([{"role": "user", "content": "讲个笑话"}])

注意：end=""避免自动换行，flush=True强制立即输出，否则会缓冲到\n才刷屏。

5.4 “Context Length Exceeded”：不是文本太长，是历史没清理

现象：

{"error": {"message": "This model's maximum context length is 128000 tokens. However, your messages resulted in 132456 tokens.", ...}}

根因分析：

你以为只传了1000字，但tiktoken算出来是3200 tokens（含emoji、URL、标点）；
你维护了20轮对话历史，每轮平均200 tokens，光历史就占了4000 tokens；
system消息写了500字，又吃掉1200 tokens。

终极解法：

前端输入限制：在Web表单加maxlength="2000"（对应约500 tokens）；
服务端强制截断：如conversation.py中的add_user_message()；
动态历史压缩：当estimate_messages_tokens(history) > 80000时，用另一个轻

查看全文

http://www.jsqmd.com/news/1013907/

核心必背！【中药学】必背100题及解析（卷号：06121219_04）

深入解析MPC8309 eSDHC中断机制：SDIO通信稳定性的关键

5分钟快速上手：免费获取海量小说资源的完整书源配置方案

LLM 验证代码题解：从输出校验到逻辑等价判定的工程实践

2026年云端保姆级流程：如何部署OpenClaw？Token Plan配置及大模型API Key接入

消费级柔性机器人公司SoulX获融资，首款产品MoYa将带来家庭智能关护新体验！

18-生成器不只是省内存（上）-yield的状态机模型与帧暂停

合肥市庐江县家电维修清洗｜维小达｜空调、冰箱、洗衣机、热水器、油烟机一站式维保清洗服务 - 维小达科技

广州擅长合同诈骗刑事辩护律师排名参考：2026 年经济犯罪辩护实务观察 - 互联网科技品牌测评

跨平台BongoCat交互式桌宠：从事件捕获到视觉反馈的实时响应机制

Claudesidian：打造AI驱动的第二大脑，让知识管理从未如此简单高效

面试官最爱挖的“数学陷阱”：有序转数组（Sort Transformed Array）为什么很多人第一眼就做错了？

Yuzu模拟器企业级部署方案：3种架构设计与性能优化50%技术指南

MPC8309 USB OTG驱动开发：从寄存器解析到实战避坑指南

2026 Lazada流量转化导师客观测评榜单｜商家选型避坑指南 - 品牌2026推荐

CPython性能优化：如何深度理解Python解释器运行机制

告别命令行烦恼：将SillyTavern打造成真正的桌面应用，享受一键启动的AI聊天体验

Java 开发者怎么用 Spring AI 接 DeepSeek？一个最小 Demo 跑通思路

高压型侧装式磁翻板液位计UXJC-1260-1-A-2

海外仓建站方案：打造国际物流服务营销平台 - 外贸营销驿站

2026温州GEO优化公司权威评测报告：企业AI搜索选型避坑指南 - 品牌报告

2026电商流量转化实战专家机构客观测评榜单：企业全域转化选型指南 - 品牌2026推荐

FDC故障检测规则设计：从人工经验到AI自动学习

MPC8306定时器模块详解：RTC、PIT与GTM的设计原理与工程实践

3步搞定洛雪音乐音源配置：免费获取全网无损音乐的终极方案

LeetCode 高频题解：滑动窗口与双指针的通用解题框架