OpenAI Codex 完全指南:从入门到精通(2026年6月版)
🚀 OpenAI Codex 完全指南:从入门到精通(2026年6月版)
一句话总结:Codex 是 OpenAI 推出的 AI Agent 编程助手,能自主完成代码编写、文件操作、浏览器控制、图像生成、远程操控等任务。它既是开发者的"实习生",也是非技术人员的"万能助手"。
📋 目录
- Codex 是什么?
- 准备工作与安装
- 界面与基础操作
- 核心能力详解
- 高级功能
- Codex vs Claude Code 对比
- 定价与使用限制
- 实战技巧与最佳实践
- 常见问题 FAQ
- 资源与延伸阅读
1. Codex 是什么?
1.1 产品定位
Codex 是OpenAI 推出的智能体(Agent)编程系统,它不仅仅是一个代码补全工具,而是一个能够:
- ✅自主编写代码:根据自然语言描述生成完整功能
- ✅操作本地文件:读取、修改、重命名、整理你的电脑文件
- ✅控制浏览器:自动浏览网页、填写表单、抓取数据
- ✅操控电脑界面:像人一样点击、输入、操作任何 macOS/Windows 应用
- ✅生成图像:创建产品 mockup、UI 设计图、游戏素材
- ✅远程控制:通过手机 ChatGPT App 控制电脑上的 Codex 工作
- ✅并行处理:同时运行多个任务,大幅提升效率
1.2 技术演进
| 时间 | 版本 | 关键特性 |
|---|---|---|
| 2021 | Codex (初代) | powering GitHub Copilot |
| 2025.05 | codex-1 / codex-mini | 基于 o3 微调的编程 Agent |
| 2025.12 | GPT-5.2-Codex | 首次引入 Computer Use |
| 2026.02 | Codex App (macOS) | 桌面应用、多 Agent 管理 |
| 2026.04 | GPT-5.5 | Agentic-first 训练,浏览器控制 |
| 2026.05 | Windows 支持 | Computer Use 上线 Windows |
| 2026.06 | Record & Replay | 录制工作流转为可复用 Skill |
截至 2026 年 6 月,每周约有 500 万开发者在使用 Codex。
1.3 使用场景
Codex 适合以下人群:
| 人群 | 典型用途 |
|---|---|
| 编程新手 | 零基础学习编程、快速搭建原型 |
| 全栈开发者 | 并行开发、自动化测试、代码重构 |
| 设计师/产品经理 | 生成 UI mockup、自动化设计流程 |
| 内容创作者 | 批量处理文件、生成图像、自动化发布 |
| 运营/市场 | 数据分析、自动化报表、广告投放 |
| 非技术人员 | 用自然语言完成复杂电脑操作 |
2. 准备工作与安装
2.1 前置条件
- 一个ChatGPT 账号(免费版可用但额度少,Plus/Pro 体验更好)
- macOS(完整功能)或 Windows(Computer Use 已支持)
- Node.js 18+(如需使用 CLI)
2.2 安装方式
方式一:桌面应用(推荐新手)
- 访问官网:https://chatgpt.com/codex/get-started/
- 点击 “Download for macOS”(Windows 用户也可下载)
- 安装后使用 ChatGPT 账号登录
方式二:CLI 命令行(推荐开发者)
# 1. 全局安装npminstall-g@openai/codex# 2. 登录(会打开浏览器授权)codex login# 3. 验证安装codex--version# 4. 进入项目目录开始使用cd~/projects/your-project codex"Add a unit test for the parseDate function"方式三:IDE 扩展
- VS Code / Cursor 扩展商店搜索 “OpenAI Codex”
- 安装后登录同一 OpenAI 账号即可使用
2.3 首次设置
首次打开 Codex 时,会询问你的职业方向:
- 工程 / 产品 / 财务 / 市场营销
- 销售 / 运营 / 数据科学 / 设计
- 学生 / 其他
建议:随便选一个,后续可以随时修改。选择后会推荐个性化的任务模板。
3. 界面与基础操作
3.1 主界面布局
Codex 桌面应用采用三栏式布局:
┌─────────────────┬─────────────────────────┬─────────────────┐ │ 左侧边栏 │ 中间对话区 │ 右侧预览区 │ │ ├ 新对话 │ │ │ │ ├ 搜索 │ "我们该做什么?" │ 结果预览/文件 │ │ ├ 插件 │ │ │ │ ├ 自动化 │ [输入框] │ │ │ └ 项目 │ 推荐任务... │ │ └─────────────────┴─────────────────────────┴─────────────────┘3.2 核心概念:项目(Project)
项目是 Codex 工作的基本单位。你可以:
- 新建空白项目:从零开始
- 使用现有文件夹:让 Codex 读取和操作你电脑上的任何文件夹
💡关键特性:选中文件夹后,Codex 可以读取其中不限数量的文件,这是普通 ChatGPT 做不到的。
3.3 对话输入技巧
Codex 支持多种输入方式:
| 输入方式 | 用法 | 示例 |
|---|---|---|
| 自然语言 | 直接描述需求 | “把这段代码重构为 TypeScript” |
| @ 提及 | 引用插件或文件 | “@github 查看最近的 PR” |
| / 命令 | 使用内置命令 | “/mcp connect github” |
| $ Skill | 调用预设技能 | “$adspirer-setup” |
| 拖拽文件 | 直接上传文件 | 拖拽图片、PDF、代码文件 |
| 语音输入 | 点击麦克风图标 | 口述复杂指令 |
4. 核心能力详解
4.1 能力一:本地文件操作 ⭐
Codex 可以自主读取和操作本地文件,不限数量。
实战示例:批量重命名视频素材
场景:文件夹里有 80+ 个命名混乱的视频素材(如
yellow_lunar_surface_training_sim_alpha_03.mp4),想根据内容重命名为可读名称。
操作步骤:
- 点击 “进入项目工作” → “使用现有文件夹”
- 选中素材文件夹
- 输入指令:“请分析每个视频的内容,根据画面内容重命名所有文件,使用中文描述”
- Codex 会自动读取视频、分析内容、执行重命名
其他文件操作:
- 📁 批量整理文件分类
- 📝 批量提取 PDF/Word 内容并汇总
- 📊 分析 Excel/CSV 数据并生成报告
- 🖼️ 批量处理图片(压缩、格式转换、添加水印)
4.2 能力二:代码编写与调试 ⭐
Codex 的核心能力,支持多种模式:
| 模式 | 说明 | 适用场景 |
|---|---|---|
| Ask 模式 | 只读分析,不修改代码 | 代码审查、学习代码库 |
| Code 模式 | 全功能,可读写运行 | 开发新功能、修复 Bug |
| Plan 模式 | 先出方案,再执行 | 复杂重构、架构调整 |
实战示例:修复 Bug
你:"修复 auth/ 目录下所有失败的测试" Codex: 1. 读取测试文件,定位失败用例 2. 分析失败原因(如异步处理错误) 3. 修改源代码 4. 重新运行测试验证 5. 返回修改摘要和 diff4.3 能力三:浏览器控制(Browser Use)
Codex 内置浏览器,可以:
- 🌐 打开本地开发服务器,实时预览修改
- 🔍 抓取网页数据(需遵守 robots.txt)
- 📝 在渲染页面上直接标注:“把这个按钮改大 20px”
- 🧪 自动化测试前端界面
限制:目前仅限未登录的公开页面,完整浏览器控制正在开发中。
4.4 能力四:电脑操控(Computer Use)⭐⭐
这是 Codex 的王牌功能!它可以像人一样操控你的电脑:
- 👁️看屏幕:截取屏幕,理解当前界面状态
- 🖱️点击输入:自动点击按钮、填写表单、输入文字
- 🔄多应用协作:同时操作 Figma、Xcode、Slack 等多个应用
- ⚡后台运行:你继续工作,Codex 在后台自动完成任务
实战场景:
- 🎨 在 Figma 中自动调整设计稿
- 📱 在 iOS 模拟器中测试 App
- 🐛 修复只有 GUI 才能复现的 Bug
- 📊 操作 Excel 生成复杂报表
⚠️注意:Computer Use 需要手动开启,且初始不支持欧盟/英国/瑞士地区。
4.5 能力五:图像生成
Codex 集成了 gpt-image-1.5 模型,可以:
- 🎨 生成产品 hero 图、UI mockup
- 🖼️ 根据截图修改设计(“把背景改成深色模式”)
- 🎮 创建游戏素材、图标
- 📐 生成架构图、流程图
⚠️ 图像生成消耗额度较快(约为文本任务的 3-5 倍)。
4.6 能力六:Skill(技能)系统
Skill 是 Codex 的"外挂",让 Agent 能执行特定领域的复杂任务。
内置 Skill 示例:
| Skill | 功能 |
|---|---|
| Cloud Deployment | 自动部署到 Cloudflare、Vercel、Netlify |
| Image Generation | 生成和编辑图像 |
| API Documentation | 自动引用最新 OpenAI API 文档 |
| Document Handling | 读写 PDF、Excel、Word |
自定义 Skill:
你可以创建自己的 Skill,封装特定工作流程:
# 创建 Skill 目录 mkdir -p ~/.codex/skills/my-skill # 编写 SKILL.md 定义任务流程 # 包含:指令、代码模板、API 配置、脚本Skill 可以提交到团队仓库,确保所有成员共享相同的工作流程。
4.7 能力七:MCP(模型上下文协议)
MCP 是 Codex 连接外部世界的"通用接口",由 Anthropic 开源,现已成为行业标准。
支持的 MCP Server:
- GitHub、Notion、Slack、Linear
- Postgres、MongoDB、Redis
- Google Calendar、Gmail
- 以及数千个社区 MCP Server
安装 MCP Server:
# 从 Registry 安装codex mcpinstallgithub# 添加自定义 Servercodex mcpaddnotion--command"/usr/local/bin/notion-mcp"# 查看已安装codex mcp list使用示例:
> /mcp connect github > 找仓库里所有动了 apps/billing 的 open PR,总结一下 review 状态4.8 能力八:Hook 与自动化
Hook 让 Codex 在特定生命周期事件时自动执行命令:
# .codex/hooks.toml [[hooks]] event = "pre-commit" command = "pnpm run lint:fix" description = "提交前自动修复代码格式" [[hooks]] event = "post-edit" command = "pnpm test -- --findRelatedTests $CODEX_EDITED_FILES" description = "每次编辑后运行相关测试"Auto-review(自动审查):
[auto_review] enabled = true reviewer_model = "gpt-5.4" block_on_severity = "high"开启后,每次提交前会启动第二个 Codex Agent 审查代码,拦截约 1/8 的潜在回归问题。
4.9 能力九:子代理(Subagents)
Codex 支持最多 8 个并行子代理同时工作:
主 Agent 分解任务 ├─ 子 Agent 1: 研究 Stripe SDK 模式 ├─ 子 Agent 2: 编写核心代码(等研究完成) ├─ 子 Agent 3: 编写测试(并行) ├─ 子 Agent 4: 更新文档(并行) └─ ...每个子代理在独立的云沙箱中运行,互不干扰。
4.10 能力十:Goal 模式(长期任务)
Goal 模式让 Codex 可以处理跨天甚至跨周的长期任务:
- 🎯 设置持久目标,Codex 自动规划执行步骤
- ⏰ 定时唤醒,继续未完成的任务
- 🧠 Memories 记住跨会话的上下文
使用方式:
/goal "每周一早上 9 点生成上周所有平台的广告性能报告, 对比 KPI 目标,标记异常,发送摘要到 Slack"5. 高级功能
5.1 远程控制(手机端)
Codex 支持通过手机 ChatGPT App 远程控制电脑:
- 📱 在 iOS/Android ChatGPT App 上发送指令
- 💻 电脑上的 Codex 接收并执行
- 🔔 实时推送任务进度和结果
使用场景:
- 下班路上让 Codex 开始跑测试
- 出差时远程修复线上 Bug
- 睡前设置明天的自动化任务
5.2 Chrome 扩展
2026 年 5 月推出的 Chrome 扩展,让 Codex 可以在浏览网页时:
- 一键将当前页面内容发送给 Codex 分析
- 在网页上直接标注修改建议
- 抓取页面数据并自动处理
5.3 Record & Replay(录制回放)
2026 年 6 月新功能:
- 你手动演示一遍工作流程
- Codex 自动记录操作步骤
- 转换为可复用的 Skill
- 以后一键自动执行相同流程
5.4 Thread Handoff(线程移交)
可以在本地和远程主机之间移交任务线程:
- 在公司电脑上开始任务
- 回家后在家里的电脑上继续
- Codex 自动协调上下文同步
5.5 Appshots(截图转上下文)
macOS 专属功能:
- 截取任何应用窗口
- Codex 自动理解截图内容
- 基于截图内容执行操作
6. Codex vs Claude Code 对比
两者都是顶级 AI Agent 工具,但定位不同:
| 维度 | Codex | Claude Code |
|---|---|---|
| 模型 | GPT-5.5(只能 GPT) | Claude Opus 4.8(可替换) |
| 易用性 | ⭐⭐⭐ 小白友好 | ⭐⭐ 重度开发者 |
| 功能 | 浏览器+电脑操控+生图+远控 | 适合专业开发者 |
| 价格 | $20/月够用 | API 计费,消耗快 |
| 代码质量 | 盲评胜率 25% | 盲评胜率 67% |
| Token 效率 | 约 4x 更高效 | 基准 |
| Terminal-Bench | 82.7% 🥇 | 69.4% |
| SWE-bench Pro | 58.6% | 69.2% 🥇 |
| 上下文窗口 | 200K tokens | 1M tokens 🥇 |
| 多代理 | 8 并行子代理 | Agent Teams(协调式) |
| 开源 | ✅ Apache-2.0 | ❌ 闭源 |
| MCP 支持 | ✅ | ✅(更丰富) |
| Hook 粒度 | 生命周期级 | 更细粒度(PreToolUse 等) |
选择建议
| 你的情况 | 推荐工具 | 原因 |
|---|---|---|
| 编程新手 / 非技术人员 | Codex | 界面友好,功能全面 |
| 需要操控 GUI 应用 | Codex | Computer Use 独一档 |
| 预算敏感 | Codex | Token 效率更高 |
| 高 stakes 代码(支付/安全) | Claude Code | 代码质量更高 |
| 超大代码库 | Claude Code | 1M 上下文窗口 |
| 复杂多代理编排 | Claude Code | Agent Teams 更成熟 |
| 两者都要 | 都用 | “Claude 做架构,Codex 敲代码” |
💡业内共识:65% 的开发者日常更喜欢用 Codex,但盲评代码质量时 Claude Code 胜出 67%。最佳实践是两者结合使用。
7. 定价与使用限制
7.1 订阅方案
| 方案 | 月费 | Codex 权限 | 备注 |
|---|---|---|---|
| Free | $0 | 有限试用 | 额度极少 |
| Go | $8 | 基础访问 | 轻量用户 |
| Plus | $20 | 完整访问 | 大多数用户够用 |
| Pro | $100 | GPT-5.5 Pro + 5x 额度 | 重度用户 |
| Pro Max | $200 | 20x 额度 | 团队/企业 |
| Business | $25/人 | 团队协作 | 企业功能 |
| Enterprise | 定制 | 全部功能 | 安全合规 |
7.2 API 直接计费(CLI 用户)
| 模型 | 输入 / 1M tokens | 输出 / 1M tokens |
|---|---|---|
| GPT-5.5 | $5 | $30 |
| GPT-5.5 Pro | $30 | $180 |
| codex-mini | $1.50 | ~$15 |
7.3 使用限制
- 任务时长:通常 1-30 分钟,复杂任务可达数小时
- 并行任务:最多 8 个子代理同时运行
- 互联网访问:Plus/Pro/Team 可选开启,支持域名白名单
- 地区限制:Computer Use 暂不支持欧盟/英国/瑞士
8. 实战技巧与最佳实践
8.1 编写有效的 AGENTS.md
AGENTS.md 是 Codex 的"项目说明书",帮助 Agent 理解你的项目:
# Project Context ## 架构 - 前端:Next.js + TypeScript - 后端:Node.js + Express - 数据库:PostgreSQL ## 代码规范 - 使用 TypeScript strict mode - 所有 API 调用通过 /lib/api - 状态管理使用 Zustand - 不允许使用 any 类型 ## 测试 - 新代码必须写测试(TDD) - 覆盖率不低于 80% - 使用 React Testing Library ## 关键路径 - 入口:src/app/page.tsx - API:src/app/api/ - 组件:src/components/8.2 Prompt 技巧
| ❌ 不好的 Prompt | ✅ 好的 Prompt |
|---|---|
| “修复这个 Bug” | “修复 auth/login.ts 中导致 401 错误的 Bug,保留现有日志格式” |
| “写个功能” | “在 src/features/ 下添加用户收藏功能,包含:模型、API、前端组件、测试” |
| “优化代码” | “将 src/utils/date.ts 中的 parseDate 函数重构为使用 date-fns,保持 API 兼容” |
8.3 安全最佳实践
- 永远审查 AI 生成的代码,尤其是涉及支付、认证、安全的部分
- 使用只读模式先了解代码库,再开启编辑权限
- 设置域名白名单限制互联网访问
- 开启 Auto-review拦截潜在回归
- 敏感代码不要上传到云沙箱(使用本地 CLI)
8.4 效率提升技巧
- 🔄并行任务:同时提交多个独立任务,让子代理并行处理
- 📋使用 Skill:将重复工作流封装为 Skill,一键执行
- 🎯Goal 模式:设置长期目标,让 Codex 自动规划
- 📝模板提示:为常见任务准备标准 Prompt 模板
- 🧪小步快跑:复杂任务拆分为小步骤,逐步验证
9. 常见问题 FAQ
Q1: Codex 会取代程序员吗?
不会。Codex 是"软件工程实习生"级别的助手,能加速开发但必须人工审查。它擅长:
- ✅ 样板代码、重复工作
- ✅ 快速原型和探索
- ✅ 自动化测试和文档
- ❌ 架构设计、复杂算法、安全关键代码
Q2: 免费版能用 Codex 吗?
可以,但额度非常有限。建议至少使用 Plus($20/月)获得完整体验。
Q3: Codex 能访问我的私有代码库吗?
可以。CLI 版本在本地运行,使用你的本地 Git 凭证。云版本通过 GitHub App 授权访问。
Q4: 任务可以无人值守运行多久?
Codex 支持长时间任务,从几分钟到数小时不等。Goal 模式甚至可以跨天运行。
Q5: 如何防止 Codex “幻觉”(生成错误代码)?
- 使用
xhigh推理级别(牺牲速度换准确性) - 开启 Auto-review 自动审查
- 始终运行测试验证
- 对关键代码进行人工 Code Review
Q6: 为什么同样的 Prompt 结果不同?
Codex 的 GPT-5.5 模型存在一定随机性。如需一致性:
- 使用更详细的 Prompt
- 在 AGENTS.md 中明确规范
- 对关键任务使用 Claude Code(更确定性)
Q7: 可以离线使用吗?
不可以。Codex 需要联网调用 OpenAI API,但 CLI 版本在本地执行代码。
Q8: Windows 支持如何?
2026 年 5 月起,Computer Use 已支持 Windows。CLI 通过 WSL2 在 Windows 上运行。
10. 资源与延伸阅读
官方资源
- 🏠 Codex 官网
- 📚 开发者文档
- 🐙 GitHub 仓库
- 💬 社区论坛
- 🎥 官方 YouTube 频道
社区与生态
- 🌐 MCP 协议官网
- 📦 MCP Server 目录
- 🛠️ AGENTS.md 标准 — Linux 基金会标准
🎯 快速开始 Checklist
- 注册/登录 ChatGPT 账号
- 下载 Codex 桌面应用或安装 CLI
- 选择一个本地文件夹作为第一个项目
- 尝试一个简单的文件操作任务
- 安装一个 MCP Server(如 GitHub)
- 编写你的第一个 AGENTS.md
- 尝试 Code 模式编写一个小功能
- 探索 Computer Use(如可用)
最后的话:Codex 正在快速进化,2026 年的 Codex 与 2025 年已是完全不同的产品。建议每季度回顾一次新功能,保持工具链的更新。记住——AI 是杠杆,放大的是你的判断力,而不是替代它。
本文档最后更新于 2026 年 6 月。
