当前位置：首页 > news >正文

OpenAI Codex 完全指南：从入门到精通（2026年6月版）

news 2026/6/22 20:33:19

🚀 OpenAI Codex 完全指南：从入门到精通（2026年6月版）

一句话总结：Codex 是 OpenAI 推出的 AI Agent 编程助手，能自主完成代码编写、文件操作、浏览器控制、图像生成、远程操控等任务。它既是开发者的"实习生"，也是非技术人员的"万能助手"。

📋 目录

Codex 是什么？
准备工作与安装
界面与基础操作
核心能力详解
高级功能
Codex vs Claude Code 对比
定价与使用限制
实战技巧与最佳实践
常见问题 FAQ
资源与延伸阅读

1. Codex 是什么？

1.1 产品定位

Codex 是OpenAI 推出的智能体（Agent）编程系统，它不仅仅是一个代码补全工具，而是一个能够：

✅自主编写代码：根据自然语言描述生成完整功能
✅操作本地文件：读取、修改、重命名、整理你的电脑文件
✅控制浏览器：自动浏览网页、填写表单、抓取数据
✅操控电脑界面：像人一样点击、输入、操作任何 macOS/Windows 应用
✅生成图像：创建产品 mockup、UI 设计图、游戏素材
✅远程控制：通过手机 ChatGPT App 控制电脑上的 Codex 工作
✅并行处理：同时运行多个任务，大幅提升效率

1.2 技术演进

时间	版本	关键特性
2021	Codex (初代)	powering GitHub Copilot
2025.05	codex-1 / codex-mini	基于 o3 微调的编程 Agent
2025.12	GPT-5.2-Codex	首次引入 Computer Use
2026.02	Codex App (macOS)	桌面应用、多 Agent 管理
2026.04	GPT-5.5	Agentic-first 训练，浏览器控制
2026.05	Windows 支持	Computer Use 上线 Windows
2026.06	Record & Replay	录制工作流转为可复用 Skill

截至 2026 年 6 月，每周约有 500 万开发者在使用 Codex。

1.3 使用场景

Codex 适合以下人群：

人群	典型用途
编程新手	零基础学习编程、快速搭建原型
全栈开发者	并行开发、自动化测试、代码重构
设计师/产品经理	生成 UI mockup、自动化设计流程
内容创作者	批量处理文件、生成图像、自动化发布
运营/市场	数据分析、自动化报表、广告投放
非技术人员	用自然语言完成复杂电脑操作

2. 准备工作与安装

2.1 前置条件

一个ChatGPT 账号（免费版可用但额度少，Plus/Pro 体验更好）
macOS（完整功能）或 Windows（Computer Use 已支持）
Node.js 18+（如需使用 CLI）

2.2 安装方式

方式一：桌面应用（推荐新手）

访问官网：https://chatgpt.com/codex/get-started/
点击 “Download for macOS”（Windows 用户也可下载）
安装后使用 ChatGPT 账号登录

方式二：CLI 命令行（推荐开发者）

# 1. 全局安装npminstall-g@openai/codex# 2. 登录（会打开浏览器授权）codex login# 3. 验证安装codex--version# 4. 进入项目目录开始使用cd~/projects/your-project codex"Add a unit test for the parseDate function"

方式三：IDE 扩展

VS Code / Cursor 扩展商店搜索 “OpenAI Codex”
安装后登录同一 OpenAI 账号即可使用

2.3 首次设置

首次打开 Codex 时，会询问你的职业方向：

工程 / 产品 / 财务 / 市场营销
销售 / 运营 / 数据科学 / 设计
学生 / 其他

建议：随便选一个，后续可以随时修改。选择后会推荐个性化的任务模板。

3. 界面与基础操作

3.1 主界面布局

Codex 桌面应用采用三栏式布局：

┌─────────────────┬─────────────────────────┬─────────────────┐ │ 左侧边栏 │ 中间对话区 │ 右侧预览区 │ │ ├ 新对话 │ │ │ │ ├ 搜索 │ "我们该做什么？" │ 结果预览/文件 │ │ ├ 插件 │ │ │ │ ├ 自动化 │ [输入框] │ │ │ └ 项目 │ 推荐任务... │ │ └─────────────────┴─────────────────────────┴─────────────────┘

3.2 核心概念：项目（Project）

项目是 Codex 工作的基本单位。你可以：

新建空白项目：从零开始
使用现有文件夹：让 Codex 读取和操作你电脑上的任何文件夹

💡关键特性：选中文件夹后，Codex 可以读取其中不限数量的文件，这是普通 ChatGPT 做不到的。

3.3 对话输入技巧

Codex 支持多种输入方式：

输入方式	用法	示例
自然语言	直接描述需求	“把这段代码重构为 TypeScript”
@ 提及	引用插件或文件	“@github 查看最近的 PR”
/ 命令	使用内置命令	“/mcp connect github”
$ Skill	调用预设技能	“$adspirer-setup”
拖拽文件	直接上传文件	拖拽图片、PDF、代码文件
语音输入	点击麦克风图标	口述复杂指令

4. 核心能力详解

4.1 能力一：本地文件操作 ⭐

Codex 可以自主读取和操作本地文件，不限数量。

实战示例：批量重命名视频素材

场景：文件夹里有 80+ 个命名混乱的视频素材（如yellow_lunar_surface_training_sim_alpha_03.mp4），想根据内容重命名为可读名称。

操作步骤：

点击 “进入项目工作” → “使用现有文件夹”
选中素材文件夹
输入指令：“请分析每个视频的内容，根据画面内容重命名所有文件，使用中文描述”
Codex 会自动读取视频、分析内容、执行重命名

其他文件操作：

📁 批量整理文件分类
📝 批量提取 PDF/Word 内容并汇总
📊 分析 Excel/CSV 数据并生成报告
🖼️ 批量处理图片（压缩、格式转换、添加水印）

4.2 能力二：代码编写与调试 ⭐

Codex 的核心能力，支持多种模式：

模式	说明	适用场景
Ask 模式	只读分析，不修改代码	代码审查、学习代码库
Code 模式	全功能，可读写运行	开发新功能、修复 Bug
Plan 模式	先出方案，再执行	复杂重构、架构调整

实战示例：修复 Bug

你："修复 auth/ 目录下所有失败的测试" Codex： 1. 读取测试文件，定位失败用例 2. 分析失败原因（如异步处理错误） 3. 修改源代码 4. 重新运行测试验证 5. 返回修改摘要和 diff

4.3 能力三：浏览器控制（Browser Use）

Codex 内置浏览器，可以：

🌐 打开本地开发服务器，实时预览修改
🔍 抓取网页数据（需遵守 robots.txt）
📝 在渲染页面上直接标注：“把这个按钮改大 20px”
🧪 自动化测试前端界面

限制：目前仅限未登录的公开页面，完整浏览器控制正在开发中。

4.4 能力四：电脑操控（Computer Use）⭐⭐

这是 Codex 的王牌功能！它可以像人一样操控你的电脑：

👁️看屏幕：截取屏幕，理解当前界面状态
🖱️点击输入：自动点击按钮、填写表单、输入文字
🔄多应用协作：同时操作 Figma、Xcode、Slack 等多个应用
⚡后台运行：你继续工作，Codex 在后台自动完成任务

实战场景：

🎨 在 Figma 中自动调整设计稿
📱 在 iOS 模拟器中测试 App
🐛 修复只有 GUI 才能复现的 Bug
📊 操作 Excel 生成复杂报表

⚠️注意：Computer Use 需要手动开启，且初始不支持欧盟/英国/瑞士地区。

4.5 能力五：图像生成

Codex 集成了 gpt-image-1.5 模型，可以：

🎨 生成产品 hero 图、UI mockup
🖼️ 根据截图修改设计（“把背景改成深色模式”）
🎮 创建游戏素材、图标
📐 生成架构图、流程图

⚠️ 图像生成消耗额度较快（约为文本任务的 3-5 倍）。

4.6 能力六：Skill（技能）系统

Skill 是 Codex 的"外挂"，让 Agent 能执行特定领域的复杂任务。

内置 Skill 示例：

Skill	功能
Cloud Deployment	自动部署到 Cloudflare、Vercel、Netlify
Image Generation	生成和编辑图像
API Documentation	自动引用最新 OpenAI API 文档
Document Handling	读写 PDF、Excel、Word

自定义 Skill：

你可以创建自己的 Skill，封装特定工作流程：

# 创建 Skill 目录 mkdir -p ~/.codex/skills/my-skill # 编写 SKILL.md 定义任务流程 # 包含：指令、代码模板、API 配置、脚本

Skill 可以提交到团队仓库，确保所有成员共享相同的工作流程。

4.7 能力七：MCP（模型上下文协议）

MCP 是 Codex 连接外部世界的"通用接口"，由 Anthropic 开源，现已成为行业标准。

支持的 MCP Server：

GitHub、Notion、Slack、Linear
Postgres、MongoDB、Redis
Google Calendar、Gmail
以及数千个社区 MCP Server

安装 MCP Server：

# 从 Registry 安装codex mcpinstallgithub# 添加自定义 Servercodex mcpaddnotion--command"/usr/local/bin/notion-mcp"# 查看已安装codex mcp list

使用示例：

> /mcp connect github > 找仓库里所有动了 apps/billing 的 open PR，总结一下 review 状态

4.8 能力八：Hook 与自动化

Hook 让 Codex 在特定生命周期事件时自动执行命令：

# .codex/hooks.toml [[hooks]] event = "pre-commit" command = "pnpm run lint:fix" description = "提交前自动修复代码格式" [[hooks]] event = "post-edit" command = "pnpm test -- --findRelatedTests $CODEX_EDITED_FILES" description = "每次编辑后运行相关测试"

Auto-review（自动审查）：

[auto_review] enabled = true reviewer_model = "gpt-5.4" block_on_severity = "high"

开启后，每次提交前会启动第二个 Codex Agent 审查代码，拦截约 1/8 的潜在回归问题。

4.9 能力九：子代理（Subagents）

Codex 支持最多 8 个并行子代理同时工作：

主 Agent 分解任务 ├─ 子 Agent 1: 研究 Stripe SDK 模式 ├─ 子 Agent 2: 编写核心代码（等研究完成） ├─ 子 Agent 3: 编写测试（并行） ├─ 子 Agent 4: 更新文档（并行） └─ ...

每个子代理在独立的云沙箱中运行，互不干扰。

4.10 能力十：Goal 模式（长期任务）

Goal 模式让 Codex 可以处理跨天甚至跨周的长期任务：

🎯 设置持久目标，Codex 自动规划执行步骤
⏰ 定时唤醒，继续未完成的任务
🧠 Memories 记住跨会话的上下文

使用方式：

/goal "每周一早上 9 点生成上周所有平台的广告性能报告， 对比 KPI 目标，标记异常，发送摘要到 Slack"

5. 高级功能

5.1 远程控制（手机端）

Codex 支持通过手机 ChatGPT App 远程控制电脑：

📱 在 iOS/Android ChatGPT App 上发送指令
💻 电脑上的 Codex 接收并执行
🔔 实时推送任务进度和结果

使用场景：

下班路上让 Codex 开始跑测试
出差时远程修复线上 Bug
睡前设置明天的自动化任务

5.2 Chrome 扩展

2026 年 5 月推出的 Chrome 扩展，让 Codex 可以在浏览网页时：

一键将当前页面内容发送给 Codex 分析
在网页上直接标注修改建议
抓取页面数据并自动处理

5.3 Record & Replay（录制回放）

2026 年 6 月新功能：

你手动演示一遍工作流程
Codex 自动记录操作步骤
转换为可复用的 Skill
以后一键自动执行相同流程

5.4 Thread Handoff（线程移交）

可以在本地和远程主机之间移交任务线程：

在公司电脑上开始任务
回家后在家里的电脑上继续
Codex 自动协调上下文同步

5.5 Appshots（截图转上下文）

macOS 专属功能：

截取任何应用窗口
Codex 自动理解截图内容
基于截图内容执行操作

6. Codex vs Claude Code 对比

两者都是顶级 AI Agent 工具，但定位不同：

维度	Codex	Claude Code
模型	GPT-5.5（只能 GPT）	Claude Opus 4.8（可替换）
易用性	⭐⭐⭐ 小白友好	⭐⭐ 重度开发者
功能	浏览器+电脑操控+生图+远控	适合专业开发者
价格	$20/月够用	API 计费，消耗快
代码质量	盲评胜率 25%	盲评胜率 67%
Token 效率	约 4x 更高效	基准
Terminal-Bench	82.7% 🥇	69.4%
SWE-bench Pro	58.6%	69.2% 🥇
上下文窗口	200K tokens	1M tokens 🥇
多代理	8 并行子代理	Agent Teams（协调式）
开源	✅ Apache-2.0	❌ 闭源
MCP 支持	✅	✅（更丰富）
Hook 粒度	生命周期级	更细粒度（PreToolUse 等）

选择建议

你的情况	推荐工具	原因
编程新手 / 非技术人员	Codex	界面友好，功能全面
需要操控 GUI 应用	Codex	Computer Use 独一档
预算敏感	Codex	Token 效率更高
高 stakes 代码（支付/安全）	Claude Code	代码质量更高
超大代码库	Claude Code	1M 上下文窗口
复杂多代理编排	Claude Code	Agent Teams 更成熟
两者都要	都用	“Claude 做架构，Codex 敲代码”

💡业内共识：65% 的开发者日常更喜欢用 Codex，但盲评代码质量时 Claude Code 胜出 67%。最佳实践是两者结合使用。

7. 定价与使用限制

7.1 订阅方案

方案	月费	Codex 权限	备注
Free	$0	有限试用	额度极少
Go	$8	基础访问	轻量用户
Plus	$20	完整访问	大多数用户够用
Pro	$100	GPT-5.5 Pro + 5x 额度	重度用户
Pro Max	$200	20x 额度	团队/企业
Business	$25/人	团队协作	企业功能
Enterprise	定制	全部功能	安全合规

7.2 API 直接计费（CLI 用户）

模型	输入 / 1M tokens	输出 / 1M tokens
GPT-5.5	$5	$30
GPT-5.5 Pro	$30	$180
codex-mini	$1.50	~$15

7.3 使用限制

任务时长：通常 1-30 分钟，复杂任务可达数小时
并行任务：最多 8 个子代理同时运行
互联网访问：Plus/Pro/Team 可选开启，支持域名白名单
地区限制：Computer Use 暂不支持欧盟/英国/瑞士

8. 实战技巧与最佳实践

8.1 编写有效的 AGENTS.md

AGENTS.md 是 Codex 的"项目说明书"，帮助 Agent 理解你的项目：

# Project Context ## 架构 - 前端：Next.js + TypeScript - 后端：Node.js + Express - 数据库：PostgreSQL ## 代码规范 - 使用 TypeScript strict mode - 所有 API 调用通过 /lib/api - 状态管理使用 Zustand - 不允许使用 any 类型 ## 测试 - 新代码必须写测试（TDD） - 覆盖率不低于 80% - 使用 React Testing Library ## 关键路径 - 入口：src/app/page.tsx - API：src/app/api/ - 组件：src/components/

8.2 Prompt 技巧

❌ 不好的 Prompt	✅ 好的 Prompt
“修复这个 Bug”	“修复 auth/login.ts 中导致 401 错误的 Bug，保留现有日志格式”
“写个功能”	“在 src/features/ 下添加用户收藏功能，包含：模型、API、前端组件、测试”
“优化代码”	“将 src/utils/date.ts 中的 parseDate 函数重构为使用 date-fns，保持 API 兼容”