Lazy loaded image
如何最大化使用 Codex
字数 3893阅读时长 10 分钟
2026-5-20
2026-5-25
type
Post
status
Published
date
May 20, 2026
slug
example-33
summary
tags
AI
热门文章
category
技术整理
icon
password
Property
May 25, 2026 03:11 AM
大多数开发者第一次使用代码编辑类 AI Agent 时,通常只让它做一件事:写代码。比如检查一个代码库、生成 diff、运行测试,然后提交一个 pull request。
写代码仍然是 Codex 的核心能力。但仔细想想,我们在电脑上的很多工作都和代码相关:执行终端命令、浏览网页、调用 API、导出文档、响应事件,或者触发自动化流程。当 Codex 进入这些领域时,它就不只是一个狭义的编程助手,而更像一个能协助完成各种电脑工作的通用执行者。
Codex 的新能力让这种转变更现实:对话流可以保存上下文、调用工具、展示生成文件,也能在不同提示之间持续衔接,而不是每次都从零开始。
要真正发挥 Codex 的潜力,需要把以下能力组合起来使用:
  • 持久对话流:长期运行,并持续保留工作上下文。
  • 语音输入、任务干预和任务排队:在保持掌控感的同时快速推进任务。
  • 浏览器、电脑控制、MCP 服务器与连接器:把 Codex 的触达范围扩展到代码库之外。
  • 对话流自动化与目标驱动:即使人不在电脑前,也能让任务继续推进。
  • 侧边栏:在同一个工作空间里审查代码、文档、幻灯片和其他生成文件。

持久对话流(Durable threads)

持久对话流:可以长期运行的 Codex 对话流,能在多次使用过程中持续保留工作上下文。
把对话流置顶,是让这些长期工作区随时可用的好办法。它尤其适合需要反复推进的工作流,例如:
  • 一个专属的“幕僚长”对话流,用于处理日常杂务和优先级;
  • 一个专门负责产品发布的对话流;
  • 一个持续审查和维护文档的对话流;
  • 一个监控外部数据变化的对话流。
这些对话流不是一次性的聊天窗口,而是持久工作空间。随着时间推移,Codex 可以回到这些对话中,记住先前的决策、偏好和当前进度。没有这种连续性,你每次都需要重新提供背景。
置顶快捷键让这种用法更实用:通过 Command-1 到 Command-9,可以快速跳回已经保存好的专属对话流。

语音输入(Voice input)

语音输入的价值在于,它能在你把想法整理成正式文字之前,先捕捉到最原始、最粗糙的想法。
Codex 内置语音输入,适合那些“说得清楚,但打字太慢”的模糊任务。例如:
“我记得 Slack 里有个叫 Ben 的人提过这件事。细节我忘了。你帮我找找看。”
对一个能搜索、收集上下文并汇报结果的 AI Agent 来说,这样的粗略线索已经足够启动任务。
当你只有大概想法、还没有完全成型时,可以先用两三分钟口述,把背景、疑问、猜测和优先级全部说出来,再让 Codex 去搜索、整理、验证和推进。
录音转写也同理。未经修饰的会议记录或口述计划,往往比简短总结更有价值,因为它保留了犹豫、重点、线索和未完成的想法。

任务干预与排队(Steering and queuing)

当语音输入和运行中任务控制结合起来时,Codex 的可控性会明显提升。
任务干预(Steering):在当前任务尚未完成时,中途打断 Codex,并为它指定新的方向。
当你发现 AI 跑偏,需要在它继续错误路径之前修正时,任务干预就很有用。比如让它审查网页时,可以一边看侧边栏,一边直接指出:
  • “把这个调小一点。”
  • “这两个元素之间的间距不对。”
  • “这句文案写错了。”
任务排队(Queuing):不打断当前步骤,而是在当前任务完成后安排后续任务。
排队适合安排下一步动作。例如:
“等这个任务完成后,把预览链接发到 Slack 给审核人。”
简言之,干预是改变 Codex 正在做的事;排队是安排它接下来要做的事。这两个能力可以让人始终参与在任务执行过程中,而不是等结果出来后再批改。

工具与触达范围(Tools and reach)

当一个对话流具备连续记忆后,下一步就是扩展它能触达的范围。Codex 的能力可以向外逐层延伸:
  • $browser:在侧边栏中运行的应用内浏览器,适合审查网页并在页面上做标注。
  • @chrome:可以利用浏览器登录状态,处理依赖 Chrome 账户会话的工作流。
  • @computer:用于那些只能通过桌面图形界面完成的任务。
$browser 更适合网页审查;@chrome 适合需要账号登录态的浏览器工作;@computer 则用于必须在桌面 GUI 中点击操作的任务。
MCP 服务器和连接器把这种能力进一步扩展到整个工作流。很多关键任务在变成代码之前,最初可能只是一条 Slack 消息、一封邮件,或者一个日程安排问题。
Skills 则可以把经过验证的重复工作流沉淀下来。只要某个流程被证明好用,就可以把它固化为技能,让 Codex 下次不必重新学习。

随时随地工作(Work from anywhere)

Codex 的工作方式正在削弱“必须坐在电脑前才能推进任务”的限制。一个任务可以在装有文件、权限和本地环境的 Mac 上启动;当你离开工位,用手机查看时,任务仍能继续推进。
这对于碎片时间尤其有用。你可以让 Codex 在电脑上跑一个长任务,然后离开座位。如果它在过程中需要确认,你可以直接在手机上回复、批准下一步,或者继续指派新方向。你的本地环境保持工作,而你不必一直守在电脑前。

自动化(Automations)

自动化可以让 Codex 按时间表运行。如果任务每天都从零开始,例如生成日报或例行检查代码库,可以使用定时自动化。若任务需要在一个带有历史记忆的对话中持续推进,则更适合使用对话流自动化。
对话流自动化:类似一种定时唤醒的“心跳”机制,会按照设定时间表定期回到同一个 Codex 对话流中继续工作。
置顶对话流需要你主动回去打开,而对话流自动化可以每隔几分钟或几小时自行检查,直到满足某个条件;必要时还可以根据情况调整检查频率。
例如,“幕僚长”对话流可以每 30 分钟运行一次:
每 30 分钟检查我的 Slack 和 Gmail,看看是否有需要处理但还没回复的消息。帮我排优先级。如果有人向我提问,尽量深入查资料并起草回复,但不要直接发送。
当你回到电脑前时,最耗时的背景资料收集工作可能已经完成,你只需要做最后判断。
对话流自动化也适合处理反馈循环。它可以监控代码 PR、Google 文档或 Slack 评论,并在你不在时推进后续修改。
例如在动画制作场景中,审核人在 Slack 发来视频反馈后,对话流自动化可以定时检查评论。一旦有修改意见,它可以自动渲染新版,在原帖中回复审核人。如果某个软件的接口无法自动完成最终上传,它还可以调用桌面自动化,通过图形界面完成最后一步。

目标设定(Goals)

当任务有明确终点,并且 AI Agent 可以持续朝终点推进时,目标设定会非常有效。
目标(Goals):运行时间更长的 Codex 任务,带有清晰的终点线,AI 会在一段时间内持续朝它推进。
一个糟糕目标是:
“把这个 Markdown 文件里的计划实现一下。”
一个优秀目标必须有可衡量的成功标准。比如,工程师要把一个内部工具从 Python 迁移到 Rust,可以先建好新目录,再设定明确终点:
“直到所有单元测试全部通过,这个新版本的开发才算完成。”
目标设定的核心,是把持续执行和验证器结合起来。人类定义想要的结果、停止条件,以及用来判断 Codex 是否更接近终点的信号。
可用的验证器包括:
  • 完整测试用例;
  • 基准性能测试;
  • 可稳定复现的 Bug;
  • 验证矩阵;
  • 必须始终跑通的端到端工作流。
有野心很重要,但没有验证机制的野心,只是在许愿。

侧边栏(The side panel)

侧边栏让生成结果始终与聊天窗口并排出现,省去了导出文件、切换软件再审查的流程。生成结果可以是代码,也可以是幻灯片、PDF、网页、表格或其他文件。
它尤其适合四类工作:
  1. 检查生成文件(artifacts);
  1. 标注需要修改的地方;
  1. 操作网页界面;
  1. 审查代码或文件变更。
侧边栏允许用户直接查看 Markdown、电子表格、数据表、文档和幻灯片。你可以不打断现有工作流,就地检查、标注和修改。
notion image
幻灯片或 PDF 可以直接在对话旁边打开,随时审查和修改。
notion image
应用内浏览器让 Codex 可以直接检查渲染后的网页、控制页面,甚至响应你在页面上的标注。网页和文件评论都留在同一个工作闭环中,不需要再拆成多个交接任务。 网页既是输出结果,也可以成为控制面板。Codex 可以创建一个页面,在侧边栏中打开,自行检查、修复 Bug,并不断迭代优化。
notion image
以下场景与侧边栏配合尤其好:
  • 用单个 index.html 做轻量静态展示;
  • 运行 Storybook 审查 UI 组件;
  • 使用 Remotion Studio 生成动画;
  • 在浏览器中放映幻灯片;
  • 用于数据分析的数据应用。
一个简单的 index.html 文件就能变成交互式小应用,甚至不需要搭服务器。对话流自动化还能随着时间推移更新这些静态文件,使你回来时能直接看到最新进展。

共享记忆(Shared memory)

当长期运行的对话流能突破单次聊天的边界,并共享外部记忆时,它们的作用会进一步增强。
共享记忆:存储在单一对话之外的持久上下文,让未来工作能够基于明确、可追溯的信息继续推进。
一个稳妥做法,是把持久对话流锚定在一个 Obsidian 知识库(vault)中。本质上,它就是一个存放纯文本文件的文件夹,便于查看、修改、移动,也适合长期保存。团队可以把它放在 Git、Dropbox、Google Drive 或其他同步工具中。
知识库结构可以类似这样:
vault/
├── TODO.md
├── people/
├── projects/
├── agent/
└── notes/
在最外层目录下,可以放一个 AGENTS.md,用来告诉 Codex:当它了解到关于人员、项目、决策和待办事项的新信息时,应该如何更新知识库。
不要照抄某一种知识库结构。真正重要的是教会 AI Agent:哪些长期上下文应该保存在哪里,哪些内容需要保留,以及什么时候不要随意改文件。
一个实用的 AGENTS.md 可以包含:
  • 把 ~/vault 当作长期工作记忆区;
  • 尽量把笔记整理得有条理,避免碎片化;
  • 准确分类待办事项、人员、项目、每日总结和草稿;
  • 保存决策、卡点、负责人、日期和有用链接;
  • 如果没有实质性新进展,不要随意修改知识库文件。
代码库用于存代码;知识库用于存不断滚动的上下文:涉及哪些人、改了什么、卡在哪里、下一步由谁跟进,以及那些如果中断一次对话就可能丢失的细节。
重要上下文不应只锁在某一次聊天记录中。把它写下来,放到下一个对话流可以立刻接手的位置。
Codex 自身也提供记忆功能,用于记住个人偏好、常用工作流和经常遇到的问题。但它更适合作为补充,而不是替代清晰写下来的外部上下文。

从代码向外延伸(From code outward)

Codex 仍以写代码起家,但围绕代码的许多外围工作,现在也能在同一套系统中处理:MCP 服务器、网页界面、桌面控制、对话流自动化,以及可以在侧边栏直接审查的文件。
这改变了我们控制它的方式:任务干预可以中途修正方向,任务排队可以安排下一步,对话流自动化能在人不在时继续运转,而目标设定为长期任务提供清晰终点。
今天的 Codex 已经可以承担更完整的工作流:从听取指令、执行任务,到最终文件审查。即使任务超出了代码库本身,它也能作为一个围绕电脑工作的执行系统持续推进。
 
上一篇
个人简历
下一篇
提示词图库

评论
Loading...