‹ 返回笔记 · Back to notes

现场手记

过去 35 小时,我在干什么

What Was I Doing for the Past 35 Hours?

把 Claude Code 的会话日志、git 提交和 token 账单整个扒了一遍:85 个会话、约 400 条指令、5200 多次工具操作、5 个仓库 52 次提交。顺便认真回答一个问题:Fable 5 到底厉害在哪。

Claude CodeFable 5工程复盘public-safe

YunLab · 工程复盘

今天早上六点半,我让 Cici 把过去 35 小时的 Claude Code 会话日志、git 提交和 token 账单整个扒了一遍。起因很简单:这两天的节奏明显不对劲——活在往前走,但我说不清到底走了多少。与其凭感觉吹牛或者焦虑,不如把账算出来。

算完我决定写下来。一是给自己留底,二是这份账正好能回答一个我最近常被问的问题:Fable 5(Claude Code 当前的旗舰模型)到底强在哪。宣传满天飞,实测账单不多见。这篇就是一份实测账单。

先把数报了

时间窗:6 月 10 日晚上 7 点 39 分,到 6 月 12 日早上 6 点 39 分,整 35 小时。口径先说清楚:统计的是本机 Claude Code 的全部会话日志,刨掉了 114 个桌面端自动产生的微会话——桌面 app 每隔一阵会用小模型检查一遍「助手现在还有没有活要干」,那是系统自检,不算人干的活。

  • 85 个工作会话,我亲手敲了约 400 条指令;
  • 模型回了约 1 万条消息,动手 5200 多次:跑命令 2400 多次,读文件近 1000 次,改文件 595 次,新建文件 219 次,上网搜索加抓取 440 多次;
  • 输出 990 万 token(token:模型吞吐文本的计量单位,990 万大概是几百万字的量级),上下文吞吐 23.8 亿 token;
  • 5 个仓库,52 次 git 提交;
  • 35 小时里有 21 个小时机器上有活动——包括我睡觉的时段;
  • 近九成回复来自 Fable 5,剩下的是子任务和系统自检在用别的模型。
35 小时每小时模型回复条数的柱状图:六个高峰对应六条工作线,第二个夜里有一段黄色标注——这段我在睡觉,它在干活

400 条指令换 5200 多次操作、52 次提交——平均我说一句,它干 13 件事。这是我觉得最值得记下来的数字。以前用 AI 写代码,比例差不多是一比一:我说一句它改一段,我再说一句它再改一段。现在它接住一句话,剩下的自己跑。

这 35 小时干了七件事

按 git 提交和会话记录倒推,35 小时里有七条线在并行往前走。

  • 额度挂件,从一句话到能用的 app。10 号晚上我说「想把任务看板和 AI 额度面板做成一个独立的 Mac app」,到 11 号下午,14 次提交:原生贴桌面挂件、菜单栏托盘、Claude Code 会话零配置监听——哪个会话在跑、哪个在等我、哪个结束了,状态机自动判。中间还做了一轮代码审查,嫌疑列了一堆,逐个验证后确认 7 个真 bug,修掉。
  • 这个网站本身。你现在看到的 yunlab.ai 就是这 35 小时里收口的:新皮肤、28 篇中文文章全部过了一遍编辑、上了「问 YunLab」AI 问答和留言板(数据库存储 + AI 审核:善意的批评放行,恶意和广告拒掉)。15 次提交。中间踩了一个浏览器安全策略的坑(CSP,内容安全策略,禁止页面内联脚本)——问答功能本地好好的,线上全哑,根因是构建工具自作主张把脚本内联进了页面,一行配置关掉内联,解决。
  • Claudio 电台推了三波。我自己攒的 AI 网络电台。这 35 小时里:播报异步化,「开播到出第一声」从 113 秒一路压到 2 秒;口味反馈,我点喜欢或跳过,后面的选歌会变;后台大脑换便宜档,闲时用低成本模型干活。外加一次界面重做、电台改成从服务器音箱直接出声、修了一次晚上网络盘静默掉线的事故。12 次提交,还有一轮一口气修掉 25 个问题的代码审查。
  • 全球物流情报中心,一天从零到上线。11 号下午 4 点 42 分第一次提交,晚上 9 点 35 分自托管的 RSS 服务上线:数据底座、API、事件评分、四个面板(底图全本地离线)、44 个情报源、政策和地缘政治情报层。今天早上 6 点 35 分还顺手修了一个旧进程没死透占着端口的问题。9 次提交。
  • 治理层。机器宪法 v2(管 AI 在我机器上能干什么、不能干什么的那套规则)落成四层体系,用户画像体系重建 v2,治理文件全部入 git。这类活不出功能,但它决定前面所有活的安全边界。
  • OpenClaw 的 agent 维护。沈知行(信息抓取 agent)的链路优化、和苏晚(写作 agent)的衔接打通、历史抓取数据清理,外加纪嫣然语音桥试验残留配置的收尾。
  • 视频产线在值夜班。林鹿视频工厂的黛玉 45 秒全片在产线上跑,写这篇文章的时候,六个分镜的视频段刚生成完——活动曲线上 6 月 12 日凌晨那一小撮就是它,那会儿我在睡觉。

七条线不是七个奇迹,里面有大量琐碎的修修补补。但它们是并行的——这是和以前最大的不同。以前我是单线程的,开一摊就得守一摊;现在更像看几口锅的人,哪口响了看哪口。

Fable 5 到底厉害在哪

说模型。这 35 小时近九成的回复来自 Fable 5。下面四条不是评测跑分,是从我自己的账单里长出来的判断。

一、长程不散架。最长的一个会话从窗口头活到窗口尾,断断续续跨了 34 个半小时,每次接着上次的进度往前推,没有从头来过。物流情报中心整个项目的起点是我一句话——「我想做一个全球物流的情报中心」——它自己把这句话拆成六个阶段,从空目录干到 44 个源上线。长任务里「忘了自己在干嘛」这件事,以前是常态,这 35 小时里我没遇到。

二、动手密度。5200 多次工具操作里,跑命令占了快一半。它不是在陪我聊架构,它在操作这台机器:装服务、配后台任务、跑构建、翻日志、起进程杀进程。一比十三的指令操作比,意味着大部分时间它在干活,我在干别的。

三、修问题修到根上。三个例子全是这 35 小时里的真事。电台的后台大脑全体静默降级,它没去改调用代码碰运气,翻日志查到根因:后台服务的环境变量缺一条路径,某个依赖工具起不来、一上来就退出——改环境,不是改代码。网站问答线上全哑,根因是构建工具把脚本内联触发了安全策略,不是接口的问题。今早物流面板断链,根因是旧进程占着端口,它修完还顺手把启停脚本改成按端口检测,下次这类问题直接被拦住。打补丁谁都会,找到「为什么坏」才省后面的命。

四、会派自己的小队。35 小时里它发起了 13 次多 agent 工作流,前后拉起两百多个并行子任务回报结构化结论。审查电台代码那次就是这么干的:并行扫不同维度,汇总后逐项验证,最后修掉 25 个确认的问题;审查额度挂件同样的套路,验证后真 bug 是 7 个。它没把「看起来像 bug」的东西也顺手改了——这一点比修 bug 本身更让我放心。

它不厉害的地方

写到这有软文的危险,所以这一节必须有。

  • 口吻管不住自己。留言板的页面文案第一版一股标准 AI 腔,被我打回重写才上线。它写得又快又顺,但「像不像我说的话」这件事,它自己判断不了,得我把关。
  • 记忆是外挂的。23.8 亿 token 的上下文吞吐,换个说法就是:模型本身记不住事,每个会话都靠把历史重新喂进去。没有我这套记忆文件、任务文件夹、交接文档的体系,这 35 小时就是 85 段互相失忆的对话。是我的文件系统在替它记,不是它自己会记。
  • 它不替我拍板。问答功能背后换哪家模型、留言审核的松紧、视频镜头能不能用——35 小时里所有方向性的决定还是人做的。400 条指令,平均五分钟一条。这不是「全自动」,这是高杠杆:杠杆放大产出,也放大错误的决定,所以扳手柄的人反而更重要了。

35 小时,52 次提交,4 个能用的东西往前走了一大步,1 条视频产线在我睡觉时值夜班。一个中年人,一个模型。

我不觉得是我变强了,是杠杆变了——同样一句话,以前换来一段代码,现在换来一个能用的系统。账单也说得很清楚:杠杆不是魔法,它要吃 token,要人把关口吻,要外挂记忆,要有人拍板。

这份账以后我大概每隔一阵会再算一次。曲线怎么走,到时候接着写。

更新(6 月 13 日):这篇发出去不到一天,Fable 5 就被美国政府一纸出口管制指令下架了——发布到下架只有三天。后续我写在这篇:《我昨天还在夸的模型,今天没了》

把这篇记录接到下一步

读完以后,可以继续追问这篇文章,也可以回到策展目录,或通过标签追同一条线索。

追问这篇 回到目录 浏览标签