过去 35 小时，我在干什么

YunLab · 工程复盘

今天早上六点半，我让 Cici 把过去 35 小时的 Claude Code 会话日志、git 提交和 token 账单整个扒了一遍。起因很简单：这两天的节奏明显不对劲——活在往前走，但我说不清到底走了多少。与其凭感觉吹牛或者焦虑，不如把账算出来。

算完我决定写下来。一是给自己留底，二是这份账正好能回答一个我最近常被问的问题：Fable 5（Claude Code 当前的旗舰模型）到底强在哪。宣传满天飞，实测账单不多见。这篇就是一份实测账单。

先把数报了

时间窗：6 月 10 日晚上 7 点 39 分，到 6 月 12 日早上 6 点 39 分，整 35 小时。口径先说清楚：统计的是本机 Claude Code 的全部会话日志，刨掉了 114 个桌面端自动产生的微会话——桌面 app 每隔一阵会用小模型检查一遍「助手现在还有没有活要干」，那是系统自检，不算人干的活。

85 个工作会话，我亲手敲了约 400 条指令；
模型回了约 1 万条消息，动手 5200 多次：跑命令 2400 多次，读文件近 1000 次，改文件 595 次，新建文件 219 次，上网搜索加抓取 440 多次；
输出 990 万 token（token：模型吞吐文本的计量单位，990 万大概是几百万字的量级），上下文吞吐 23.8 亿 token；
5 个仓库，52 次 git 提交；
35 小时里有 21 个小时机器上有活动——包括我睡觉的时段；
近九成回复来自 Fable 5，剩下的是子任务和系统自检在用别的模型。

35 小时每小时模型回复条数的柱状图：六个高峰对应六条工作线，第二个夜里有一段黄色标注——这段我在睡觉，它在干活

400 条指令换 5200 多次操作、52 次提交——平均我说一句，它干 13 件事。这是我觉得最值得记下来的数字。以前用 AI 写代码，比例差不多是一比一：我说一句它改一段，我再说一句它再改一段。现在它接住一句话，剩下的自己跑。

这 35 小时干了七件事

按 git 提交和会话记录倒推，35 小时里有七条线在并行往前走。

额度挂件，从一句话到能用的 app。10 号晚上我说「想把任务看板和 AI 额度面板做成一个独立的 Mac app」，到 11 号下午，14 次提交：原生贴桌面挂件、菜单栏托盘、Claude Code 会话零配置监听——哪个会话在跑、哪个在等我、哪个结束了，状态机自动判。中间还做了一轮代码审查，嫌疑列了一堆，逐个验证后确认 7 个真 bug，修掉。
这个网站本身。你现在看到的 yunlab.ai 就是这 35 小时里收口的：新皮肤、28 篇中文文章全部过了一遍编辑、上了「问 YunLab」AI 问答和留言板（数据库存储 + AI 审核：善意的批评放行，恶意和广告拒掉）。15 次提交。中间踩了一个浏览器安全策略的坑（CSP，内容安全策略，禁止页面内联脚本）——问答功能本地好好的，线上全哑，根因是构建工具自作主张把脚本内联进了页面，一行配置关掉内联，解决。
Claudio 电台推了三波。我自己攒的 AI 网络电台。这 35 小时里：播报异步化，「开播到出第一声」从 113 秒一路压到 2 秒；口味反馈，我点喜欢或跳过，后面的选歌会变；后台大脑换便宜档，闲时用低成本模型干活。外加一次界面重做、电台改成从服务器音箱直接出声、修了一次晚上网络盘静默掉线的事故。12 次提交，还有一轮一口气修掉 25 个问题的代码审查。
全球物流情报中心，一天从零到上线。11 号下午 4 点 42 分第一次提交，晚上 9 点 35 分自托管的 RSS 服务上线：数据底座、API、事件评分、四个面板（底图全本地离线）、44 个情报源、政策和地缘政治情报层。今天早上 6 点 35 分还顺手修了一个旧进程没死透占着端口的问题。9 次提交。
治理层。机器宪法 v2（管 AI 在我机器上能干什么、不能干什么的那套规则）落成四层体系，用户画像体系重建 v2，治理文件全部入 git。这类活不出功能，但它决定前面所有活的安全边界。
OpenClaw 的 agent 维护。沈知行（信息抓取 agent）的链路优化、和苏晚（写作 agent）的衔接打通、历史抓取数据清理，外加纪嫣然语音桥试验残留配置的收尾。
视频产线在值夜班。林鹿视频工厂的黛玉 45 秒全片在产线上跑，写这篇文章的时候，六个分镜的视频段刚生成完——活动曲线上 6 月 12 日凌晨那一小撮就是它，那会儿我在睡觉。

七条线不是七个奇迹，里面有大量琐碎的修修补补。但它们是并行的——这是和以前最大的不同。以前我是单线程的，开一摊就得守一摊；现在更像看几口锅的人，哪口响了看哪口。

Fable 5 到底厉害在哪

说模型。这 35 小时近九成的回复来自 Fable 5。下面四条不是评测跑分，是从我自己的账单里长出来的判断。

一、长程不散架。最长的一个会话从窗口头活到窗口尾，断断续续跨了 34 个半小时，每次接着上次的进度往前推，没有从头来过。物流情报中心整个项目的起点是我一句话——「我想做一个全球物流的情报中心」——它自己把这句话拆成六个阶段，从空目录干到 44 个源上线。长任务里「忘了自己在干嘛」这件事，以前是常态，这 35 小时里我没遇到。

二、动手密度。5200 多次工具操作里，跑命令占了快一半。它不是在陪我聊架构，它在操作这台机器：装服务、配后台任务、跑构建、翻日志、起进程杀进程。一比十三的指令操作比，意味着大部分时间它在干活，我在干别的。

三、修问题修到根上。三个例子全是这 35 小时里的真事。电台的后台大脑全体静默降级，它没去改调用代码碰运气，翻日志查到根因：后台服务的环境变量缺一条路径，某个依赖工具起不来、一上来就退出——改环境，不是改代码。网站问答线上全哑，根因是构建工具把脚本内联触发了安全策略，不是接口的问题。今早物流面板断链，根因是旧进程占着端口，它修完还顺手把启停脚本改成按端口检测，下次这类问题直接被拦住。打补丁谁都会，找到「为什么坏」才省后面的命。

四、会派自己的小队。35 小时里它发起了 13 次多 agent 工作流，前后拉起两百多个并行子任务回报结构化结论。审查电台代码那次就是这么干的：并行扫不同维度，汇总后逐项验证，最后修掉 25 个确认的问题；审查额度挂件同样的套路，验证后真 bug 是 7 个。它没把「看起来像 bug」的东西也顺手改了——这一点比修 bug 本身更让我放心。

它不厉害的地方

写到这有软文的危险，所以这一节必须有。

口吻管不住自己。留言板的页面文案第一版一股标准 AI 腔，被我打回重写才上线。它写得又快又顺，但「像不像我说的话」这件事，它自己判断不了，得我把关。
记忆是外挂的。23.8 亿 token 的上下文吞吐，换个说法就是：模型本身记不住事，每个会话都靠把历史重新喂进去。没有我这套记忆文件、任务文件夹、交接文档的体系，这 35 小时就是 85 段互相失忆的对话。是我的文件系统在替它记，不是它自己会记。
它不替我拍板。问答功能背后换哪家模型、留言审核的松紧、视频镜头能不能用——35 小时里所有方向性的决定还是人做的。400 条指令，平均五分钟一条。这不是「全自动」，这是高杠杆：杠杆放大产出，也放大错误的决定，所以扳手柄的人反而更重要了。

35 小时，52 次提交，4 个能用的东西往前走了一大步，1 条视频产线在我睡觉时值夜班。一个中年人，一个模型。

我不觉得是我变强了，是杠杆变了——同样一句话，以前换来一段代码，现在换来一个能用的系统。账单也说得很清楚：杠杆不是魔法，它要吃 token，要人把关口吻，要外挂记忆，要有人拍板。

这份账以后我大概每隔一阵会再算一次。曲线怎么走，到时候接着写。

更新（6 月 13 日）：这篇发出去不到一天，Fable 5 就被美国政府一纸出口管制指令下架了——发布到下架只有三天。后续我写在这篇：《我昨天还在夸的模型，今天没了》。