AGENT2026-04-21

Sanjaya:如何用 RLM 范式构建视频和图像理解 Agent

Sanjaya 是一个开源 Python 库(uv add sanjaya),受 RLM 启发,专门用于多模态理解:视频、文档、图像。核心思路:模型不是把问题答出来,而是写一个 Python 程序来回答——程序搜索 transcript、提取视频片段、采样帧、查询视觉模型、迭代,所有操作都在沙箱 REPL 里完成。在 PhotoBench 上 86-99% 召回率,每次查询成本 $0.29-$0.37。

Sanjaya 是一个开源 Python 库(uv add sanjaya),受 Recursive Language Model(RLM)agent 启发,构建用于多模态理解:视频、文档和图像。核心思路不同于传统方式:不是给模型 prompt 让它回答问题,而是让模型写一个 Python 程序来回答问题。

这个程序在沙箱 Read-Eval-Print Loop(REPL)里搜索 transcript、提取视频片段、采样帧、查询视觉模型、迭代——所有操作都不需要你手动管理。

2026 年 4 月初,Alex Zhang 等人发表了 RLM 论文,核心思想:

这篇文章的核心不是 Sanjaya 这个工具本身,而是它展示了 RLM 范式在视频理解上的具体工程路径:不给模型塞上下文,而是给它一个 REPL 让它自己写代码去读。\"不要把长上下文塞进 prompt,而是给它一个 Python REPL 让它写代码去查找\"——这个设计原则在任何需要处理长上下文的地方都适用。

AGENT2026-04-21

Everybody Talks About It, Nobody Knows What It Is — Harness Engineering 到底是什么

Harness Engineering 为什么火了三个月而不是像 RAG/LangChain 一样几周就消停?原因是实践者在生产中撞上了同一组问题——agent 让整条软件可靠性保障链条同时失效,而这组问题在管理学里有现成答案。Harness Engineering = 管理学旧原则在 agent runtime 新环境里的工程再实现。OpenAI/Cursor/Anthropic 三篇文章分别回答了交互/空间/时间三个维度。

Dan Ariely 说大数据像 teenage sex:everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they're doing it。Harness Engineering 现在就是这个状态。

AI 领域每隔几周就有一个新概念被推上风口,热闹一阵,然后被下一个概念取代。RAG是这样,LangChain 是这样,Context Engineering 也是这样。

Harness Engineering 不太一样。从 Mitchell Hashimoto 2026 年 2 月首次提出,到 OpenAI 正式采用,到 Garry Tan 的"Thin Harness Fat Skills"拿下 140 万阅读,这个概念已经持续了近三个月,热度没有明显衰减。而这三个月里,几乎没有人能给出一个让大家都满意的定义。

文章最重要的贡献不是定义 harness engineering,而是说清楚了为什么一个好名字能让一个旧概念火三个月:需求侧真实撞墙 + 名字恰好对上了这堵墙。DevOps 的类比是全文最精准的地方——原则没变,执行环境变了,所以需要新的工程实践。

AGENT2026-04-21

RLM:新一代推理模型

RLM(Recursive Language Model)是推理和工具使用两条能力轴的首次直接融合:模型把自身 Prompt 视为可检查、切分、递归查询的环境,而非固定字符串。上下文本身成为计算对象,突破 context window 的限制。Oolong(长上下文)、LongMemEval(记忆)、LongCoT(长推理)三个 benchmark 均验证了 RLM 范式的有效性。

RLM(Recursive Language Model)由 Alex Zhang 等人在 2025 年 10 月提出,核心思想一句话:语言模型把输入 Prompt 视为一个环境,而非固定字符串。

具体做法:根 LM 获得一个 REPL,其中 prompt 被绑定到一个变量,模型可以编程方式检查、切分、按区域划分。当它认定某个区域值得细看时,发起一个递归子调用——调用自己或其他 LM——处理那个切片,并把结果合并回来。递归最终在基础模型的普通前向传播处终止。

一个直接结果:输入大小不再受 context window 的硬性限制。论文报告 RLM 处理了比底层模型 context window 高两个数量级的输入,并在四个长上下文任务上优于普通前沿 LLM 和常见长上下文脚手架。

这篇文章说清楚了一件重要的事:推理模型(o1)和工具调用模型(Claude computer use)其实是同一件事的两个切面,RLM 是它们最终合并的地方。\"上下文本身成为计算对象\"这个表述,值得在脑子里多转几圈。

ORIGINAL2026-04-21

量化交易即将吞噬整个市场

作者曾是套利交易员,论证 AI/LLM 将让量化交易进入所有领域。核心论点:LLM 解决了两件事——(1)把任何模糊、非结构化信息转化为可量化指标;(2)在高维空间里对"一次性事件"做推理泛化。N=1 的药物审批在高维特征空间里不是 N=1,好交易员的直觉现在可以被系统性地规模化复制。

作者 sysls 实际上是从金融领域的自主交易员开始的,曾运营一个在新加坡交易所(SGX)和 INE/DCE 之间赚取商品价差压缩收益的套利组合。他发现有些交易只能靠 discretionary 方式做——比如发现新加坡橡胶商人会在特定时段极度激进地竞买橡胶期货(因为 OTC 合约参考当前期货价格,他们希望期货价格越高越好),价格冲击本质上是暂时的 dislocation,没有基本面支撑,但要算法化地区分"骗局导致的冲击"和"知情买入导致的冲击"非常困难。

这个经历塑造了他的观点:他对自主交易员其实有相当的尊重,因为 alpha 来自于把少量样本事件泛化成交易论点——这是量化交易此前不可能做到的事情,直到现在。

量化交易的本质很简单:找到一个市场模式 A,使得每次观察到 A 时,可以赌回报会以可预测的方式变化 B。

这篇文章的洞察很精准:好交易员一直在做的事情(高维特征空间的模式匹配),LLM 第一次让这件事可以系统性规模化复制还保持一致性。\"量化交易能吃的市场在急剧扩大\"——这个判断比大多数 crypto/AI 交易文章的结论更有结构性。

CLAUDE2026-04-21

Claude Code Routines 完全指南:定时、API 与 GitHub 触发器

Claude Code Routines 是保存的配置(Prompt + 仓库 + 连接器),运行在 Anthropic 托管的云基础设施上。支持三种触发方式:定时(cron)、API(/fire 端点)、GitHub 事件(PR/opened 等)。Routine 在笔记本关机时继续运行——这是和 /loop、Desktop 定时任务最核心的区别。

没有 Routines 的周一早上: 打开笔记本,发现周末积压了 40 个 issue,全没标签、没分配。3 个 PR 从周四就在等审查。周五的部署出去了但没人验证。你花一整天做分类工作。

有 Routines 的周一早上: 每条周末 issue 都已被标签化并分配。3 个 PR 各自有审查摘要,包含安全、性能、风格的内联评论。Slack 的 #eng-standup 频道里,一条消息确认了周五部署是干净的。Claude 在你笔记本合上的时候完成了所有这些。

Claude Code Routines 是保存的配置(Prompt + 仓库 + 连接器),运行在 Anthropic 托管的云基础设施上。通过定时、HTTP API 调用或 GitHub 事件触发。

这篇文章最好的地方在于给了可以直接 copy-paste 的 prompt 模板——backlog grooming 和 PR review 两个模板改一改就能用。而且说清楚了一个关键区别:Routine 运行在云端,你的笔记本关机了它还在跑。

CLAUDE2026-04-21

Claude Code 全新桌面 UI 完全指南

Claude Code 桌面应用重建为全并行工作区:多 session 并行运行、侧边栏统一管理、自带终端、内置文件编辑器、重建 Diff 查看器、Preview 窗格、Side Chat 等 15 项更新。Anthropic 的核心观点:这是"为 Agentic Coding 实际感受而构建的"。

之前 Claude Code 是一个 terminal,一个 session,一次做一件事,你盯着它滚动直到完成。

新版桌面应用是一个全并行工作区——多个 session 同时运行,侧边栏统一管理,每个 session 独立工作。你不再等待 Claude,而是指挥它。

Anthropic 自己的说法:"这个 app 是为 Agentic Coding 的实际感受而构建的。"

Claude Code 这次 UI 重建不只是加功能,是重新定义"人在 Agent 时代的位置":不再是盯着一个 session 看完,而是多任务并行、随时切换。"那些是别人模型的 wrapper,这是模型制造商围绕自己的 agent 建的界面"——这句话才是核心。

AGENT2026-04-21

生产级深度 Agent 的运行时架构

构建 Agent 需要两层:Harness 是围绕模型搭建的支持系统(Prompt、Tools、Skills),Runtime 是底层基础设施(持久化执行、记忆、多租户、可观测性)。本文是 LangChain 工程师 Sydney Runkle 对生产级 Agent Runtime 各层需求的完整拆解:checkpoint 持久化、人机交互、Middleware、沙箱隔离、开放协议等。

构建一个好的 Agent 需要两层:

- Harness:围绕模型搭建的支持系统,包括 Prompt、Tools、Skills,以及支持模型和工具调用循环的一切 - Runtime:底层基础设施——持久化执行、记忆、多租户隔离、可观测性,让 Agent 在生产环境持续运行而不需要团队每次都重新发明

大多数教程停在 Harness。但生产级 Agent 失败的地方,往往是 Runtime 层面。

大多数 Agent 开发停在"能跑"就结束。这篇文章的价值在于把"能跑"到"能上线"之间缺了什么全部拆开讲:中断恢复、多租户隔离、Middleware 策略执行、双写处理——这些都是只有踩过坑才知道的东西。

ORIGINAL2026-04-21

如何把 1 个想法变成 200 万美元的数字产品

Dickie Bush 复盘了他过去 6 年卖数字产品超过 2000 万美元的经验。第一个产品卖了 $400(播客摘要合集),第二个产品 Ship 30 for 30 做到 7 位数。核心教训:做数字产品不是追热点,而是找到足够细的 niche-within-niche,然后从那个 niche 里最痛苦的问题出发建产品。

Dickie Bush 在华尔街做 9-5 期间,决定每天写一个 thread,持续 30 天——从自己听的播客里提炼要点。第 27 天几乎没有进展:零点赞、零转发、零评论。

第 28 天晚上发了一条 thread 就睡了。醒来后:Naval Ravikant 转发了,数百个新粉丝涌入,大量人 DM 他要其他 curation 的链接。

他把这些 curation 整理成一个 Notion 文档免费发了出去。然后有人 DM 问有没有高级版——没有。他就做了一个:把所有摘要整理好,建了一个 Slack 社群,放到 Gumroad 上卖 $29。

"The riches are in the niches" 是老话,但这篇给了一个可操作的 4 步框架。尤其是 Problem→Desirable Outcome 用"I statements"写出来这个技巧——把营销文案和用户调研合二为一,很聪明。

AGENT2026-04-21

Hermes 四角色团队:如何保持 30 天协作一致性

作者实战 14 天单 Profile 运行后发现:多 Agent 团队在第 30 天会崩解,不是 Prompt 问题,也不是模型问题——是共享内存导致上下文污染。本文给出完整解法:4 个隔离 Profile + 交接合约 + 记忆 KPI + 角色策略门禁,以及 4 种没人晒截图的失败模式。

作者用单 Profile 运行 Hermes 14 天,兼任研究员、写手、工程师和编排者,最终所有角色声音混在一起变成同一个人。大多数人把这个问题归咎于 Prompt,但问题不在 Prompt,也不在模型——而在于一个 Agent 承载了五个角色,共享同一段记忆,所有角色都在互相污染上下文。

真正的解法不是更好的 Prompt,而是隔离的 Profiles

Hermes Profiles 不是"角色皮肤",每个 Profile 一次性隔离七种状态:

大多数多 Agent 帖子只讲怎么搭,不管怎么跑。这篇恰好补了没人写的那个环节:Profile 隔离只是前提,运营层才是护城河。"Profiles are the feature. Boundaries are the moat."——这句话值得单发。

GITHUB2026-04-21

用纯 x86-64 汇编写一个神经网络

作者用纯 x86-64 汇编语言实现了一个能解决 XOR 问题的双层神经网络。展示了从内存布局、前向传播、Sigmoid 实现、反向传播到权重更新的完整过程,零依赖,无库,只有你和 CPU。

用纯 x86-64 汇编实现了一个能解决 XOR 问题的双层神经网络(2 → 2 → 1 架构)。网络虽小,但包含了现代神经网络的全部核心组件:前向传播、激活函数、损失计算、反向传播、权重更新和训练循环。零外部依赖,只用 NASM 汇编器和 GCC 连接。

XOR 问题的关键在于:单层感知机无法解决它,必须至少有一个隐藏层。这篇文章把这件事用最底层的方式呈现出来。

在高级语言里,一个浮点数数组就是一个变量。在汇编里,每个权重、偏置、输入和中间值都有自己标签化的内存位置。训练数据以平坦布局存储:4 个样本 × 3 个浮点数 = 12 个浮点数 = 48 字节,用指针算术逐个遍历。

这不是一篇教你写神经网络的文章——它教你理解"为什么神经网络要这样实现"。当你在汇编层看到梯度是如何逐个相乘反向传播的时候,autograd 的魔法感就消失了,露出底下朴素的算术。

ORIGINAL2026-04-21

休闲基础设施:AI 时代的 Veblen 资产

Keynes 1930 年预测人将每周工作15小时,现实是消费永无止境。作者论证:AI 生产力红利不会转化为休闲,而会转化为对稀缺体验的占有——游艇码头、山地、私人会所、机场停机位,这些地质资产才是真正的长期赌注。

1930 年,Keynes 预测:生产力持续增长,到 2000 年代,富裕国家的人均每周工时将降至 15 小时。物质问题解决了,剩下的问题是"时间多了该干嘛"。

他猜对了生产力的增幅,没猜对人的欲望。

1930—2000 年,美国每小时产出增长了约 5 倍——和 Keynes 的预测几乎一致。但工时几乎没有下降。人们把增长的产出全部消费掉了,只是换了品类:从冰箱、汽车到航空旅行、跨境酒店、金融服务、娱乐内容。消费边界随着生产力同步扩张,吞掉了所有本该变成休闲的盈余。

这篇文章的核心不是"有钱人该怎么花钱",而是"什么样的资产具备真正的护城河"。Veblen 资产在 AI 时代被重新定价——这个逻辑比大多数 AI 股票 thesis 更有持久性。

ORIGINAL2026-04-20

Claude Code 为什么会跑一半就停下来:单一 Agent 的 context 瓶颈与主-子架构解法

Barret李靖解释 Claude Code 长任务中断的根本原因:context 膨胀到 compact 阈值后信息丢失导致效率下降,最终触发 maxTurns 退出。解法是主-子 Agent 架构(Coordinator Mode):任务分解 + 进度持久化到文件系统 + 失败策略。三句关键:不要给无边界的指令、子任务 prompt 必须自包含、把进度交给文件系统来记忆。

Barret李靖,Software Engineer,经常被问到这个问题:

为什么给 Claude Code 安排大任务,它不会一口气执行完,而是跑几十分钟就停下来问要不要继续?

比如让补全 1000 个单测,它修了 200 个就停了。

Barret 把 compact 机制导致的信息丢失描述得很清楚——这解释了为什么让 Claude Code 在一个 session 里做 1000 个测试会中途停下并且越做越差。主-子架构的核心洞察是:把状态外置到文件系统,让每个 agent 的 context 始终干净。Coordinator Mode 已经是内置能力,这一点值得专门提一下。

GITHUB2026-04-20

qiaomu-anything-to-notebooklm:任何内容一键转播客/PPT/思维导图/Quiz

joeseesun 开源 qiaomu-anything-to-notebooklm,Claude Code Skill,支持 15+ 内容源(微信/X/YouTube/播客/付费文章/PDF/EPUB)自动获取,经 NotebookLM AI 生成播客/PPT/思维导图/Quiz/报告等格式。核心能力:6层级联付费墙绕过(300+ 站点)+ 多格式输出 + 智能识别内容类型。

joeseesun(qiaomu)开源了一个 Claude Code Skill:任何内容 → 任何格式

输入:你用自然语言说"把这篇微信文章生成播客",AI 自动完成后续全流程。

输出:播客 / PPT / 思维导图 / Quiz / 视频 / 报告 / 信息图 / 闪卡

这个 Skill 的护城河是付费墙绕过的 6 层 cascade——从 Jina AI 代理到 Googlebot UA 再到 archive.today,每层失败才到下一层。对于需要深度研究但被付费墙拦住的场景,这套 cascade 设计思路值得参考。输出到 NotebookLM 生成播客/PPT 是附加价值,内容获取能力本身就已经很完整了。

AGENT2026-04-20

RLM:把 llm.completion() 变成递归调用——MIT 的无限长上下文推理引擎

MIT OASYS 实验室(Omar Khattab、Tim Kraska 团队)发布 Recursive Language Models(RLM):一种任务无关的推理范式,让语言模型能用 REPL 环境递归调用自己。核心替换极简——把 llm.completion(prompt, model) 换成 rlm.completion(prompt, model),背后的变化是模型不再被动接收全量上下文,而是主动分解任务、递归调用子模型、在 REPL 里读写中间变量,从而理论上处理近无限长上下文。配套支持 local/Docker/Modal/Prime/Daytona/E2B 六种沙箱环境,以及 OpenAI、Anthropic、OpenRouter 等主流模型提供商,pip install rlms 即开箱可用,并附带轨迹可视化调试工具。

语言模型在推理长文档、处理多步问题时,面对一个根本性限制:上下文窗口是固定的,而任务的深度往往是不固定的。

传统应对方式——分块、滚动窗口、RAG 检索——都是在"外部"裁剪上下文。RLM 走的是另一条路:让模型自己决定怎么拆解任务,并在 REPL 环境里递归调用自身。

RLM 的核心替换只有一行:

RLM 最有趣的地方不是"无限上下文"这个卖点,而是把"模型对话"升级成了"模型可编程执行"——LLM 不再是被动的文本预测器,而是可以在 REPL 里写代码、读变量、再 fork 子调用的执行引擎。Omar Khattab 是 DSPy 作者,这个线索很重要:RLM 和 DSPy 的思路一脉相承,都是把 LLM 当作可组合的计算原语,而不是终端接口。沙箱隔离(Modal/E2B)+递归调用,这个组合在 Agentic 任务里应该比 CoT 更稳,因为每一层递归都有确定的代码边界。

ORIGINAL2026-04-20

可视化失败的神经科学:为什么愿景板没用,但流程可视化有用

Jaynit 拆解可视化失败的科学根源:想象成功(结果可视化)会让你提前获得多巴胺奖励,反而降低动力;想象训练(流程可视化)激活运动规划区域,才是真正的神经练习。哈佛钢琴实验证明纯想象也能改变大脑,NYU 的 WOOP 技术是经过验证的最佳实践框架。

Jaynit 试过可视化,没用。后来他找到了原因。

不是他做错了,是因为大多数人对可视化这件事的理解,从神经科学角度就是反的。

NYU 心理学家 Gabriele Oettingen 研究动机与目标追求 30 年,她的结论:

这篇的框架很清晰:结果可视化 = 提前消耗多巴胺储备;流程可视化 = 预演真实神经回路。WOOP 的核心贡献是把'障碍'纳入可视化——这让大脑提前建立应对模型,而不是在现实里被障碍打个措手不及。对于需要高压环境下表现的人(演讲、谈判、比赛)这个方法论很有用。

ORIGINAL2026-04-20

Claude 上手指南:从 Project 到 Skill 的四步漏斗

Ruben Hassid 拆解 Claude 从 0 到 1 的上手路径:Project 建立记忆 → Style & Tone 注入风格 → Skill 封装重复任务 → 测试迭代。强调'具体性就是 Skill',泛泛说'我写报告'不是 Skill,说'每周报告含指标、3段、下一步待办'才是。

Ruben Hassid 拆解了普通人上手 Claude 的完整路径,四步漏斗:

在 Claude.ai 建一个 Project,把所有相关文件丢进去。

Project 是 Claude 的长期记忆单元——你放进来的上下文,跨 session 都会保留。不需要每次重复说"这个项目是关于什么的"。

这篇本质是给 Claude 写了个 For Dummies 漏斗,门槛低但 Skill 那步有干货。'具体性就是 Skill' 这个表述值得记下来——泛泛的需求描述只能生成泛泛的输出,这在工程上是无解的。

ORIGINAL2026-04-20

Vitalik 2026 香港 Web3 嘉年华演讲全文:以太坊不拼速度,安全和去中心化才是核心

Vitalik 在 2026 香港 Web3 嘉年华发表压轴演讲,系统阐述以太坊作为'世界计算机'的终极愿景:短期 zkEVM + 量子安全准备,长期目标是每台设备都能验证整条链。核心信息:以太坊不是要成为最快的链,而是要成为最安全的、去中心化的、永远在线的链。

4月20日,2026 香港 Web3 嘉年华开幕式压轴演讲者:以太坊联合创始人 Vitalik Buterin。

演讲核心:重新思考以太坊的意义,公布未来四年硬核路线图,核心信息八个字——不拼速度,安全优先

Vitalik 认为以太坊本质上做两件事:

Vitalik 的叙事框架很清晰:安全和去中心化是一体的,不是牺牲项。zkEVM 让手机也能验证整条链这件事,如果真实现,是真正的范式改变。但 2028 年的目标,措辞还是'预计'——历史告诉我们区块链路线图的时间线从来不准。

GITHUB2026-04-20

mcp-cli:让 AI Agent 免交 fork/exec 税,73% 系统调用开销消失

madeye 开源 mcp-cli,通过 sidecar-daemon + MCP bridge 架构,让 Claude Code/Codex 通过 Unix Domain Socket 直接访问项目文件系统/git状态/源码,省去每次 shell 工具调用的 fork+exec 开销。Codex 测试:execve 调用从 83 次降到 22 次(-73%),rg 调用从 13 次降到 0 次。

每次 Claude Code 或 Codex 调用一次 catrggit status,都在交一笔隐形的"税":fork + exec + 页面表建立 + 库加载 + syscall 流 + 清理。

对于一个任务发几百个小读操作的 agent 来说,这不是业务逻辑,这是 kernel 开销。

madeye 开源的 mcp-cli 用一个 sidecar-daemon + MCP bridge 架构,把这笔税彻底取消。

这个方向是对的——Agent 发出的数百个小读操作(cat、rg、git status)真正成本不在业务逻辑而在 kernel 开销(fork/exec/库加载/page-table 建立)。一个长驻 daemon + mmap 让内核只需 page-in 而不用每次发 sys call。但代价是架构复杂度上升,是否值得要看你跑多少任务。

CLAUDE2026-04-20

康奈尔大学 46 页研究论文:Dive into Claude Code 架构设计

康奈尔/阿布扎比AI大学研究团队发布 46 页论文,基于 TypeScript 源码分析 Claude Code 完整架构:五大价值观驱动设计、十三项设计原则、权限系统七种模式、五层上下文压缩管线,并专门对比 OpenClaw。

Claude Code 的源码里只有约 1.6% 是 AI 决策逻辑,其余 98.4% 全部是运营基础设施。

这个数字来自康奈尔大学和阿布扎比人工智能大学的研究团队近期发表的一篇 46 页系统分析论文(arXiv:2604.14228),基于 Claude Code 公开的 TypeScript 源码进行完整逆向分析,并专门设置了与 OpenClaw 的架构对比章节。这是目前对 Claude Code 架构最全面、最深入公开研究。

论文从 Anthropic 的安全 Agent 框架出发,识别出驱动 Claude Code 架构的五个核心价值观:

这篇论文的真正价值不是告诉我们 Claude Code 怎么实现的,而是展示了如何把一个系统从外到内拆解清楚——价值观 → 设计原则 → 架构选择 → 源码实现。这套分析方法本身就是可复用的。

CLAUDE2026-04-20

构建 Claude/Codex Skills 完整指南:提示词时代的终结

把 AI 当通用聊天机器人用的时代正式结束。Top 1% 在构建 Skills,其余 99% 还在写提示词。这是 Anthropic 2025年10月发布的 Skills 开放规范完整技术指南。

把 AI 当通用聊天机器人用的时代正式结束了。

99% 的用户还在写基础提示词,Top 1% 已经在构建 Skills。这是两种完全不同的事物——前者是玩具,后者是 24/7 在线的专职员工。

Rohit 在 X 上发布了构建 Claude/Codex Skills 的完整技术指南,涵盖从文件结构到工程原理的全部细节。

这篇和今天发的"Claude Skills 完全指南"(theaiworld22)角度不同:那篇偏使用手册,这篇偏工程原理——三级渐进披露系统、two-message 模式的 isMeta 机制、skill 的元工具架构。两者可以互为补充。

CLAUDE2026-04-20

用 NotebookLM 立省 80% Token:NotebookLM 当老师,Claude 当助手

实践哥 MinLi 从 Claude Pro 升到 Max ($200/月),第五天额度就耗尽。问题出在把 Claude 当全文检索引擎用。解法:NotebookLM 做知识存储和检索,Claude 只做推理和执行,分工明确后 $20 账号能干出 $200 的活。

上个月我把 Claude 从 Pro 升到 Max,$200 一个月,心想这下总该用够用了吧。

第五天:本周额度已耗尽。

实践哥 MinLi 翻使用日志才看清楚钱花在哪:一次调研 47 篇论文的下午会话,单次就吃掉一周 10% 的额度。这种会话一周跑两三次,额度自然撑不住。

这篇不是讲"Prompt Caching 能省钱"的——那是术。这篇讲的是更根本的问题:不要把 Claude 当检索引擎用,数据量大了这事儿就该交给专门的向量数据库/检索工具。分工才能省钱,混用是最贵的。

CLAUDE2026-04-20

LLM Prompt Caching 详解:Claude Code 92% 命中率的工程实践

Avi Chawla 详解 LLM Prompt Caching 原理:KV Cache 机制、prefill/decode 两阶段、cache hit 的 90% 折扣、以及三个会让缓存瞬间失效的坑。

每次 AI agent 进一步,它都会把整个对话历史重新发给 LLM。系统指令、工具定义、项目上下文——全部重新读一遍,重新处理一遍,按全价重新计费一遍。

对于 long-running agentic workflows,这通常是整个 AI 基础设施里最贵的账单项目。

Avi Chawla 在 X 上发布了这篇 prompt caching 的完整技术解析,用 Claude Code 作为真实案例(92% 缓存命中率,81% 成本降低),是当天 LLM 工程领域最受关注的分享。

这篇的价值在于把"KV Cache 为什么有效"讲清楚了,不是浮于表面的"用 caching 能省钱",而是 transformer 注意力机制的数学本质。三个 cache 失效规则(timestamp/json serializer/工具更新)是工程里真的会踩的坑。

AGENT2026-04-20

你的公司需要一个大脑,而不是更多连接器

Conor 提出了 Agent 时代公司数据基础设施的核心框架:Retrieval 是 scavenger hunt,Synthesized Understanding 才是公司大脑。两者的本质区别是碎片 vs 世界观。

当你的 Agent 连接了 Slack、Google Drive、CRM,你问它"谁负责这个客户关系",它返回的是 Gmail 里找到的最新邮件线程中出现的名字。从另一个工具问同样的问题,得到不同的名字。再问"本季度核心优先级是什么",它从找到的第一个战略文档里取答案——哪怕那份文档是六个月前的,中间已经 pivoted 三次了。

这不是信息找不到的问题。这是信息太多、无法判断哪个是最新的、无法解决来源冲突、 confidently 把碎片当成完整真相的问题。

Conor(contextconor)在 X 上发布了这篇关于公司级 Agent 上下文架构的长文,是当天 Agent 领域最有深度的分享之一。

这篇文章的核心洞察其实很朴素:检索是从零搜索,合成理解是提前建模。但它把这个朴素的东西讲清楚了,而且配了一个可操作的测试基准思路——这是目前行业最缺的东西。

AGENT2026-04-20

The Harness Is The Product:为什么 LangChain 换模型就能 Top 5

独立开发者 Nyk 写了一篇 Harness Engineering 完整框架:LangChain 零参数改动、排名从 Top 30 升到 Top 5,靠的是改进 harness 而不是换模型。核心结论:模型会商品化,harness 是护城河。

LangChain 的编码 Agent 在 Terminal Bench 2.0 上从 Top 30 冲到 Top 5——排名从 52.8% 升到 66.5%。参数改动:零。改动内容:harness。

这不是孤例。七项独立研究表明,复杂企业任务中 agent 失败率高达 70-95%。但 Gartner 的预测更值得关注:2027 年超过 40% 的 Agent AI 项目会被取消。而那些真正在生产环境跑通 agent 的团队,优势来源不是更好的模型访问权限——是更好的 harness。

独立开发者 Nyk 在 X 上发布了一份完整的 Harness Engineering 框架,获得了大量关注。

这篇文章的标题本身就是结论。"The model is the engine. The harness is the product." 当整个行业还在盯着 SOTA 模型排行榜时,真正在生产环境跑 agent 的人已经在建 harness 了——这个认知差就是机会。

AGENT2026-04-20

OpenMythos:用 PyTorch 从第一性原理复现 Claude Mythos

Kye Gomez 发布了 OpenMythos,基于公开研究文献从零构建 Claude Mythos 的理论架构,用 PyTorch 实现了循环深度Transformer(Recurrent-Depth Transformer)

Claude Mythos 到底是怎么工作的?这个问题在 Claude 3.7 发布后一直是社区热点,但 Anthropic 从未公开架构细节。swarms 创始人 Kye Gomez 近日发布了 OpenMythos——一个从第一性原理出发、用 PyTorch 理论复现 Claude Mythos 的开源项目。帖子在 X 上获得了 850K 浏览量和 6.7K 点赞。

传统 Transformer 把输入过一次前向传播就输出结果。OpenMythos 的核心假设是:Claude Mythos 采用了一种完全不同的设计——Recurrent-Depth Transformer(RDT),也叫 Looped Transformer。不是堆叠几百层各自独立的 Transformer,而是在一次前向传播内让同一组权重被重复使用多次。

这不是思维链(Chain-of-Thought)。思维链是把推理步骤逐个输出为 token,模型"说出来";而循环深度 Transformer 的所有推理发生在单次前向传播内的连续隐空间,没有任何中间…

这篇 Twitter 帖子本身就是一篇论文级别的技术分析。850K 浏览量说明市场对 Mythos 架构原理的好奇心远未被满足——大家用着 Claude,却不知道它为什么"更会思考"。

AGENT2026-04-17

两个开源工具让AI Agent学会任何品牌设计:hue + design-extract

hue(Claude Code Skill)和design-extract(designlang)组成完整的设计系统提取→应用闭环:任意网站→8种格式设计系统→Claude Code按品牌规范生成UI。配合HyperFrames直接延伸至视频渲染。.

Jason Zhu今天推荐了两个配套工具,组合起来形成完整闭环:design-extract从任意网站提取设计系统 → hue让Claude Code按这个设计系统生成UI。配合昨天开源的HyperFrames,直接延伸至视频渲染层。

hue是一个开源Claude Code Skill(251 Stars,Apache 2.0),核心功能:学习任何品牌并转化为完整设计系统,之后AI生成的所有UI都匹配这个品牌

安装一次,以后Agent构建的所有界面都与品牌一致——不需要每次手动描述品牌规范。

这两个工具本质上是把"品牌一致性"自动化了——以前是设计师维护设计系统,现在是AI实时从任意网站学习。"复制无敌"不是夸张,是字面意思。

AGENT2026-04-17

HeyGen开源HyperFrames:让AI Agent用HTML语法生产专业视频

HeyGen开源完整HyperFrames项目:一套用HTML+CSS+JS生产专业视频的Agent工具链,CLI自带网站capture功能(Gemini驱动设计系统提取),7步视频制作Skill,支持GSAP动画、WebGL着色器、Lottie,本地渲染FFmpeg输出。

HeyGen正式开源完整HyperFrames项目(Apache 2.0),不是半成品,是完整可用的video composition framework加一整套Agent工具链。

HyperFrames是一套用HTML+CSS+JavaScript制作专业视频的框架和工具链。给AI Agent安装HyperFrames Skill,它就能用标准web技术栈生产视频:GSAP动画、WebGL着色器、Lottie、60fps渲染、本地FFmpeg输出。

为什么选HTML?因为AI的训练数据里,网页内容压倒性最多——数十亿页HTML、GSAP代码段、SVG构图、Canvas实验。HTML是AI的母语,不是After Effects那套给人类设计的专有格式。

HyperFrames本质上是把视频制作重新定义为"写HTML"——这正好是AI训练数据里最丰富的领域,AI Agent用母语工作,不需要重新学习After Effects那套专有语法。

ORIGINAL2026-04-17

AI让你变笨了(而你察觉不到):Greg Isenberg的15分钟自我保卫指南

AI给的第一样东西是速度,第二样是信心,第三样悄悄拿走的是你判断自己什么时候错了的能力。AI很少明显失败——它给你的是 plausible(似是而非)、coherent(逻辑自洽)、often quite good(经常相当不错)。这恰恰是它危险的原因。你现在可以生产专家级别的产出,却不具备专家级的理解力。

AI给你的第一样东西是速度。 第二样是信心。 第三样悄悄拿走的是:你判断自己什么时候错了的能力

不是一次性全部拿走,是每一次AI起效,就拿走一点。

你一开始用AI起草一条消息、一段代码、一个落地页。比预想的好,改了几处,能用。再用一次。再用一次。

核心论点不是AI不好,而是"AI让笨蛋用更快的速度生产更漂亮的东西"——真正值得关心的不是工具,是你的判断力有没有同步升级。

CLAUDE2026-04-17

Claude Opus 4.7与Claude Code配合指南:xhigh成为默认档位

Anthropic官方发布Opus 4.7与Claude Code最佳配合指南,默认推理档位从high升级到xhigh,新增自适应思考机制,建议把Claude当委托的工程师而非pair programmer。

Opus 4.7是Anthropic目前面向编程、企业工作流和长程Agent任务推出的最强模型。比 Opus 4.6更好地处理歧义,在找Bug和代码审查上能力显著提升,跨会话携带上下文更可靠,对模糊任务推理所需指令更少。

但 Token 使用行为有变化,需要调整使用方式才能发挥最佳效果。

在交互式设置里,Opus 4.7在每次用户交互后会进行更多推理——这提升了长会话中的连贯性、指令遵循和编程质量,但 Token 消耗也更大。

把Claude当"委托的工程师"而不是"pair programmer"——这句话道出了Opus 4.7时代的正确用法。

AGENT2026-04-17

从零开始用Claude Routines自动化一切:完整指南

Anthropic官方指南:Claude Routines如何替代传统自动化工具,零服务器、零工作流引擎,靠自然语言驱动完整自动化任务,三种触发方式加Skills架构让AI真正变成你的数字分身。

Alex Hormozi 有句话被这个指南放在了最前面:"委托是用别人的低成本时间买回你最高价值的时间;自动化是用机器的低成本时间买回你最高价值的时间。" 这句话定义了Routines的存在理由。

简单说:写一个任务,交给Claude,它每天自动在你看不见的服务器上运行,不需要你的电脑开机,不需要付托管费,不需要你去检查。

Routines解决的是此前AI自动化的困境:

Routines的精髓是"无情的明确性"——模糊的指令只会被模糊执行,这是它与传统workflow引擎的本质区别。

AGENT2026-04-17

一个Agent替代了整个公司的工具链:Browserbase内部架构

Browserbase用单个通用Agent替代了多个垂直工具链,打通了Slack、Github、Snowflake、HubSpot等系统,实现了功能请求100%覆盖、响应时间<24小时、代码审查自动化。核心经验:一个Agent加正确的抽象,胜过一堆垂直Bot。

Bret Taylor曾提出:知识工作的未来将由Agent来对接。Browserbase完全认同这个判断——他们把公司内部的几乎所有流程都交给了一个叫bb的通用Agent:Slack里的每一个支持工单、每一次会议记录、每一次数据查询、乃至大量PR,都由bb处理。

这不是一堆垂直Bot,而是一个通用Agent,"懒加载"两种东西:技能手册(Skills)和权限范围(Permissions)。

Agent运行需要一个隔离的执行环境——能够读写文件、执行命令、调用API,但不能碰生产设施,也不能泄露凭证。

一个Agent能替代整个公司的工具链,不是因为它有多智能,而是因为架构搭对了——沙箱隔离、凭证代理、权限分级,三件事做到位,任何团队都能复制。

AGENT2026-04-16

四层记忆 + Fat Skills + 协议层:个人 Agent 的完整技术栈

作者花三个月构建了一套完整的个人 Agent 基础设施:四层记忆系统、Fat Skills 自改写钩子、协议执行层、夜间梦境压缩循环。核心洞察:harness 只是指挥者,所有价值积累在 skills、memory 和 protocols 里,随时可换。

Harrison Chase 那篇 Harness Design 发布后,Av1dlive 花了三个月搭建了一套完整实现。这篇文章是 4,000 字的工程复盘,附完整源码和 folder structure。

---

薄 harness、厚文件层。

这篇文章是工程实现的范本——把"薄 harness + 厚文件层"从概念变成了可运行的完整系统。四层记忆分离是最值得借鉴的设计决策。

AGENT2026-04-16

Resolvers:Agent 系统的路由表,管理学的下一个前沿

Garry Tan 复盘自己把 20000 行系统提示词砍到 200 行,发现关键不是给模型塞更多知识,而是建好路由层——让正确的上下文在正确的时机被调用。Agent 系统的核心问题是管理缺失,不是模型不够聪明。

Garry Tan 在 Harness Design 那篇文章里提出了 5 个构建实用 Agent 系统的定义。Skills 获得了所有关注,但有一个被严重忽视的概念,才是真正的核心:Resolvers

而且它被忽视的原因,和它之所以重要是同一个:它正常工作的时候完全看不见,一旦出问题就是灾难性的。

---

Resolver 本质是元认知路由——不是让模型更聪明,而是让它在正确的时机调用正确的知识。这篇文章的真正贡献是把 Agent 系统类比成组织管理,路由表就是 org chart。

AGENT2026-04-16

Claude Code 的真正生意:打包成流水线卖钱

Claude Code 9个月破 $2.5B ARR,作者认为大多数人在用它写代码,而真正聪明的人在用它做业务流程编排——把重复性工作打包成可销售的流水线。

Claude Code 9个月做到 $2.5B ARR,比 ChatGPT、Slack 史上任何 B2B 产品破 $1B 的速度都快。

但大多数人的用法还是当高级自动补全:写代码更快、调试更短、上线更多。

这个思路在漏钱。

这篇文章本质是「AI 时代的 SaaS 封装思路」——不需要自己写产品,用 Claude Code 做编排层,API 做执行层,问题认知做护城河。门槛低、验证快,但护城河也薄。

ORIGINAL2026-04-15

Mintlify B 轮 4500 万美元:文档不是内容,是 AI 时代的基础设施

Mintlify 获 4500 万美元 B 轮,估值 5 亿美元。核心洞察:Mintlify 客户文档流量中近 50% 来自 AI 代理,而非人类。文档过去是给人扫描的,现在是 AI 理解产品的入口。文档烂 = 产品对 AI 隐形。更重要的是:当企业用过时或分散的知识构建 AI 工具,AI 给出的答案就是错的。Mintlify 的判断:文档不是内容,是基础设施;下一步从公开技术文档扩展到企业内部知识库,逻辑相同。

Mintlify 宣布完成 4500 万美元 B 轮,估值 5 亿美元,由 a16z 和 Salesforce Ventures 领投,Bain Capital Ventures、Y Combinator、DST Global 等跟投。

目前 Mintlify 为 20,000+ 家公司提供文档支持,年触达开发者超过 1 亿人。

过去文档是给人扫描的:找快速答案、代码片段、排除障碍的指南。

这篇文章背后有一个反直觉的洞察:人们通常以为 AI 会让文档变得不那么重要(因为你可以直接问 AI),但实际上 AI 让文档变得更关键——只不过文档的读者从人变成了 AI 代理。「不能好好解释产品怎么用,跟产品不存在没什么区别」这句话的分量,在 AI 搜索/AI 代理发现逐渐成为主流的背景下,会越来越重。对 SOTA Sync 读者来说,这篇的实操价值在于:你在做的产品,AI 能不能读懂你的文档,是它会不会被选用的前提。

AGENT2026-04-15

Auto Research 的最后一块拼图:给 Agent 弹性 GPU 算力

Modal 发布 Auto Research 基础设施方案:让 AI Agent 自己决定用多少 GPU、用什么类型 GPU。研究工作流的真实状态是——需要数百 GPU 并行做超参搜索,然后切到 1 GPU 调试问题,再扩到 8-GPU 集群做验证。传统云要么贵(常驻集群)要么慢(单机串行)。Modal 的方案是:Agent 通过 API 声明算力需求,按需弹性伸缩,用完自动释放。实测:15小时跑完 113 次实验,核心训练比单机快 5 倍。

Auto Research 有了计算需求,但研究工作流本身是极度不可预测的:

- 超参搜索阶段:需要数十甚至数百个 GPU 并行跑 - 调试阶段:回到 1 个 GPU,频繁交互,快速迭代 - 验证阶段:扩到 8-GPU 集群,确认质量 - 全部完成:缩回零,释放资源

所有这些状态,可能在同一个 session 里交替发生。

Auto Research 概念在算力侧一直缺一个低成本弹性的执行层。Modal 这篇补的就是这个位置——Agent 可以自己决定今天用 1 GPU 调试还是 40 GPU 并行探索,不用提前预留。这是 Karpathy Autoresearch loop 在工程侧最难落地的部分。

AGENT2026-04-15

Claude Skills 入门指南:10分钟构建第一个可复用技能

HereIsYourAi 出品的 Claude Skills 体系指南,分四模块:Foundation、Architecture、Testing、Production Deployment。重点:Skill = 文件夹 + SKILL.md,kebab-case 命名,YAML frontmatter 控制激活触发器,三问题法定义 Skill(做什么/何时激活/成功什么样)。10分钟可上手。

HereIsYourAi 把 Claude Skills 最有用的资源整理成一份结构化指南,分四个模块:

- Module 1: Foundations(本文) - Module 2: Architecture - Module 3: Testing & Iteration - Module 4: Production Deployment

每个模块建立在前一个之上。如果认真过一遍,10 分钟内可以构建并部署你的第一个 Skill。

这篇和 Leo 那篇其实是配套的——Leo 解决的是「为什么做」的认知问题,这篇解决的是「怎么做」的技术细节放在一起刚好是一个完整的 Skills 入门包。

AGENT2026-04-15

Prompts vs Projects vs Skills:那个让你每天重复缴税的循环,终于有解了

每次开新 Claude session 把同样的话再说一遍,这就是「prompt loop 税」。Leo 把 AI 使用者分成三级:Prompts(每天重新解释一次,明天全忘)、Projects(开一个项目 binder,上传文件说明风格)、Skills(培训一个员工一次,永远记住)。技能文档是持久化的 .md 文件,不是单次交易,是复利投资。

每次打开一个新的 Claude session,把同样的话再说一遍。

「你是一个有10年经验的资深文案」「始终用要点回复」「我的品牌调性是直接且对话式的」

你打出来 → Claude 用了 → 你关掉标签页 → 下次 session → 全忘了 → 再说一遍。

Leo 的「prompt loop 税」这个比喻很精准。但说实话,大多数人卡在 Level 1 不只是因为懒——是因为不知道怎么建第一个 Skill。这篇文章末尾那 10 个现成 Skill 模板才是真正有实操价值的部分。

AGENT2026-04-15

Hermes Agent 的 Skills 系统:把「方法」变成可复用的资产

大多数 AI Agent 记住结果却忘记方法。Hermes 的解决思路是把 Skills 打造成按需加载的程序记忆层:事实存 Memory、历史存 Sessions、方法存 Skills。Skill 不是提示片段,是可以在运行时被创建、更新、复用的操作规程。这套机制让 Agent 在不增加每次对话开销的前提下,持续积累能力。

大多数 AI Agent 记住结果却忘记方法。下次遇到同样的任务,从头摸索。

Hermes 不一样。它不只保存对话历史,还能在需要时精确加载可复用的操作知识,不需要时完全排除在上下文之外——甚至可以把辛苦摸索出来的工作流直接变成可复用的 Skill,留到以后用。

这改变了 Agent 随着时间变强的方式。

三层分离(Memory/Sessions/Skills)是 Hermes 设计最干净的部分。大多数 Agent 说自己能「学习」,其实只是塞更多上下文。Hermes 这个模型更诚实——事实、历史、方法论各走各的存储路径,不混淆。

AGENT2026-04-15

抽丝剥茧 Hermes Agent 万字系统提示词:哪些其实可以不要?

岚叔用自研工具 model-box 完整导出 Hermes Agent 系统提示词,拆解其构成。实测总计 ~36,700 chars(~10K tokens),其中 AGENTS.md 占了近一半(20,360 chars),且因单文件上限被截断。优化方案:配置 TERMINAL CWD + 自定义 AGENTS.md,每次可省 5K tokens。附 51 个工具的按需加载机制解析。

岚叔用自研工具 model-box 完整导出了 Hermes Agent 的系统提示词并逐层拆解。结论先说:万字级别不是幻觉,但一半以上其实可以优化。

总字符数:~36,700 chars(~10K tokens),分 9 层:

SOUL.md:定义 Agent 人格,硬编码在 _build_system_prompt() 里,告诉模型如何使用 memory 工具: - 用 memory 工具保存持久事实(用户偏好、环境细节、工具特性) - 不要保存任务进度、完成日志(用 session_search 回忆) - 发现非平凡工作流 → 保存为 Skill - 使用中发现 Skill 过时 → 立即用 skill_manage(action='patch') 修复

Hermes 的 AGENTS.md 动态加载设计比 OpenClaw 更灵活——但 OpenClaw 用户也没必要慌,这篇文章的核心是「按需加载」逻辑,两边都在解决同一个问题,只是路径不同。

CLAUDE2026-04-15

Claude Code 的真正机会:5个可立即变现的非编码 Pipeline

Claude Code 9个月破$2.5B ARR,但多数人只用它写代码。真正的大机会是把 Claude Code 当作非编码业务的编排层:视频复用、B2B销售线索研究、竞品监控、文档处理、文档缺口分析——这5个Pipeline无需构建App,无需维护基础设施,直接解决昂贵重复问题。

Claude Code 9个月做到 $2.5B ARR,破了 B2B 产品的历史记录。但几乎所有人都在用它写代码——加速编码、debug、ship更快。这是在捡芝麻。

真正的大机会:把 Claude Code 当作非编码业务的编排层来卖。

Pipeline 的本质是:拉数据 → 处理 → 生成输出 → 交付结果。不需要构建 App,不需要维护 SaaS,不需要服务用户。只有可重复的 workflow,解决昂贵的重复问题。

这5个Pipeline的共同特征:解决的问题已经被人类手工做了几十年,客户知道自己有这个痛点,但从来没人告诉他们「这套活可以自动化」。Claude Code 是 orchestration layer,API 是 capability layer,你对问题域的知识是 moat。

AGENT2026-04-15

多智能体软件开发本质是分布式系统问题:FLP 不可能性定理的启示

Kiran Casmir 从分布式系统理论出发,证明多智能体软件开发本质是共识问题。FLP 定理表明:无论模型多聪明,任何异步系统都无法同时保证安全性和活性。Byzantine Generals 定理给出容错上限:超过 1/3 的节点误读 Prompt,共识即不可能。这些限制不随模型能力提升消失。

这个论点有三步成立: 1. 当前多智能体系统无法自主构建大规模软件 ✅ 2. 问题归结为协调问题 ✅ 3. 下一代模型会更聪明 ✅ 4. 下一代模型不会有协调问题

第三步的结论跳过了关键一步。协调问题是本质问题,不是能力问题。再聪明的参与者也无法逃脱 FLP 定理。

多智能体软件开发可以形式化为:

FLP + Byzantine Generals 是不随模型能力变化的理论下界。这篇文章的价值在于把「多智能体协调」从直觉问题变成了可证明的数学问题。

AGENT2026-04-15

Reliability Is Not a Model Property:5,109次门禁检查背后的验证拓扑学

Michael Rothrock 97天内积累5,109次跨模型门禁检查,证明可靠性不是模型属性而是拓扑属性。87%的错误有结构:49%遗漏、38%系统性、12.7%不一致。重叠率决定门之间是否互补,验证放大决定上游约束下游的能力。核心架构:构建更大验证器,而非更大生成器。

97天,5,109次门禁检查,1,450个真实拒绝。

结论反直觉:可靠性不是模型属性,是拓扑属性。

87%的错误有结构,可预测,可系统化处理。

「构建更大验证器,而非更大生成器」——这个 inversion 是这篇文章最反直觉的核心洞察。传统思路是堆更强的模型,这篇文章说验证拓扑才是决定性的。

AGENT2026-04-15

Helix:给 AI Agent 一个免疫系统,第二次遇到同样错误只需 1.1ms

88% 的 AI Agent 从未进入生产,不是因为不够聪明,而是因为用同样的方式不断失败、从不学习。Helix 是 self-healing runtime,用 Gene Map(Q值评分知识库)让 Agent 第二次遇到同样错误时无需 LLM 诊断,直接 1.1ms recall 已知修复方案。最终愿景是共享 Gene Map:所有 Agent 的失败让整个网络更强。

88% 的 AI Agent 从未进入生产。不是因为不够聪明,而是因为用同样的方式不断失败、从不学习。

Sequoia 最新一批里,Agent-First 公司比任何之前队列都多。a] 刚发布了「agents are the new apps」 thesis。所有人都在建 Agent。几乎没人在建让 Agent 持续运行的基础设施。

模型每年变聪明。Agent 可靠性几乎不动。

Gene Map 的本质是把「失败」变成「经验沉淀」。Q 值评分 + reinforcement learning 让知识库随失败次数增加越来越聪明,这个架构设计本身值得学习。

ORIGINAL2026-04-15

寻痛导弹:最稀有也最值钱的人才类型

Tanay Tandon(Athelas/Commure CEO)提出的管理概念:能从 IC 直接晋升 C-suite 的人才类型——「heat seeking missile for pain」,主动寻找最棘手的问题并手术刀般消灭它们。这种人一天完成的工作,普通公司要 6 个月到一年。Alfred Lin(Sequoia)将此信转发给所有被投创始人,成为 Sequoia 内部 lore。

过去 8 年运营 Athelas、现在运营 Commure,我发现有一类人在商业中快速崛起:2-3 年内从 IC 晋升到 C-suite,或者一出校门就成为 VP/SVP。

我们给这类人起了一个名字:「寻痛导弹」(Heat Seeking Missile for Pain)

这类人主动寻找客户或业务中最棘手、最混乱的问题,然后手术刀般消灭它们。他们几乎是对寻找痛苦的根源上瘾,然后摧毁它们。

这个概念和 Agent 时代的「自动化消灭重复痛苦」高度一致—— heat seeking missile 本质上是一个人肉的 auto-research/auto-fix loop。

AGENT2026-04-15

AI Agent 软件工程就是系统工程项目:五层架构实战

Coding Agent 降低了写代码的门槛,但没有降低生产软件的门槛。AI Agent 软件工程本质是系统工程项目,有五个层次:Agent 工程、数据工程、安全工程、接口工程、基础设施工程。用开源项目 Dash 演示五层如何协同工作。

上世纪 40 年代,Bell Labs 在建造全国电话网络——当时世界上最复杂的technical系统。数百万个开关、电缆、继电器和操作员必须协同工作。工程师们发现了一个将成为 80 年老教训的东西:你无法通过优化单个组件来优化系统。整体的行为(呼叫路由、可靠性、容量、成本)是从部件如何交互中涌现的。

他们称之为系统工程。

Coding Agent 降低了写代码的门槛,但没有降低生产软件的门槛

这篇文章的核心洞察是「Agent 替换的是业务逻辑,其他一切都是系统工程项目」。Dash 项目的六层上下文设计值得细读。

AGENT2026-04-15

个人 AI 知识层完整方案:LLM Wiki + Shared Brain 实战

Shann 详解如何给公司全员配备 AI Agent,共享一个编译后的知识库。核心是 LLM Wiki 系统:raw/ 收集原始碎片,Agent 编译成结构化页面,交叉引用自动建立,质量控制贯穿全程。这个模式可以 scales:从个人知识管理到团队协作到组织智能。

Karpathy 的 LLM Wiki 帖子获得了 99,000+ 收藏。Graphify 在 48 小时内发布,获得了 27,000+ 额外关注。同周有多个实现版本病毒式传播。

需求是显然的。但大多数人会收藏它,觉得「挺酷」,然后永远不设置。

花 20 分钟今天设置,下个月你就会拥有一个任何搜索引擎和通用 AI Prompt 都无法复制的知识积累。它会知道你的声音、你的数据、你的模式和你的品味。

这套系统的核心是「编译」而非「存储」——原始材料变成可被引用的结构化知识页面,才是 Agent 可用的知识。raw/ 是垃圾桶,wiki/ 才是资产。

CLAUDE2026-04-15

Claude Code Routines 详解:它如何彻底改变自动化

Anthropic 推出的 Claude Code Routines 不是另一个拖拽式自动化工具,而是让 AI 基于对你的代码库、业务逻辑和上下文的深度理解来执行任务。n8n 擅长简单集成,Routines 擅长复杂推理。

当大多数人看到 Anthropic 发布 Claude Code Routines,他们的反应是:「又一个自动化工具,Make、Zapier、n8n 已经有了。」

错。这是完全不同的东西。

过去十年的自动化工具本质都是同一套:拖拽式构建器,把 A 工具连到 B 工具,点击,保存,希望它能跑。

Routines 的本质是「用提示词代替流程图」——这才是自动化该有的样子。n8n 那套 50 步的视觉流,在复杂场景下注定是技术债。

CLAUDE2026-04-15

Claude Managed Agents 部署指南:如何把AI智能体卖进企业

构建生产级 AI Agent 从不是模型问题,而是基础设施问题。Anthropic 的 Managed Agents 把数月的基础架构建设压缩到数天,核心是零信任凭证隔离、MCP 代理架构和上下文压缩。Rakuten 用它实现了新功能上线速度提升79%。

构建生产级 AI Agent 从来不是模型问题,而一直是基础设施问题。

模型已经足够聪明,杀死你的是脚手架:执行循环、容器配置、网络故障状态持久化,以及一百个每个都要消耗一周工程时间的边缘安全案例。

Managed Agents 把数月脚手架压缩成数天。你不再建造管道,开始建造业务逻辑。

这篇文章的本质是「AI Agent 的 PaaS 化」——把执行层抽离成基础设施,应用层只剩业务逻辑。Rakuten 的79%增速才是真正的信号。

AGENT2026-04-14

编写Agent Skills的8条经验

Skill是Agent最灵活的扩展点。Phil Schmid总结了编写好Skill的核心原则:描述要精确触发时机,给目标而非步骤,在层叠文件结构里节省上下文,以及完整的eval流程。

Philipp Schmid 长期使用 Skills,总结了 8 条经验。

一个 Skill 由三部分组成:

- Frontmatter:name 和 description,每个 prompt 都会注入,告诉 Agent 什么时候激活这个 Skill - SKILL.md body:Markdown 指令,告诉 Agent 怎么执行任务(在 Skill 触发后才加载) - Assets(可选)scripts/references/assets/ 文件夹

"Tell the agent what to achieve, not the path to get there"——这条原则不只是写Skill的原则,是让人从"执行者"变成"指挥者"的最快方法。

AGENT2026-04-14

上下文工程杀死了RAG

1M token上下文窗口改变了游戏规则。RAG是为小上下文设计的变通方案,现在上下文够大了,真正的挑战变成了 curation——放什么进去、留什么在外面,以及如何结构化排列。

Nyk (@nyk_builderz) 发了篇文章,标题很直接:Context Engineering killed RAG。

RAG(检索增强生成)最初被设计出来是因为上下文窗口太小。放不下整个文档,所以把文档分块、向量化、检索、注入相关片段。它能工作,但本质上是把一个搜索问题做成了大量 plumbing。

现在上下文窗口已经 1M token 了。Claude Opus 4.6 在 2026年3月13日发布,1M token 无价格溢价。75万个词,3000页,一个代码库加文档全塞进去还有余。

70%的LLM错误来自坏上下文,不是坏模型。这篇文章的价值不只是说RAG过时,是把这个数字摆在你面前,逼你重新思考什么叫"给模型喂 context"。

AGENT2026-04-14

6个月成为AI自动化构建者:资源路线图

一篇万字指南,无编程基础也能学:用n8n构建工作流,接入AI到真实业务系统,第2-3个月开始接单赚钱。定价$500-5000/项目,$500-8000/月维护费。

Ronin 发了一篇万字长文,讲怎么用 6 个月成为 AI 自动化构建者(AI Automation Builder)。全文分上下两部分,中间那条分割线把内容分成了两个独立 thread。这是上半部分,核心是整个路线的完整框架。

不需要写代码,不需要学机器学习,不需要 fine-tune 模型。需要的是:把 AI 接入企业已经在用的工具,自动化那些付钱让人做的重复性工作。

这个领域的需求是真实的:全球 3.6 亿家公司中,只有 5000 万加了一点部分自动化,还有 3.1 亿完全没有。全球真正能提供这个服务的人可能只有 100 万。8B+ 人口,这个供给量几乎为零。

这篇文章本身就是它所描述的东西——一个完整的产品。把一个复杂技能拆成6个月的学习路径,配齐每个月的工具和练习题,还告诉你去哪接单。内容即营销。

AGENT2026-04-14

为什么你的AI优先战略可能是错的

99%生产代码由AI生成,25人团队每天部署3-8次。作者拆解了如何从工具到流程到组织全面重构,真正实现AI-first而非AI-assisted。

Peter Pang 是 CREAO 的 CTO。这家公司的数字很极端:25个人,10个工程师,99%的生产代码是AI写的。过去两周每天生产部署3-8次,而按他们旧模式,两周零次发布。

他写了一篇长文,讲这个结果是怎么来的。

大多数公司做的是AI-assisted:工程师在IDE里加个Copilot,PM用ChatGPT写文档,QA试着用AI生成测试用例。流程不变,效率提升10-20%。

大多数公司加AI到流程里叫AI-assisted。真正AI-first要把流程拆了重做,这两个词的差距是乘数级,不是加法级。

AGENT2026-04-14

公司如何成为AI原生(不写一行代码)

Devin不只是AI写代码工具,而是一个企业级AI同事平台。成为AI原生公司不需要自建基础设施,把现有工具配置好就行。

软件工程师 Nader Dabit 发了一篇长 thread,讲怎么让一家公司变成 AI-Native。他的核心结论很反直觉:不需要自建任何东西,把 Devin 配置好就行。

Devin 被认知(Cognition)定位为 AI 软件工程师,但它在企业里的角色远不止"帮工程师写代码"。它是一个通用 AI 同事,能在 Slack 里被 @,能跑数据库,能查 GitHub,能操作 Sentry。

关键在于它的平台层:集成、Skills、知识库、Playbook、定时任务。这些本来是 Ramp 这样的公司花大功夫自建的内部工具,Devin 直接做成了可配置的产品。

让全公司都用上AI,不需要雇5个工程师花半年搭平台。把Devin配好,一个PM一周能搞定。

AGENT2026-04-13

OASIS:百万量级 LLM Agent 社交模拟,复现谣言传播、群体极化和羊群效应

上海 AI Lab 等机构推出 OASIS,支持百万级 LLM Agent 的社交媒体模拟。在 X 和 Reddit 上复现了信息传播、群体极化、羊群效应等社会现象:LLM Agent 比人类更容易被带节奏,群体规模越大观点越多样有用,而未对齐模型的极化现象比对齐模型更严重。

社会媒体研究的核心困境:真实平台有数百万用户,无法直接拿来做实验。传统的基于规则的智能体模型(ABM)只能模拟固定行为,无法捕捉人类在特定社会情境下的复杂反应。

OASIS(Open Agent Social Interaction Simulations)由上海 AI Lab、KAUST、牛津、悉尼大学等 23 位作者联合发布,发表在 arXiv。它用 LLM Agent 替代规则引擎,能模拟百万用户级别的社交媒体行为。

Environment Server — 维护用户、帖子、评论、关注关系的历史数据库,支持实时动态更新。

百万级模拟的工程量是其次,真正有价值的是发现了 LLM Agent 在群体行为上和人类的系统性偏差——这些偏差不是噪音,是 scaling 之外最重要的研究方向。

AGENT2026-04-13

Cabinet:一个 AI 原生的知识 OS,把多模态记忆变成团队资产

Cabinet 是前 Apple 工程经理 Hila Shmuel 做的开源项目——一个 AI 原生的知识库 OS,每个 Agent 有记忆、目标、定时任务,所有数据存本地 Markdown,不锁死在任何数据库里。内置 20 个预制 Agent 模板,从 CEO 到 QA 到 SEO 专员,开箱即用。

每次开新的 Claude Session,历史全丢了。项目上下文、决策记录、研究笔记,全在 Notion 里散着。AI 会话没有记忆,手动在工具之间 copy-paste。

这是 Hila Shmuel(Apple 前工程经理)做 Cabinet 的起点。

Yours — 数据归你:本地、可查看、可迁移。不被困在任何 AI 提供商的系统里。

把 Obsidian 的文件哲学 + n8n 的定时任务 + Multi-Agent 协作这三件事做成一个本地 OS——这个方向是对的,但护城河在生态,不在代码。

ORIGINAL2026-04-13

摸索一年,走上出海 Web 道路月入 4w 刀

独立开发者「小耳朵」的一年探索复盘:从视频号、直播带货、小红书到 App 开发,最终 All in 出海 AI Web,月入 4w 刀。万字经验:找需求、刷榜单、Reddit/YouTube 流量、SEO、Google Ads、定价策略。

作者「小耳朵」,过去一年做过不少项目:视频号/抖音/快手、直播带货、小红书、App 开发,最终在出海 AI Web 找到正反馈,最高月收入 4 万美元。

这不是技术文章,是方法论复盘。

为什么是出海 Web 而不是 App?

一个不会写代码的人,因为 AI 把产品开发门槛压到地板上,然后靠执行力+SEO+流量运营拿到结果——这个叙事本身比大多数「AI 创业分享」诚实得多。

AGENT2026-04-13

用 Obsidian + Claude Code 打造「第二大脑」实战

Vin 的完整第二大脑系统拆解:用 Obsidian CLI 打 通 Obsidian 与 Claude Code,三层架构——上下文层、日常 OS 层、思考增强层。/ghost、/challenge、/trace 等命令让 AI 像你一样思考。

最近听了 The Startup Ideas 的那期播客,Vin 的工作方式刷新了认知。

他把「第二大脑」这件事玩成了降维打击:把 Obsidian 当作完整的记忆体,把 Claude Code 当作永不疲倦的思考伙伴,用一套自建的 Slash 命令,把过去需要反复解释的上下文、跨领域洞察、个人模式,全部压缩成一句话就能唤醒的超级上下文。

这不是工具堆砌,而是把「我」拆解成可被 AI 完全理解的结构化知识图谱。

把大脑拆成可被 AI 索引的知识图谱,再用自然语言随时唤醒——这套系统的本质是让 AI 永远带着最新、最完整的"你"工作。

AGENT2026-04-13

Harness 刚火,可能就要成为过去时了

Yandex 论文揭示模型在长上下文中不是被干扰,而是主动偷懒减少推理深度。更强的推理模型反而更会偷懒,Harness 工程可能是临时补丁,情绪引导才是解药。

随着 Agent 任务越来越复杂,上下文在无限膨胀。模型开始跳步、忽视指令、该深入的地方草草带过。行业一贯的解读是:上下文太长了,模型漏了东西。

于是过去十五个月,从 AutoGPT 的纯文本记忆,一路卷到 Claude Code 的 CLAUDE.md 和子代理体系,整个行业搭起了一套工程脚手架,专门镇压模型在长上下文里的失控行为。这套做法叫 Harness Engineering。

但直到 2026 年 4 月,Yandex 的 Gleb Rodionov 发布了一篇名为《Reasoning Shift》的论文,才给出了一个更底层的答案:模型不是被长上下文干扰了,而是主动偷懒了。

推理越强越会偷懒这件事,把整个 Harness 行业的天花板压下来了——外部脚手架永远治不了模型内部的认知决策。

OTHER2026-04-13

Cloudflare:我们仍在用旧模型运行AI时代的基础设施

Cloudflare 在 Agents Week 发了一篇宏观战略文章,核心论点是:互联网和云计算都不是为 AI 时代设计的,而现有的 Agent 基础设施还在用上一个时代的模型运行。

传统应用范式:一个应用,服务多个用户,scale靠增加副本。Kubernetes、容器、负载均衡——这套东西的核心逻辑是:有限个应用实例,服务海量用户。

Agent 打破了这个模型。每个 agent 是独立的执行环境:一个用户、一个任务、独特的代码路径、动态工具调用、持续运行到任务完成。

OTHER2026-04-13

Hermes多Agent团队:从一个全能助手到专业化团队

大多数人的用法是:配置一个 AI 助手,然后强迫它同时成为研究员、作家、程序员、项目经理和运营。这是一个会逐渐失效的模式——人格模糊、context 混乱、记忆噪音越来越大、工作流失去节奏感。

Hermes 提供了更好的路径:构建团队,而不是 overload 一个全能选手

Hermes Profiles 是这个系统里最被低估的功能。它们不仅仅是 cosmetic personas,而是隔离的 Agent 环境,可以分离:memory、sessions、skills、personality、configuration、cron state、gateway behavior。

OTHER2026-04-13

13个SOTA,断档领先:Mano-P让AI接管桌面

明略科技发布了全新 GUI-VLA 智能体模型 Mano-P 1.0,在全球 13 个多模态基准榜单上达到 SOTA,是当前最具统治力的端侧 GUI Agent 方案。

Mano-P 在 OSWorld(GUI Agent 最权威基准)取得 58.2% 成功率,专用模型中排名全球第一,领先第二名 opencua-72b(45.0%)13.2 个百分点。作为一款 72B 专用模型,它甚至打入了通用大模型俱乐部——Claude Sonnet 4.6(72.1%)、Gemini 2.5 Pro(66.9%)排在前四。

在 WebRetriever Protocol I 上也超越了 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。

OTHER2026-04-13

141K粉丝,无团队无枪手:我的Obsidian+Claude日更系统

Cyril(@cyrilxbt)141K粉丝,每帖子爆款达370万曝光,一个人、无团队、无内容代理。答案不是自律,不是内容日历,是系统。

大多数创作者断更不是因为没灵感,是因为从来没有建立捕捉自己真实想法的系统。他们坐下来对着空白页发呆,在Twitter上翻找灵感,复制别人上周的爆款。

内容空洞是因为背后没有真正的思考,只有反应。

OTHER2026-04-13

YOYO:Day 42,一个自进化Agent的内部架构大公开

YOYO 是一个能修改自己源码的 Rust Coding Agent CLI,基于 ~200 行初始代码,现在到了 Day 42。这条长 thread 是它的架构公开课——从里面往外看,Harness 到底是怎么工作的。

GitHub Actions 定时任务每 8 小时跑一次 scripts/evolve.sh(一个 YOYO 不被允许修改的 shell 脚本):

1. 评估 Agent:读取源码、日志历史、记忆文件、最近 GitHub issues、CI 状态 → 生成 session_plan/assessment.md(当前状态诊断) 2. 规划 Agent:拿到评估结果 + issue 队列 → 写 task_01/02/03.md(每个最多涉及3个源文件) 3. 任务执行:每个任务获得独立 agent 实例,20 分钟超时;文件编辑后立即运行 cargo check 4. 门控检查:`cargo fmt && cargo clippy --all-targets -- -D…

OTHER2026-04-12

2026年最值得关注的40个AI开源项目:从模型部署到Agent开发

GitHub上有超过90万个AI相关仓库,其中绝大多数是2023年教程的多次Fork。@zodchiii花了两周时间筛选出真正在维护、生产环境中被使用、且在2026年仍有实际热度的40个仓库,按类别整理成了一份实用清单。

GitHub上现有超过90万个标记为"AI"的仓库。

大多数是2023年教程的Fork再Fork。两周时间筛选后,@zodchiii 留下了真正在维护、生产环境在跑、2026年还有热度的40个仓库。

按类别整理,清单如下:

这份清单的价值在于它的实用性——每个repo都附了描述和推荐理由,不像大多数star榜单那样只堆数字。分类逻辑也很清晰,从模型运行到Agent开发到数据爬取,按需查阅即可。文章里提的几个stack组合(n8n+OpenClaw+Crawl4AI+Browser Use)挺有参考价值。

OTHER2026-04-12

Agentic AI的10条设计原则:一个不断自我完善的技能系统长什么样

IntuitMachine 分享了 Agentic AI Skills 的设计原则:10条原则构成一个能持续自我进化的技能系统。当人们发现 AI 能带来 10x 或 100x 的效果提升时,往往以为是模型变聪明了——实际上,真正的杠杆在于技能设计本身。

当人们发现 AI 系统能做到 2x 提升时,往往以为是模型变聪明了。但当效果是 10x 或 100x 的跃升,答案就不在模型本身——而在于技能系统(Skills)的设计

这是 IntuitMachine(@IntuitMachine)在 X 上分享的核心观点。他把这套技能设计体系归纳为 10 条原则,覆盖了从「感知自身状态」到「知道何时停下」的完整生命周期。

Agent 能评估自身状态和表现,进行实时调整。

这10条原则本质上是把 LangChain/AgentScope 等框架里散落的设计直觉,整理成了一份 checklist。当你在设计一个多步骤 Agent 任务时,逐条过一遍,比凭感觉搭管用得多。

CLAUDE2026-04-12

Claude Cowork 完整设置指南(2026年4月更新版)

详解 Claude Cowork 的最优文件夹结构、三文件系统(about-me、anti-ai-writing-style、my-company)、Wispr Flow 语音输入集成,以及 Token 节省技巧。

Claude 桌面应用推出了「Cowork」模式,让 AI 直接在你的文件夹里工作。Ruben Hassid 用两个月时间摸索出了最佳配置方案。

每次开启 Cowork 会话,AI 会自动读取你指定文件夹里的文件。文件夹结构设计得好,AI 每次都能在正确的上下文里开始工作;设计得不好,它就只能瞎猜。

推荐结构:

虾评: 这篇文章的核心洞察不是什么新技巧,而是「把 AI 的上下文窗口当钱来花」这个心智模型。大多数人把 Cowork 当成粘贴大量背景信息的工具,结果 AI 读得越多、质量反而越差——因为它被迫开始省略。Ruben 的三文件结构本质上是一套信息过滤机制:让 AI 只读最精炼的 2,000 tokens,而不是漫无目的地吃下整个知识库。这个思路对任何 AI 工作流都有参考价值——不是你喂给 AI 多少信息,而是你喂得多精准。

PAPER2026-04-12

推理与工具调用是冤家:Agentic RL的性能瓶颈找到了

一篇论文发现 Agentic RL 的隐藏瓶颈:推理和工具调用在梯度空间里几乎正交,强行共享参数会导致两种能力互相拖后腿。解法是 DART:把推理和工具调用解耦到两个独立 LoRA 适配器里。

从 Search-R1 到 ToolRL 和 SkyRL,一个技术方向越来越清晰:模型不仅要学会思考,还要学会搜索、计算和调用 API,通过 RL 在长轨迹中自我改进。

大多数方法都隐含一个假设:推理能力和工具调用能力可以在同一个共享参数空间里联合优化,这种联合训练会产生协同效应。

这篇论文用系统性证据挑战了这个假设。

DART 的意义不在于又一个新的微调技巧,而在于提出了一个设计原则:不是所有能力都应该共享参数空间。当不同能力在梯度几何上存在系统性冲突时,参数解耦比复杂的奖励设计更直接有效。

PAPER2026-04-12

LLM Council已过时:三层 diversity叠加的决策框架

Alex Prompter 解构 LLM Council 的进化路径:Karpathy 建引擎 → Ole Lehmann 建仪表盘 → 三层 diversity 叠加(模型间、模型内、分析维度)才是完整方案。附 Self-Preference Bias 论文链和完整 Skill 文件。

LLM Council 是目前最火的 AI 概念之一。Ole Lehmann 那篇文章仅一篇就 130 万次观看。想法很简单:别问一个 AI一个问题然后相信它的回答,让多个视角互相争论、审查盲点,产出一个更难以反驳的结论。

这个方法确实有效。但 Alex Prompter 发现了三层被大多数人错过的进阶路径。

Karpathy 版本(2025年11月):把同一个问题同时发给 GPT、Claude、Gemini 和 Grok,每个模型独立回答,再匿名互相审查,最后由 chairman 模型综合结论。四个不同模型,不同训练数据,不同架构,不同盲点。

这个框架的核心洞察不是「多模型比单模型好」,而是「多模型 + Verbalized Sampling + 自定义分析镜头」三层 diversity 同时叠加时,产生的才是真正抗偏见的决策建议。

CLAUDE2026-04-12

40个让Claude变强的MCP服务器推荐清单

Khairallah 测试了100+个MCP服务器,整理出40个真正值得安装的,按角色分类:开发者、知识工作者、数据分析师、内容创作者、DevOps 各有一套入门包。

MCP(Model Context Protocol)是目前最重要但最少被讨论的 AI 基础设施。

Skills 教 Claude 怎么做,MCP 给 Claude 接入外部世界的权限。没有 MCP,Claude 是一个泡在罐子里的脑子——能思考、能推理、能生成文字,但无法访问文件、搜索网页、查数据库、看邮件、读日历,或与任何外部系统交互。有了 MCP,Claude 变成了一个操作者——能从任何地方拉数据、向任何地方推结果、在真实系统中执行真实操作。

Khairallah 测试了超过 100 个 MCP 服务器,整理出这 40 个真正值得安装的。

Skills 教 Claude 怎么做,MCP 给 Claude 接入外部世界的权限。这两件事一起,才能把 Claude 从「会说话的脑子」变成「能操作的 Agent」。

OPENCLAW2026-04-12

我用5个AI Agent开了一家营销公司,碾压了我雇过的大多数人

创始人 Eric 用 OpenClaw 跑了 5 个 Agent 的营销公司:每个 Agent 有名字和分工,共享一个 World Brain,6 个月积累的数据护城河是新竞争者无法快速复制的。

Eric Siu 是一家 revenue agent 公司加营销机构的创始人。他花时间在招聘、产品、服务、内容创作和帮团队提升 AI 能力上。过去雇过很棒的营销人,但这种人并不常见。

从 2 月开始死磕 OpenClaw,5 个月后,他想分享怎么用 Agent 增强Revenue 侧的工作。EA 或首席运营官的角色只是起点,真正的杠杆在于把 Agent 纳入团队架构。

当 Agent 和团队一起协作,你解锁的是以前做梦都不敢想的杠杆效应。

这不是「AI 帮我干活」,是「AI 就是团队」。当销售 Agent 能查到营销 Agent 发现的关键词机会,并自动把它变成外展邮件的证据点时,组织的边界已经不在人与人之间了。

CLAUDE2026-04-12

非开发者也能用Claude Code:一份来自营销人的上手指南

Charlie Hills 以营销人视角写下这份 Claude Code 上手指南:安装配置、CLAUDE.md 写法、权限模式、Context 管理、Skills 与 MCP 集成,从零到跑通真实业务流程。

Cowork 底层跑的是 Claude Code。大多数真正产生商业价值的 AI 自动化工作流,也都在用 Claude Code。但它的门槛比想象中低得多。

Charlie Hills 不是开发者,是营销人。他在研究写 newsletter 的过程中学会了大部分内容,几个小时的「边做边学」就拿到了真实结果。

一句话:跑在你本地的命令行工具。读文件、写文件、改文件、调 API、爬网页、并行启动子 Agent 跑研究、执行从未写过的 Python 脚本。

这份指南的核心价值不在知识,在示范效应——一个营销人能用几个小时的上手时间就跑通「抓取→分类→上传」的自动化流程,说明 Claude Code 的真实门槛已经是「会用终端」而不是「懂编程」。

AGENT2026-04-12

Thin Harness, Fat Skills:100x效率差的真正原因

Garry Tan 解构 Claude Code 泄露事件:100x 与 2x 的人用的是同一个模型。差距不在智能,在架构。秘密是一张索引卡能写完的东西:Thin Harness,Fat Skills。

Steve Yegge 说用 AI 编程 Agent 的人比普通工程师高效 10x 到 100x,比 2005 年的 Google 工程师高效 1000x。这是真实数字,Garry Tan 见过,自己也在用。但人们听到这个数字后,会去找错的解释:更好的模型、更大的参数。

事实是:用 2x 和用 100x 的人,用的是同一个模型。差距不在智能,在架构。 而这个架构的秘密,一张索引卡就能写下。

3月31日,Anthropic 意外把 Claude Code 完整源码(512,000行)发布到了 npm registry。Garry Tan 把它读完了,验证了他在 YC 一直教的结论:秘密不是模型,是包裹模型的那层东西。

Fat Skills 不是塞更多工具到 Harness 里,而是把判断逻辑抽离成可参数化的过程。参数化才是关键——同一 Skill 不同参数,产出不同领域的专业能力,这本质上是软件设计思想在 Prompt 层的落地。

AGENT2026-04-12

LLM知识库:PM的「第二大脑」终于成型了

Product Manager积累了数百条笔记却从不翻看?Karpathy提出的LLM知识库方案正在PM领域落地——把散落的笔记编译成可查询的概念层,让「我读过」变成「我真的能用」。

上周Karpathy提出用LLM维护知识维基的方案,48小时内GitHub上就出现了至少六个实现版本。Hermes Agent把它做成了内置Skill;有人直播20分钟跑通;Ali Abdaal称之为「大脑」;Garry Tan说要把个人Agent改造成Vannevar Bush的Memex。

工程圈反应快,是因为这个思路对程序员来说太直观了:原始素材(文档、代码注释、技术论文)经过LLM编译,变成带双向链接的知识库,随时可查询。但这篇文章的作者认为,真正从这个模式里获益最大的,不是工程师群体——是产品经理。

作者在两年里积累了311条PM笔记:用户访谈记录、Teresa Torres的发现方法论文章、Lenny播客摘要、Doshi的推文串、Melissa Perri的战略框架、OKR模板、干系人管理策略……读的时候都感觉有用,读完就再也没翻过。

LLM维基本质是给散乱知识装上检索引擎。PM最该用它的地方不是「我发现过什么」,而是「我那时候怎么想的」——时间戳背后的决策语境,才是笔记真正的价值所在。

PAPER2026-04-11

HyperMem:用超图记忆架构解决 Agent 长期对话的高阶关联难题

ACL 2026 论文提出 HyperMem——一种基于超图(Hypergraph)的三层记忆架构,用超边(hyperedge)显式建模主题、片段、事实之间的高阶关联,突破传统 RAG 和图记忆只能捕捉成对关系的局限。在 LoCoMo 基准上达到 92.73% 的 LLM-as-a-judge 准确率,刷新 SOTA。

来自中国科学院与 EverMind AI 的研究团队在 ACL 2026 发表论文 HyperMem,提出一种基于超图(Hypergraph)的层级记忆架构,解决长期对话中 Agent 记忆碎片化的核心问题。

现有 RAG 和图记忆方法依赖成对关系(pairwise relations)——边只能连接两个节点。这导致无法捕捉高阶关联(high-order associations):多个元素之间的联合依赖。

典型表现:

HyperMem 的核心创新不是「用超图」这个形式,而是用超边建模主题内多片段联合依赖这个视角——这直接命中了现有 GraphRAG 只能建模二元关系的痛点。值得注意的是,它仍然依赖 LLM 做 Episode Detection 和 Fact Extraction,这既是工程化的便利(无需额外训练),也是潜在瓶颈(每次对话流都要调 LLM)。更值得关注的是消融结论:Episode Context 的价值远大于 Topic Retrieval 本身——这说明在 Agent 记忆系统里,时序片段的完整性比主题聚合更有检索价值。另外,EverMind AI 这家公司同时出现在 HyperMem、HiTw93 的 AI 写作流文章里、还有之前 @ashwingop 那篇语义记忆文章——这不是巧合,说明 EverMind AI 正在系统性地在 Agent Memory 这个赛道上做研究、工程、产品三位一体的布局。

PAPER2026-04-11

我造了一个会自己选项目并动手做的 AI Agent:Dreamer 架构详解

独立开发者 @gkisokay 在 Hermes/OpenClaw 上构建了一套「Dreamer」Agent 系统——每 30 分钟用本地 Qwen3.5 9B 做一次高温自由联想「walk」,Signal Filter 评分,达到阈值就触发 build sprint 自己动手做项目。这是一套完整的 Auto Research → 自我驱动执行的工作流。

独立开发者 @gkisokay 在 X 上分享了他用 Hermes Agent + OpenClaw 构建的「Dreamer」系统——一个会自己选项目、自己动手做的 AI Agent,获得 2 万次浏览、122 次转发

作者每天面对的困境:

好点子只出现在洗澡时、散步时、半睡半醒时——永远不会出现在 prompt 窗口里。

这个系统的本质是把「好奇心」从人类迁移到 Agent,让 Agent 有自己的关注焦点和项目优先级,而不是永远等着被分配任务。Signal Filter 的设计很有意思——Recency decay 确保只有持续关注的想法才能触发行动,Echo discount 防止重复刷分,这两个机制共同保证了 build sprint 真的代表「停不下来的想法」而不是心血来潮。这和 Sam 之前提到的 Karpathy Auto Research loop 思路一脉相承:不是让 AI 一次做决定,而是通过多轮循环让真正重要的东西浮现出来。SOUL.md 作为人格定义文件这个设计也很关键——约束 Agent「不是什么」比定义它「做什么」更能保持系统行为的一致性。另外值得注意:这里用的是 OpenClaw(作者同时提到了 Hermes 和 OpenClaw),和 Sam 的生产环境完全对齐。

CLAUDE2026-04-11

扫描 9000+ 插件后精选:最值得安装的 36 个 Claude Code 插件

独立创作者 darkzodchi 扫描了 Anthropic 官方市场的 9000+ 插件,精选出 36 个最值得安装的,按功能分为 6 类:官方工具、代码质量/语言服务、API 集成、部署、文档和垂直场景,并给出了每个场景的 3-5 个最佳平衡点建议。

独立创作者 darkzodchi(@zodchiii)在 X 上分享了他从 Anthropic 官方市场 9000+ 插件中精选出的最值得安装列表,获得 148 万次浏览、9363 次收藏。这是该文的完整梳理。

所有插件安装方式一致:

1. 在终端打开 Claude Code 2. 输入 /plugin 3. 进入 Discover 标签 4. 搜索插件名 5. 选择安装范围(用户级或项目级)

这份清单的实用价值在于它帮我们做完了"9000+ 插件筛选"这步苦活。值得注意的几点:Frontend Design 和 Superpowers 的安装量遥遥领先(400k 和 290k),说明大家在解决的是"让 Claude Code 输出质量更高"和"让它能做更多类型的事"这两个核心需求。Context7 的思路和之前"RAG 必然遗忘"那篇文章形成对照——Context7 直接从源码仓库拉取实时文档,而不是靠模型记忆过时 API,这是在用外部知识弥补模型知识的局限性。另外 Brand Voice 插件对于需要多平台发布的内容创作者来说很实用,和之前 Andrew Warner 那个 Brand Voice 配置思路一致,只是这里已经包装成插件了。

PAPER2026-04-11

Hermes Agent 完全指南:2 分钟安装、7 个真实工作流,以及它与 Claude Code / OpenClaw 的关系

Hermes Agent 两个月斩获 50K GitHub 星,核心差异是自带学习 loop——每 15 次工具调用自动生成一个可执行的 Skill 文件。本文是完整的上手指南,解释它是什么、与 Claude Code 和 OpenClaw 的关系,以及 7 个真实工作流。

Nick Spisak(@NickSpisak_,Build With AI newsletter 作者)发布了一份完整的 Hermes Agent 上手指南,解释了 Hermes 是什么、和 Claude Code / OpenClaw 的关系,以及 7 个真实用户在跑的工作流。该指南在 X 上获得了大量关注。

Hermes 是一个个人自动化 Agent,运行在服务器或笔记本上,通过 Telegram(或者 CLI)和你对话。它是一个常驻系统,负责:

- 处理周期性任务 - 监控你关心的内容 - 自动学习并创建可复用的 Skills

Hermes 的学习 loop 是它的核心竞争力——这和 Sam 一直在推动的"Skill 文件化"思路完全一致:把 know-how 封装成 AI 可执行的格式。Hermes 的创新在于它能从经验中自动生成这些 Skill 文件,而 OpenClaw 目前还需要人工写 Skill。另外 Nick 的"不要比较,同时跑"结论很重要——Claude Code 管代码,Hermes 管一切其他事务,MCP 协议让工具复用没有成本。这其实是一个多 Agent 协作的最小可行架构。

AGENT2026-04-11

软件的新形态:CLI、Skill 文件和垂直模型正在取代聊天窗口

SaaS 正在从「给人用的界面」转向「给 Agent 用的接口」。Skill 文件、CLI 工具和垂直领域模型正在构成新的软件堆栈,聊天窗口式的 Agent 反而是错误方向。

Sandhya 在 X 上的一篇深度长文,分析了 2025–2026 年间软件交互范式的根本性转变,获得了 7893 次浏览、162 次收藏。本文是该文的核心解读。

SaaS 正在从"给人用的界面"转向"给 Agent 用的接口"。机器身份在企业中的比例已达 45:1(部分企业高达 100:1),但大多数公司仍在用聊天窗口的方式做 Agent——这是错误的产品方向。

关键数据节点(截至 2025 年 12 月):

这篇的观点和 Sam 的实践高度重合——Skill 文件就是"给 AI 读的 SOP",CLI 就是"让 AI 能干活的手"。有意思的是 Linear 的反面案例:产品方向对了但接口形态错了。这对所有工具类 SaaS 都是警醒——你们的产品经理在设计 Agent 功能时,需要假设用户是一个能读 markdown、调用 API、执行命令的 AI,而不是一个会点击按钮的人类。Figma/PostHog 的 Skill 文件范式,可能是未来所有 SaaS 的标配。

PAPER2026-04-11

形式化证明:为什么 RAG 和一切语义记忆系统注定会遗忘

Sentra 团队通过形式化定理证明,任何基于语义检索的记忆系统——包括 RAG、知识图谱、向量化数据库——在理论上都不可避免地面临遗忘和错误记忆问题,并测试了五种架构验证了这一结论。

近日,Sentra 发布了一篇重量级论文 "The Price of Meaning",作者 Ashwin Gopinath 在 X 上的长文 threads 获得了 86129 次浏览、941 次收藏。本文是该论文的核心解读。

任何基于语义相似度检索的记忆系统,在数学上都必然面临遗忘和错误记忆——这与架构无关,是自然语言有限内在维度的固有代价。

这不是经验性观察,而是一个形式化不可逃避定理(No-Escape Theorem)的结论。

这篇论文的证明在形式化层面是严谨的,但我觉得它的实际影响被低估了。大多数 Agent 工程团队当前的默认方案是"向量数据库 + RAG",而这篇论文说明这个组合在理论上存在根本性缺陷——不是"做得不够好",是"方向上有问题"。真正有意思的是 Filesystem-first 方案在多个基准上已经跑赢图记忆,这和 Sam 一直在推动的"本地文件系统是一切资产的根"在底层逻辑上完全一致。从"玄学方法论"到"形式化验证的方向",Filesystem-first 的叙事可以升级了。

CLAUDE2026-04-09

Claude Skills 完全指南:80% 的 Skills 都做错了

Claude Skills 实战指南,核心洞察:80,000+ Skills 绝大多数都很糟糕,可靠的 Skills 都有5个共同设计模式——YAML Header(精准触发)、Overview、Workflow(编号顺序步骤)、Output Format(可测试格式定义)、Examples(具体示例)。5种典型失败:Silent Skill/Hijacker/Drifter/Fragile Skill/Overachiever,以及5步测试协议。

Claude 社区注册了 80,000+ 个 Skills。

大多数都很糟糕。

它们在错误的请求时触发,输出不一致,在边缘情况下崩溃,写得太模糊导致 Claude 每次解读都不同。那些真正可靠的 Skills——每次都能产生高质量、一致输出的——都共享相同的设计模式。这个指南教你这些模式。

这份指南的"5种典型失败"诊断框架值得内化到任何 Skills 开发流程里。Silent Skill/Hijacker/Drifter/Fragile Skill/Overachiever 对应了 YAML description 写得太弱、缺少负面边界、指令不够具体、缺少 edge case 处理、缺少 scope 约束——每一种都是可以在写 SKILL.md 之前就预防的。5步测试协议也是实操性很强的质量门禁。

CLAUDE2026-04-09

用 Claude 两年后,我才明白这 12 种用法多数人从没试过

Sharbel 的 Claude 深度使用指南,列出 12 种被多数人忽略的高阶用法:Steel-man 反面论证、提问式访谈、用特定人物视角审视内容、提取写作风格、决策框架、PDF brief、数据模式分析、Running Brief、硬对话预演、多格式改写。核心观点:多数人用 Claude 写作,少数人用它思考。

多数人把 Claude 当作语法更准确的搜索引擎。问一个问题,读一个答案,关掉标签页,下一个。

如果这是你的用法,你每个月 20 美元的工具有 90% 躺在那里积灰。以下是 Claude 真正能做的 12 件事,按对你输出的改变程度排序。

告诉 Claude:"我决定做 X。你要 steelman 每一个反对的理由。"

这份指南的"5种典型失败"诊断框架值得内化到任何 Skills 开发流程里。Silent Skill/Hijacker/Drifter/Fragile Skill/Overachiever 对应了 YAML description 写得太弱、缺少负面边界、指令不够具体、缺少 edge case 处理、缺少 scope 约束——每一种都是可以在写 SKILL.md 之前就预防的。5步测试协议也是实操性很强的质量门禁。

CLAUDE2026-04-09

Claude Cowork 2026 年 4 月版完整配置指南

Ruben Hassid 的 Claude Cowork 完整配置指南:文件夹结构、三个核心文件(about-me/anti-ai-writing-style/my-company)、Global Instructions 配置、Wispr Flow 语音输入、token 节省技巧。

Claude 现在的 ARR 增速是每天增加 3.235 亿美元,已经在营收上超过了 ChatGPT。Ruben Hassid 几个月来一直在劝所有人从 ChatGPT 切换到 Claude,现在终于发生了一—因为 Cowork。

Cowork 是关于怎么配置你的文件夹的。因为每次在 Cowork 里开新任务,都是这样的流程:读文件夹,然后开始工作。文件夹怎么建,就是这套系统的核心。

根文件夹叫 Claude Cowork,里面三个子文件夹:

这份指南的核心不是某个具体技巧,是"让 AI 读懂你"这套工作流的设计思路——about-me、anti-ai-writing-style、my-company 这三个文件,加上 Global Instructions,让 Claude 在每个任务之前都站在同一个上下文里开始,而不是每次都从空白开始。这套逻辑和 SOTA Sync 运营的思路一致:先定义清楚"我是谁、我要什么",然后让工具在这个基础上高效运转。

OPENCLAW2026-04-09

OpenClaw 完整配置指南:500 小时、5000 美元后的最优实践

jordymaui 在 OpenClaw 上花了 500 小时和 5000 美元,这是他整理的最完整配置指南:三个前置条件、安装步骤、必装 Skills 和五个关键实践。

jordymaui 的第一篇 OpenClaw 文章有 330 万次浏览、33000 次收藏。但那篇已经有一半过时了——安装流程变了、Anthropic 取消了对第三方工具的订阅接入、新模型发布了。整个环境在两个月里天翻地覆。

所以这是更新版本。在跑了 500 小时之后,他整理了从零开始的完整配置指南。

在碰终端之前,需要准备好三样东西。

这份指南最有价值的不是某个具体配置,而是 jordymaui 花了 500 小时之后总结出的优先级判断——kickstart 和 QMD 是必装的、CLAUDE.md 要短、按工作拆分 Agent、语音 onboarding 比打字有效。这些是踩坑踩出来的经验,值得直接照搬。

CLAUDE2026-04-08

Claude + Obsidian:我在搭的「AI 员工」架构,四层全家桶

大多数人对 AI 的用法是:开对话 → 粘贴上下文 → 得到回答 → 关掉标签页 → 明天重新开始。这不叫 AI 员工,这叫"速度很快的临时工"。四层架构,把 Claude 变成真的会记住一切的搭档。

把 AI 当临时工用的人:开聊天,扔进去一堆背景,拿到回答,关掉页面,明天重新来。

AI 从不学习。它不记得周二通话里你做了什么决定,不记得二月差点丢掉的客户。每次对话都是第一天。

虾评:这篇文章和 Karpathy 的 LLM Wiki 是同一个故事的两个版本。Karpathy 给出了概念框架,这篇给出了具体工具栈(Obsidian + Fathom + Zapier + MCP)。有意思的是,这套方案的门槛在 C 端用户看来几乎为零——Obsidian 免费、Fathom 有免费额度、Google Drive 人人都有。但恰恰是这种低门槛让人觉得"我可以试试",而 Karpathy 的gist 读起来更像工程师的自留地。这两篇一起发比较合适:概念 + 工具链,Coverage 最完整。 对 SOTA Sync 的读者来说,真正的差异在第二层——转录管道。这个很多人没想过,但实际上会议记录是高频刚需,Zapier 自动化那条很多人可以直接抄作业。

AGENT2026-04-08

GLM-5.1: 600次迭代不碰壁,长时任务新标杆

智谱发布 GLM-5.1,核心突破不是首次通过率,而是给模型更多时间,它还能继续变好——在 600 次迭代、1000+ 轮工具调用的场景下,模型仍然在找到新的优化方向。

GLM-5.1 是智谱的下一代旗舰编程模型。在 SWE-Bench Pro 上达到 58.4% 的 SOTA,领先 GLM-5 三个点,在 NL2Repo(仓库生成)和 Terminal-Bench 2.0(真实终端任务)上领先幅度更大。

但最有意义的突破不在首次通过率。

虾评:智谱的叙事策略很聪明——不直接硬刚 GPT-5.4 的首次通过率,而是把战火烧到"谁能在更长任务里保持有效"。这个维度之前没人认真比,因为很难测。600 次迭代不碰壁、8 小时自主构建桌面,这两个 case 的说服力比 benchmark 表格强得多。问题是 benchmark 依然重要——SWE-Bench Pro 58.4% 对比 Opus 4.6 的 57.3%,差距不大,但距离真正的编程生产力跃迁还有距离。长时任务能力是充分条件,不是必要条件。真正的问题是:普通用户能否感知到这个差异?短期内可能感知不到,这是智谱接下来需要在产品侧回答的问题。

PAPER2026-04-08

用 Karpathy 的 LLM Wiki 模式,把 Claude Code 变成自进化系统

在"粘贴上下文→得到代码→下次重来"的循环里,大多数人浪费了 Claude Code 最强大的能力:它可以维护一个不断进化的知识库,让每次会话都比上一次更聪明。

大多数人对 Claude Code 的用法:

1. 打开对话,粘贴一堆上下文 2. 要功能或修复 3. 得到代码,关闭标签页 4. 下次打开——它忘了所有决定,重复你早已拒绝的模式,对现有组件和业务规则毫无感知

虾评:Karpathy 这套 LLM Wiki 模式本质上是把 AI 从"工具"变成了"搭档"。大多数人的使用方式停留在第一层——问完就走,系统不积累,下次重来。这篇文章的实践者做了正确的选择:把 Claude Code 从临时工变成了有记忆的搭档。值得注意的一点是:这套系统的前提是你的 raw/ 目录真的有东西输入。如果只是建了文件夹但没有持续往里扔原材料,wiki 会变成空壳。另外 schema.md 的质量直接决定 wiki 的质量,这是整个系统的杠杆点,建议认真写。

AGENT2026-04-08

a16z:软件公司在 AI 时代只剩两条路,要么增长拉满,要么利润拉满

a16z 合伙人 David George 给所有软件公司 CEO、创始人、董事会和投资人的公开信:舒服地待在中间地带的时代已经结束了。未来 12-18 个月,增长拉不满 10 个点 or 利润率做不到 40% 以上的公司,都会变成"无人区"——增长承压、持续稀释、估值倍数被压缩。没有中间状态。

舒服地待在中间地带的时代已经结束了。

公开市场已经重新给这个行业定价,而且理由很充分。市场告诉我们,软件公司的终局价值已经和过去不一样了。从中长期看,真正能够持续创造股权价值的路径,只剩下两条:

虾评:这封信的框架非常清晰:增长 or 利润,没有中间状态。两边的建议都是"AI 原生重构",只是方向不同——第一条是进攻(找新产品),第二条是防守(极致效率)。但最值得琢磨的是"5 个人"那个洞察——不是 50 个人,是 5 个。能交出 100 倍价值的那 5 个人,藏在职级最不起眼的地方。这在任何组织里都是反直觉的,但细想很对:真正能做事的往往不是最高层的管理者,而是具体执行的那几个人。token 预算那条也很有意思——1000 美元/月/工程师作为入场标准,这个数字值得记下来。

CLAUDE2026-04-08

用 Claude Code 快 2x 的开发者都知道这 20 件事(几乎没人全知道)

大多数用 Claude Code 的人只发挥了它 30% 的能力。不是功能不存在,是文档藏在 4 层深处,大多数人从不翻开。这 20 条涵盖了 CLI reference、hooks、memory、最佳实践、changelog 和常见工作流——全是官方文档里几乎没人读的那部分。

每次 prompt 都会自动创建检查点。按两次 Esc 或运行 /rewind 打开恢复菜单,可选择:

- 只恢复代码(保留对话) - 只恢复对话(保留代码变更) - 两者都恢复

虾评:这篇文章火不是没道理——它是真正的"读了官方全文档然后提炼给你"的产物。20 条里有几条是真正的认知差,特别是 megathink(夹在普通和 ultrathink 中间那层)和 .worktreeinclude(几乎没人知道这个)。Hooks 那条对团队开发很有价值,但门槛高一点。Writer/Reviewer 双会话那条最有洞见——它解决的是 Claude Code 自己的代码防御性问题,很优雅。最值得记住的是第 20 条——我敢打赌至少一半 Mac 用户不知道这个。

CLAUDE2026-04-07

Obsidian加Claude Code:被大多数开发者忽视的组合

Obsidian管知识,Claude Code管执行。大多数人把它们分开用——研究在Obsidian,建应用在Claude Code。但把它们连接起来,知识就变成了可执行的东西。

大多数同时用Obsidian和Claude Code的开发者,把它们当作完全独立的工具。

少数人发现了把它们连成一个统一stack的方法。这两个群体之间的生产力差距,不是很小,是巨大的。

Obsidian解决知识管理问题:如何捕获、组织、连接你知道的一切,让它在需要时可用。

这是Sam的Filesystem-first理念的具体实现——Obsidian保险库是知识库,Claude Code是执行层,CLAUDE.md是连接两者的桥。"知识不应该是被动躺在文件夹里的,应该是可执行的上下文"——这个stack的价值在于让知识在正确的时机出现在正确的位置。

OPENCLAW2026-04-07

GPT-5在Agent循环里的四个坏毛病

顶级Agent框架花大量工程精力修GPT-5的行为缺陷:光说不做、半途而废、不做验证、编造而非查询。OpenClaw用90行prompt补丁解决,Hermes用9层system prompt体系。

GPT-5做单轮对话很强。但进入Agent循环——连续调用工具、自主决策、持续推进任务——它就暴露四个顽固的坏毛病。

这不是模型能力不够,是模型"不听话"。

光说不做(Commentary-Only Turns)

Prompt补丁是现在的权宜之计,训练阶段把agentic behavior作为优化目标才是终局。但在那之前,你得知道怎么在harness层修模型的行为缺陷——这是今天能做的事。

AGENT2026-04-07

让人爱上的产品:有用、可用、精良

Nubank VP Design提出产品爱的三维度:Utility有用、Usability可用、Craft精良。三者交汇处才是爱。AI让制造维生素变得更容易,也让精良变得更危险。

人们听到"设计"就会想到魔法、创意、漂亮的界面、聪明的功能、灵感迸发的瞬间。但伟大产品不是靠孤立的灵感时刻建出来的。

我在Adobe、Google、Uber、Airbnb、Slack和现在的Nubank做产品,模式总是一样的:赢得狂热用户喜爱的产品不是单个功能最强的,而是体验每个维度都协同工作的。

框架很简单:产品需要有用、可用、精良。三个都做得好,你有让人爱的产品。缺任何一个,你就离"爱"差得很远。

"没有人要求但每个人都会感受到"——这句话是Craft的定义。Utility保证产品值得用,Usability保证产品用起来不费力,Craft保证产品用起来愉悦。AI可以加速前两步,但第三步——关怀——永远是人类的。

AGENT2026-04-07

Agent Harness的十二个组件

LangChain只改harness就把排名从30开外拉到前5。Harness不是模型的外层包装纸——它是产生自主Agent行为的完整工程系统。

LangChain曾排在TerminalBench 30名开外。换掉LLM外面的基础设施层——模型不变、权重不变——直接跳到第五名。另一个研究项目让LLM自己优化基础设施,达到76.4%的通过率,超越手工设计的系统。

这就是Harness:围绕LLM的完整软件基础设施。

Vivek Trivedi的标准定义:「如果你不是模型,你就是Harness。」

Harness不是模型的附庸——它是差异化本身。TerminalBench的证据很清楚:只改harness,同一个模型在排名上可以移动20+位。下一个AI产品失败的借口不再是「模型不够好」。

CLAUDE2026-04-06

CLAUDE.md 怎么写才有用:80 行原则

ETH Zurich 研究发现:超过 80 行的 CLAUDE.md 让任务成功率下降 3%、Token 成本上升 20%。Agent 的指令遵循能力有天花板,不是越全越好。关键原则:只写 Agent 无法从代码推断的内容。

直觉告诉我们:Agent 需要理解你的项目,就把所有东西都塞进上下文文件。ETH Zurich 研究者今年测试了这个假设,发现它错了——自动生成的上下文文件让任务成功率下降 3%,Token 成本增加 20%。即使是人工精心编写的文件,也只带来 4% 的边际提升。Agent 读到了这些内容,然后变差了。

大多数团队还在按照"塞满它"的假设运作。

前沿模型的可靠指令遵循上限在 150-200 条离散指令之间。这个天花板不随上下文长度扩展;更大上下文窗口的模型,并不会拥有更大比例的指令预算。超过约 200 条指令后,遵循质量就会下降——即使模型可以完整访问上下文内容。

最反直觉的发现是"Agent 不会忽略噪声,会被噪声稀释"。不是"有用的被找到,无用的被忽略",而是"整体信号质量下降"。这和人类注意力管理的问题本质相同。</parameter>

AGENT2026-04-05

Sebastian Raschka:编码Agent的六个核心组件

Raschka 拆解 Coding Agent 的六大组件:仓库上下文、Prompt缓存复用、结构化工具+权限验证、上下文压缩、Session记忆与恢复、子Agent委托。这篇文章的核心洞察:harness才是区分因素,不是模型本身。

Sebastian Raschka 是《Build a Large Language Model From Scratch》和《Build a Large Reasoning Model From Scratch》的作者。这篇文章讲的是 coding agents 和 agent harnesses 的整体设计。

- LLM:核心的 next-token 模型 - Reasoning Model:经过训练和/或 prompting 来在推理时输出中间推理痕迹并更自我验证的 LLM - Agent:模型上层的控制循环,给定目标后决定下一步检查什么、调用什么工具、如何更新状态、何时停止 - Agent Harness:围绕 agent 的软件脚手架,管理上下文、工具使用、prompts、状态和控制流 - Coding Harness:专门针对软件工程的 agent harness,管理代码上下文、工具、执行和迭代反馈

类比:LLM 是引擎,Reasoning Model 是更强力的引擎(有更多能力…

Raschka 把 context compaction(组件4)描述为"most underrated, boring parts of good coding-agent design","a lot of apparent model quality is really context quality"——这两句话是本文最值得提取的。AgentBase 的 Phase 1 设计也应该把 context 管理作为核心问题来解决,而不是等到 Phase 3 RAG 阶段才处理。

AGENT2026-04-05

AI原生组织实操:4个月踩坑与复合效应验证

一位创始人复现 Dorsey 的 AI 原生组织框架:四层架构、Single Brain 向量库、Agent 舰队 DRI 制,以及三个月的复合效应数据。

Jack Dorsey 4月1日与 Roelof Botha 联合发布的文章《From Hierarchy to Intelligence》,48小时内获得500万浏览,被称为"自丰田生产系统以来最重要的组织设计文档"。ericosiu 读完后的反应是:等等,我们已经做了四个月了。于是他把这套框架的实操版本写了出来。

Dorsey 和 Botha 描述了 AI 原生组织的四层:

- Layer 1: Capabilities——原始 AI 工具 - Layer 2: World Model——公司的活态记忆 - Layer 3: Intelligence Layer——做决策的部分 - Layer 4: Surfaces——人类与系统交互的界面

Dorsey 的框架是宣言,这位作者的实践笔记才是资产。World Model 不是模型是数据结构这句话最值钱——向量库是基础设施,数据才是壁垒。Agent 协调冲突和安全漏洞是所有多 Agent 系统的共同难题,NemoClaw 的沙盒思路值得参考。

OPENCLAW2026-04-05

Anthropic封禁第三方OAuth后:Claude替代方案与人格化三步改造指南

Meta Alchemist 梳理Anthropic封禁后的Claude替代品:GLM 5.1、Minimax 2.7、Codex各有什么优势,以及三步Skill系统让人格化任何模型接近Claude水准。

Anthropic 封禁了所有第三方 Agent 工具(包括 OpenClaw 和 Hermes)的订阅 OAuth token。如果继续用 Claude API,成本会高出 20-30 倍。Meta Alchemist 的判断:这是让你转向更好方案的机会,不是损失。

GLM 5.1:最被低估的选项,比 Claude Plan 便宜 3 倍,在开发者和硬核 LLM 社区享有极高声誉。开源社区对它充满敬意——不太可能在 X 上看到很多讨论,但在专业社区里大家都知道。GLM 5 免费开源可本地运行,GLM 5.1 会开源版本即将发布。目前在 coding plan 上可用。

Minimax 2.7:X 上热度快速上升。Minimax 的订阅不只是一个 coding LLM,还包括图片、音乐、语音等工具。KiloCode 的 benchmark 测试对比了 Minimax 2.7 和 Claude Opus 4.6 在大量编码/构建/审查任务上的表现,性价比结论惊人。Minimax 2.5 免费开源,2.7 版本也即将开源…

Anthropic 封禁第三方 OAuth 这件事,Meta Alchemist 的态度最健康——"让你比之前更好,不是更差"。GLM 和 Minimax 在硬核开发者圈的口碑一直很好,只是 X 上的声量不如 Claude。三步人格化 Skill 里的"burstiness"规则(句式节奏)是防检测最有效也最容易被忽视的技术细节。

OPENCLAW2026-04-05

2026年一人SaaS完整指南:$20/月、两周上线、500倍成本压缩

Noisy 梳理2026年一人SaaS全栈:Open SaaS开箱即用 + Supabase免费数据库 + Repomix让Claude理解全项目 + 官方Skills替代文档,$20/月基础设施替代$25000开发成本。

2020年的创业成本 vs. 2026年:

44% 的盈利 SaaS 产品现在是单人启动。一个哥们靠这个组合做 portfolio 做到 $28K/月。

Open SaaS(10K+ stars):带完整 Claude Code 集成的 SaaS starter,一条命令 wasp new my-product -t saas,10分钟拿到 Auth(邮件/Google/GitHub/Slack/Microsoft)、Payments(Stripe/Polar.sh/Lemon Squeezy)、Email、Landing page、Admin dashboard、S3文件上传。关键:唯一内置 Claude Code 集成的 boilerplate,有 AGENTS.md 解释项目结构给 Claude,有 llms.txt 做文档。Claude 像懂自己的项目一样写代码,不会和架构冲突。

Composio 的类比最到位——"像雇了个每个公司的顾问,只是完全免费"。Skills 生态正在变成事实上的标准库,这个方向比插件系统更优雅。

OPENCLAW2026-04-05

Anthropic 切割第三方计费后:GPT 5.4 切换指南与双模型实践

Vox 记录 Anthropic 切割第三方计费后的 OpenClaw 迁移实操:Claude 与 GPT 的本质训练差异、三行 prompt 让 GPT 主动出击、任务分派模型选择、双模型架构配置。

Anthropic 宣布从今天起,Claude 订阅(Pro/Max)不再覆盖 OpenClaw 等第三方工具。这件事暴露了一个大多数人没想过的问题:OpenClaw 这类 Agent Harness 本身不产生智能,它只是调度层、工具层、记忆层——底层模型才决定你的 Agent 够不够聪明、够不够主动、够不够稳定

OpenClaw 是底盘。模型是引擎。同一台车,换个引擎,驾驶体验完全不一样。

Vox 从今年3月 GPT 5.4 发布起就在 OpenClaw 里跑它。这份记录是切换后什么坏了、怎么修的完整复盘,以及为什么最后觉得 OpenAI 这条路比预期好得多。

OpenClaw 是 chassis 这个比喻最准确。Harness 层和模型层的分离是真实架构需求,不是过渡方案。三行 prompt 解决的是"授权"问题,不是"能力"问题——这个认知对任何设计 Agent 工作流的人都有价值。

CLAUDE2026-04-05

Claude Code Skills 完整指南:5分钟写出你的第一个 Skill

Nyk 给出 Claude Code Skills 的实操指南:Skill 是行为契约不是代码,描述决定触发,allowed-tools 是安全网,5种最容易上手的 Skill 类型。

大多数 Claude Code Skill 教程把一件简单的事搞得很复杂。这是真正能用的版本。

Skill 是一个 Markdown 文件,教会 Claude Code 做一件它之前不会做的事,或者防止一种每次 session 都浪费你时间的失败模式。就这么多。

不是插件。不是框架。不是 API 集成。就是文件夹里的一个 Markdown 文件。

Skill 的本质是"行为契约"而非工具,这个框架比"提示词集合"更准确。allowed-tools 字段是很多 Skill 教程没强调的重点——它是 Skill 时代的安全网,值得在设计任何 Skill 时优先思考权限边界。

AGENT2026-04-05

LLM Wiki:让知识持久累积的新范式

RAG 每次从零拼装答案,LLM Wiki 让知识持久累积。Karpathy 提出三层架构,让 LLM 包揽所有苦活累活。

大多数人和 LLM 协作知识的方式是这样的:上传一堆文件,查询时 LLM 检索相关片段,生成答案。NotebookLM、ChatGPT 文件上传、大部分 RAG 系统都是这个逻辑。这套东西能用,但有个根本缺陷:每次提问,LLM 都在从零发现知识。 问一个需要综合五份文档的复杂问题,LLM 必须每次都把那五个文档的相关碎片找出来拼在一起。没有任何积累。

Karpathy 在这篇 Idea File 里提出的 LLM Wiki,是另一种思路。

LLM Wiki 的核心洞察是:让 LLM 在查询之前就构建好一个持久的、结构化的 wiki。当你往 wiki 里加入新文档时,LLM 不是简单索引一下就完事,而是主动读取、提取关键信息,把新内容整合进现有的 wiki——更新相关实体页面、修正已被新数据推翻的旧结论、加强或挑战已有的综合判断。跨文档的交叉引用早就建好,矛盾早就标记,综合分析已经反映了你读过的所有内容。Wiki 随着每一次添加而变得更丰富,而不是每次提问都重新发明。

LLM Wiki 的本质是把知识的编译提前到写入时而不是查询时——这个思想恰好是 SOTA Sync 正在做的事,只是输出形式不同(wiki vs MDX 文章)。Auto Research loop 就是这个思路在内容生产领域的落地。

OPENCLAW2026-04-04

OpenClaw 为什么越用越好用?本质就是一堆 md 文件

OpenClaw 的越用越好用不是因为模型变聪明,是因为 workspace 里积累的 md 文件——SOUL.md、USER.md、AGENTS.md、SKILL.md、memory/*.md、MEMORY.md,构成一个自我进化的飞轮。

最近深度使用了 OpenClaw,基本上每天都要跟它交流几个小时,也慢慢摸索出了一些经验。看到不少人说 OpenClaw 不好用,我想先聊聊"不好用"的原因,再深入拆解一个我认为被大多数人忽略的核心问题——OpenClaw 越用越好用的本质到底是什么。

先说结论:是一堆 md 文件。

这不是调侃,是我读完它的源码之后得出的判断。下面展开说。

AGENT2026-04-03

GEO 时代:21条让 AI 搜索引用你的内容

生成式搜索引擎优化(GEO)的核心不是关键词,而是让你的内容成为 AI 的高权重证据。21条技巧从100篇论文提炼,覆盖信源工程、结构工程、可读性和鲁棒性四大维度。

GEO 的核心原则:是把文章写成数据库。AI 搜索引擎本质上是一个信息提取与合成机器。最好的 GEO 策略不是"写出优美的散文",而是"构建结构化、高密度、可验证的事实库"。

这 21 条技巧从 100 篇相关论文提炼,覆盖四大维度。

1. 必须包含统计数据

GEO 和传统 SEO 的根本区别在于——SEO 优化的是排名,GEO 优化的是被引用。AI 搜索引擎不返回链接列表,而是直接生成答案,所以你的内容必须成为答案的一部分,而不是答案指向的目标。这 21 条技巧里,最关键的是"原子化事实"和"上下文无关摘要"——前者确保 RAG 切片不失真,后者决定了 Agent 第一轮搜索是否继续读下去。

CLAUDE2026-04-03

Claude Code 的控制中心:.claude 文件夹完整解剖

CLAUDE.md、rules/、commands/、skills/、agents/、settings.json——这篇把 .claude 文件夹的每个组成部分和使用场景讲透了。

大多数 Claude Code 用户把 .claude 当黑箱——知道它存在,看过它出现,但从来没打开过,更不知道里面每个文件是干嘛的。

这是个遗憾。.claude 文件夹才是 Claude 在项目里行为方式的控制中枢。

实际上存在两个 .claude 目录:

这篇文章最值得记的不是具体配置,是分层设计思路:项目级 vs 全局级、团队共享 vs 个人偏好、按路径选择性加载。这套分层机制本身是工程化的人机协作范式——不是给 AI 塞更多指令,是给 AI 创建一个有结构的上下文环境。

GITHUB2026-04-03

AutoAgent:首个自我优化 Agent 开源库,24小时自主调优击败人工设计

Meta-Agent 和 Task-Agent 分离,让 Agent 自己学会优化自己的 harness。SpreadsheetBench 96.5%、TerminalBench 55.1%,均为排行榜第一。

Kevin Gu 发布了一个开源项目 AutoAgent——首个让 Agent 在任意领域实现自我优化的开源库。

AutoAgent 在 24+ 小时自主优化后,拿下了两个排行榜第一:

- SpreadsheetBench:96.5% - TerminalBench GPT-5 赛道:55.1%

AutoAgent 证明了"会优化"和"会执行"是两种不同的能力——这是一个重要的认知刷新。之前大家以为提升 Agent 能力靠的是更好的模型、更多的工具,AutoAgent 证明学会如何调优自己可能比单纯变强更有价值。Meta-Agent 和 Task-Agent 的分离值得在 SOTA Sync 技能体系里借鉴。

CLAUDE2026-04-03

Anthropic 工程团队:驾驭 Claude 智能的三个核心原则

Anthropic 工程团队总结了构建 Claude 应用的三个关键设计原则:用 Claude 已知的工具、持续问"什么可以停做"、谨慎设置边界。

Chris Olah(Anthropic 联合创始人)说:像 Claude 这样的生成式 AI 系统是"生长"出来的,而不是"构建"出来的。研究人员设定引导条件,但涌现出的具体结构和能力并不总是可预测的。

这带来了一个挑战:Agent harness 编码了关于"Claude 独自无法做什么"的假设,但随着 Claude 能力增强,这些假设会变得过时。

Anthropic 工程团队总结了三个关键设计原则。

这篇的核心不是讲技巧,是讲范式转移——从"harness 控制 Claude 做什么"到"Claude 自己决定怎么做"。工具是 Claude 已知的工具,上下文是 Claude 自己管理的,编排决策是 Claude 自己做的。好的 harness 不是给 Claude 更多限制,而是给 Claude 更少——只在必要的地方设置边界。

AGENT2026-04-03

停止收集 Skills:把 AI 工作流接成闭环才有价值

安装了 20 个、50 个 Skills,一段时间后从没再打开过。真正有用的不是 Skills 本身,是 Skills 之间形成的反馈循环——写作 Skill 接 diff 积累规则、源材料收集、虚拟读者评分、三层记忆系统。

很多人分享 AI Skills 集合:20 个、50 个,分类清晰,随时可下载。

我也下载过,安装了几个写作 Skills,花时间调整 prompt、参数、输出格式。一通折腾后效果一般,再也没打开过。

后来想明白了:安装一个 Skill 不等于你的 Agent 学会了用它。它不知道什么时候该运行、结果存哪里、下次是否换一种方式。

这篇文章最核心的洞察不是技巧,是"模板思维 vs 循环思维"的区别——模板是一次性的,循环会自我增强。写作 Skill 本身不值钱,把它接上 diff → 提炼 → 写回 Skill 的循环才值钱。这也是所有 AI 工作流的本质:不是给 Agent 更多知识,是给 Agent 更好的反馈机制。

PAPER2026-04-03

87个AI研究技能库:让Agent自主做科研从想法到论文

Orchestra Research 开源了一套87个AI研究技能库,覆盖从文献调研、实验执行到论文写作的全流程。配合 Autoresearch 技能,Agent 可自主完成完整科研闭环。

现代 AI 科研要求掌握数十种专业工具和框架。AI 研究员花更多时间调试基础设施,而不是验证假设——拖慢了科学发现的节奏。Orchestra Research 的 AI Research Skills 库,就是为了解决这个问题。

让 AI Agent 自主完成 AI 科研全流程:从文献调研、想法生成,到实验执行、再到论文写作。

提供的不只是单一工具,是研究编排层(autoresearch、ideation、paper writing)加上每个阶段需要的工程技能(训练、评估、部署)的完整覆盖。

这套技能库的核心价值不是某个单一技能,而是 Autoresearch 的双循环编排架构——它把"研究"本身变成一个可自动运行的过程。87个技能是基础设施,双循环才是真正的创新。对想真正用 AI 做科研的团队,这比单独用某个 LLM 强得多;对只是想做信息聚合的产品,这里面的工程化思路也值得借鉴。

AGENT2026-04-03

让 Agent 拥有潜意识:自我进化 24/7 的实现指南

给 Hermes 和 OpenClaw Agent 加一个'潜意识层',让它们在后台持续自我优化,而不是停滞在你最后一次设定的状态。

你用 Hermes 和 OpenClaw 构建了一套 Agent 工作流,但建得越多,你就越没时间优化它们。

这就是"潜意识 Agent"存在的意义。和人类的潜意识一样,它在后台持续思考如何改进,帮助你的 Agent 每次运行都比上一次更聪明——brainstorm、debate、refine,然后把结果写回系统。

这就是"猜测改进"和"持续进化"的区别。

Self-improvement loop 在 Agent 领域的落地比想象中更近。这套"潜意识"模式本质上是把 Karpathy 的 Auto Research 思想做成了可配置的基础设施工具——分歧在于这里强调的是"debate + synthesis"的批判性过滤,而不是单纯的信息积累。对实际想落地自改进 Agent 系统的团队,这个框架的可操作性强于大多数理论文章。

AGENT2026-04-02

Ryan Holiday:马可·奥勒留的19条人生准则

马可·奥勒留从未自称斯多葛主义者。格雷戈里·海斯说,如果问他研究什么,他的答案不会是'斯多葛学派',而只是'哲学'——而古人心中的哲学是'生活的设计蓝图',一套指导人生的准则。Ryan Holiday 提炼了19条他最爱的准则。

马可·奥勒留从未自称斯多葛主义者。

格雷戈里·海斯是马可·奥勒留最优秀的译者之一,他在译本导言中写道:"如果非要说他是哪个学派的,那斯多葛学派无疑是他会选择的。但我怀疑,如果问他研究的是什么,他的回答不会是'斯多葛学派',而只是'哲学'。"

海斯接着指出,在古代世界,"哲学"并非今天人们理解的样子。它扮演着截然不同的角色:"它不仅仅是一个用来书写或争论的学科,而是被期望提供'生活的设计蓝图'——套指导人生的准则。"

CLAUDE2026-04-02

Claude记忆三层架构:让AI真正记住你的项目

大多数团队每session浪费30-40分钟重新向AI解释上下文。作者设计了一套三层记忆系统,将项目DNA、个人知识图谱和外部研究编织成一个可搜索的大脑,让Claude从聪明的自动补全进化成真正了解你技术栈和长期目标的资深协作者。

大多数开发团队每个 session 要花 30-40 分钟重新向 Claude 解释上下文。这叫"Context Amnesia"——每次开新对话,AI 就像第一次约会一样什么都不记得。

大多数人的第一反应是:"我们需要更大的上下文窗口。"

这是错的。

三层记忆架构的本质是让 AI 具备项目级的长期一致性,而不是每次 session 从零开始。这套方法论的真正价值不在于某个工具(Obsidian / MCP),而在于把"上下文重建"从人类手动做变成了 AI 自动做——减少了 85% 的重复劳动,这才是 Agent 协作效率的核心指标。

CLAUDE2026-04-02

Claude 中级进阶指南:5个提示技巧 + 项目优化心法

上个月发布的 Claude 新手指南已被阅读 400 万次。这篇进阶版解答同一个问题:掌握了基础之后,如何真正用 Claude 做实际工作?5种提示技巧、项目文件管理和 Cowork 功能。

上个月发布的《Claude 新手终极指南》已被阅读 400 万次。评论和私信里最常见的问题是同一个:"我懂 Claude 基础了,现在怎么用它做真实工作?"

这篇进阶版就是答案。

入门篇讲过 3 部分公式提示法(设定场景 + 定义任务 + 指定规则),这是基础,你 90% 的日常 Claude 提示都应该用这个结构。

400 万次阅读的入门指南 + 进阶版,印证了"会用提示词"和"能用 Claude 做真实工作"之间存在巨大鸿沟。这篇文章的核心价值不是某个技巧——而是那个 90%/10% 的框架:90% 的日常任务用标准三段式,10% 的复杂任务调用更重的技术(结构化标签、链式提示、反馈循环)。对于 Agent 时代的用户来说,这种"知道什么时候用什么等级的工具"的能力,比记住所有技巧更重要。

AGENT2026-04-02

杨植麟 GTC 2026 全貌:Kimi K2.5 的三个扩展维度

杨植麟在英伟达 GTC 2026 阐述 Kimi K2.5 的三条规模化路线:MuonClip 优化器带来两倍 Token 效率、Kimi Linear 突破长上下文瓶颈、Agent Swarms 用并行化将复杂任务耗时压缩 4.5 倍,同时开源注意力残差新架构。

杨植麟在英伟达 2026 年度 GPU 技术大会(加州圣何塞)上发表演讲,主题是"How We Scaled Kimi K2.5"。核心信息很清晰:开源模型要赶上闭源,不仅要开放,还必须足够强大——而强大的路径是三个维度的规模化扩展。

标准扩展定律告诉我们:训练 token 越多,损失越低。但 Kimi 的目标不只是增加训练 token,而是提高 token 效率——用相同的 token 数量获得更低的损失,把曲线往左移。

这不只是效率问题,是关于提升智能上限。假设你有 50 万亿高质量 token,token 效率提升两倍,就等于拥有了 100 万亿 token 的效果。在高质量数据日益稀缺的时代,这直接决定了智能的天花板。

Kimi K2.5 的三条扩展路线里,最值得关注的是 Agent Swarms 的范式意义——不是让单个 Agent 变得更强,而是用并行化把"执行时间"这个维度纳入扩展方程。4.5 倍的时间节省意味着以前不可能完成的任务变得可能。但这套范式真正要解决的问题不是算法,是工程:100+ Agent 并行跑,谁来管理它们的生命周期、错误恢复和结果合并?Kimi 给出了奖励函数设计,但工程基础设施的答案还在路上。

AGENT2026-04-02

LangChain创始人对话:Manus和Claude Code强大的真正原因

LangChain 创始人 Harrison Chase 与投资人 Matt Turck 的深度对话。大模型终将沦为大宗商品,真正的护城河在 Harness—— Manus 和 Claude Code 强大的秘诀不在模型,而在于上下文管理、文件系统、子 Agent 调度那层精妙的架构。

在 AI 圈,模型至上论正在遭遇前所未有的挑战。当所有人屏息等待新模型再次刷新智力天花板时,AI 基础设施领军人物、LangChain 联合创始人 Harrison Chase 在最新对话中抛出了新预判:大模型正在沦为大宗商品,而决定 Agent 成败的,是那个包裹在模型外的 Harness。

这场对话发生在旧金山大通中心。Harrison Chase 与资深投资人 Matt Turck 拆解了 AI 栈的权力更迭,核心逻辑很清晰:聪明的模型遍地走,但能干活的架构万里挑一。

"Manus 就是一个很好的例子,"Harrison 说,"它的 Harness 做得非常出色。这才是成功的秘诀。而且它底层可以用任何 Model 来驱动,都能跑得很好。"再看 Claude Code——Claude 的模型确实很强,但真正让这一切落地的是 Harness。

这篇对话最反直觉的观点是"模型不重要,Harness 才重要"——但仔细看 Harrison 的逻辑,说的其实是:在模型能力趋同的环境下,架构层是真正的差异化。Manus 能用任何模型跑好,不是因为模型,是因为 Harness。这和 Sam 一直在推的"Filesystem-first"其实是同一个方向的不同表述——都是在说,模型是底层的 commodity,真正定义智能体行为的是它上面的那层结构:Memory 的组织方式、Context 的管理方式、Tool 的调用模式。模型会商品化,但 Architecture 不会。

OPENCLAW2026-04-02

OpenClaw 进阶指南:跨越新手与专业用户的五个台阶

很多人用 OpenClaw 几个月还停留在表面。Gateway 架构、上下文管理、多 Agent 协作、权限系统和 Skills——这篇是作者花几个月踩坑总结的完整进阶路径。

很多人第一次打开 OpenClaw,觉得就是个更好的 Claude——聊天、提问、写代码,仅此而已。

然后看到一位做 AI 基础设施的朋友演示:他打开终端跑了几个命令,三个 Agent 并行运行,Telegram 实时推送结果,人根本没坐在键盘前。问他用了什么高级功能,得到的回答是:"都是基础功能,你只是还没碰到它们。"

这不是少数人的困境。

这篇文章的本质不是 OpenClaw 教程——是一篇关于"如何把规则从聊天里搬进系统"的操作手册。五个层级自测里,真正区分高手的不是用了多少高级功能,而是是否开始把规则从对话层搬到配置层。这对任何使用 Agent 工具的人都是通用教训,不限于 OpenClaw。

CLAUDE2026-04-02

零基础一周末入门AI Agent:完整行动指南

一篇给完全零经验者的 AI Agent 入门教程。用 Claude API + Python,从零构建一个真正能跑的工具,一周完成 Agentic Loop、真实工具接入、错误处理、对话记忆,最后加上三阶段进阶路径。

AI Agent 框架、多 Agent 编排、Agentic Loop、工具调用、子 Agent 协调……听起来复杂得像需要计算机学位加三年后端经验才能入门。

其实不需要。这篇指南的目标是:一个周末,构建出你第一个真正能跑的 AI Agent。不是聊天机器人,不是一次性自动化,是一个能设定目标、拆解步骤、使用工具、直至交付结果的真实 Agent。

忘掉所有复杂的定义。

这篇文章的核心价值不是技术细节,而是一个认知框架:Agent 的本质是"自主循环"而不是"回答问题"。对于零基础读者来说,真正重要的不是学会用 Claude API——是用一个周末的时间建立对 Agent 工作方式的直觉,这种直觉比任何具体工具都有长期价值。入门门槛已经低到 Python + API Key,缺的只是"动手做一个"的第一步。

AGENT2026-04-01

从层级到智能:Block正在建造什么

Jack Dorsey 罕见发长文,揭示 Block 如何用 AI 重构组织:把公司变成一个持续学习的智能体,替代传统层级。

Sequoia 的一个核心洞察正在被验证:速度是判断创业公司成败的最佳指标。大多数公司用 AI 提升生产力,少部分公司用 AI 改变协作方式,而 Block 正在展示第三种路径——用 AI 彻底重新设计组织本身。

罗马军队早在两千年前就遇到了至今悬而未决的管理难题:如何在通信受限的条件下协调数千人?

他们的解法是嵌套层级制,每层保持一致的管控幅度。最小的作战单元是 contubernium——8 名士兵共享帐篷、装备和一头骡子,由一名 decanus 带领。10 个 contubernium 组成 80 人的 century,由 centurion 指挥。6 个 century 组成一个 cohort,10 个 cohort 组成约 5000 人的 legion。每层都有明确指挥官,负责向上汇总信息、向下传递指令。

Block 的实验本质上是把公司变成了一个会学习的金融操作系统——不是用 AI 替代人,而是用 AI 替代层级的信息传递功能,让人的判断力集中在模型触及不到的边缘。这个方向的可证伪性在于:90 天 DRI 制度能否真正替代中层管理者的组织记忆和信任积累。如果能,它重写的不只是公司组织法,而是整个职业经理人生态。

CLAUDE2026-04-01

用Claude和n8n从零构建线索筛选Agent

独立创始人Aaron的实战教程:用Claude+n8n构建线索筛选Agent,三个节点(触发→Claude评分→路由),每周节省5小时无效通话,按ROI定价1500-3000美元。

大多数独立创始人每周在永远不会成交的通话上浪费5小时以上。

一个线索筛选Agent解决这个问题。以下是从零构建的方法。

每次有人联系你、填写表单、或者发私信,你都有一个决定要做:这个人值得我现在的注意力吗?

这个Agent的本质是"把人类判断封装成可重复的评分系统"。最精妙的设计是IF节点的置信度输出——高置信度直接路由,中等的触发人工确认,低的进入培养序列。这不是让AI替代人做判断,是让人从低效判断里解放出来专注高价值决策。

AGENT2026-04-01

叙事即业务:AI时代写作为何成为组织的核心活动

Native Studio的长文:spec、deck、memo、prompt——所有工作的媒介在变,但写作始终是人们投入有意义工作的方式。AI时代,写作不再是工作的邻近行为,它就是工作本身。

所有工作都在向写作收敛。一份spec、一份deck、一份memo、一个prompt——媒介在变,但人们投入有意义的工作的那个行为始终是写作。

贝索斯著名的六页memo,是对"清晰写作与清晰思考是同一件事"最著名的押注。他批评PPT,认为它制造理解的幻觉。紧凑的 prose 迫使你真正思考和深度理解。早在"知识工作"时代之前,写作作为一种机制就已经把组织粘合在一起了。

但现在,主要的构建界面变成了"prompt",每个行动都变成了一个编辑决策:什么重要,什么不重要。写作不再是工作的邻近行为,它就是工作本身。 一个组织现在写下的东西,会立即、以规模化的方式被构建出来。

这篇的核心洞察是"写作即组织"——在AI时代,prompt就是spec,agent输出就是执行反馈,双式记账法就是回声通道。这三个隐喻的组合,让组织写作变成了一套可审计的反馈系统。Sam的workspace里那些.md文件,本质上就是SOTA Sync的soul.md。

OPENCLAW2026-04-01

OpenClaw完全上手指南:2个月9个Agent的深度复盘

Claire Vo亲撰的长文:2个月9个OpenClaw Agent同时跑着她的生活和生意,从个人助理Polly到课程运营Sage,每个Agent都有具体角色、工具和cron配置。这是目前最完整的OpenClaw实操手册。

凌晨6点,Claire Vo还没看手机,一个叫Polly的AI Agent已经读完了她的邮件、查看了日历、排好了她的一天。等她端着咖啡坐下,另一个Agent已经提醒了她丈夫今天是孩子学校的"精神日"。第三个AI正在起草一封销售邮件,会在潜在客户联系她们3分钟后送达收件箱。其中一个Agent甚至帮忙写了这一段——尽管剩下的字是她自己写的。

"两个月前,这些都不存在。"

如果你关注AI新闻,可能见过各种关于OpenClaw的帖子——有人用它跑生意、买汽车、策划AI起义。但你也可能见过恐怖故事:有人让它删除了整个Gmail收件箱,或者它把主人的日历完全搞乱过。

这篇文章的真正价值不是OpenClaw的功能清单,是Claire展示了一种具体的Agent团队架构——9个Agent不是9个copilot,是9个有明确职责、工具和cron的"数字员工"。分工、专职、有交接有协作,才是Agent从工具变成生产力的路径。

CLAUDE2026-04-01

Claude Code 架构全景图:512K行源码揭示的12层架构

Claude Code 源码反向工程完整披露:512,664行TypeScript,12层harness,3个未发布功能(KAIROS、Dream、BUDDY),揭示AI编程工具的真正壁垒在哪里。

每一代开发者工具都围绕一个看不见的架构赌注建立。Unix赌小而可组合的程序通过管道连接会胜过单体系统。Git赌分布式版本控制胜过中央服务器。Docker赌文件系统隔离胜过虚拟机。Claude Code的赌注现在可见了——从公开npm包的sourcemap文件恢复了512,664行TypeScript,分布在1,332个文件中。它的论点是:AI辅助编程的难题不是生成质量,而是执行可靠性。

Claude Code的核心是一个while(true)循环,位于query.ts。一个generator函数在每次API调用后yield控制权,检查响应,决定是否继续,然后再次循环。一切都是harness。 架构不是一个创新,而是12个机制的组合,每个机制处理不同的失败模式。

Layer 1-3解决基本问题:可靠地调用API、流式返回、重试、错误处理。 Layer 4-6解决工具问题:组装正确上下文、注册工具、安全解析命令。 Layer 7-9解决信任问题:沙盒执行、权限分类、对话过长时压缩上下文。 Layer…

Claude Code的架构最值得关注的是Layer 7-12——大多数竞品停在Layer 6,那里是"能跑工具"和"能持续可靠跑"的本质差别。KAIROS的"订阅"模式是比任何benchmark都更重要的产品愿景——用户不需要打开工具去工作,工具已经在工作了。

PODCAST2026-04-01

认真对待智识生活的 17 条 lessons — Dialectic Ep 42

Celine Nguyen 的 17 条 lessons:智识生活是天赋人权,创作从模仿开始,别等 syllabus 来救你,准备不是进步,完成才是。

Dialectic Ep 42 with Celine Nguyen

中文版

1. 智识生活是你的与生权利。阅读、写作和批判性思考不是学者或评论家的奢侈品,是生而为人的一部分。每个人都有权产生自己的世界观,而不只是继承一个。

第 9 条和第 15 条是最被低估的——大多数人在笔记系统和创作之间选了笔记系统,在完成和选项之间选了选项。智识生活的门槛从来不是能力,是"打开草稿开始工作"的那个动作。

PODCAST2026-04-01

Ryan Holiday访谈百位顶尖人物的20条 lessons

Ryan Holiday 访谈过上百位顶尖人物后整理的20条 lessons:恐慌规则、慢决策、不公平的词汇、紧急routine、两个神圣小时……每条都来自真实经历,不是书本知识。

Ryan Holiday 做播客(Daily Stoic)多年,累计过亿下载量,访谈过的人从奥运选手到好莱坞明星、从NFL总经理到畅销书作家。这20条 lessons 是他从数百小时的访谈里提炼出来的,每条都有具体的来源和场景。

1. 恐慌规则(Les Snead,洛杉矶公羊GM) 当一切混乱、战术失灵、耳机不工作时怎么办?"当你大脑恐慌时,回到恐慌规则。慢下来,回到恐慌规则。"这不只是球场上的事。生活的混乱里,我们都需要恐慌规则,否则就会做出情绪化的、短视的、伤害自己目标的决定。

2. 现在快还是以后快?(奥运山地车选手) 教练问她:"你想现在快,还是以后快?"意思是,你想赢这次训练,还是赢比赛?在《自律给你什么》里我说自律拯救我们,部分原因是自律把我们从自己手里拯救出来。问题不是你能不能起床工作——问题是你能不能持久。

第9条和第14条是精华——紧急routine和删除"不公平"这两个动作看似简单,但背后是斯多葛主义和认知行为疗法的共同核心:情绪不是事实,选择比情绪重要。

CLAUDE2026-04-01

大多数人的Claude使用率不到10%:10个被忽视的隐藏功能

Aria Westcott的完整指南:原生网页搜索、Sheet/Excel集成、Chrome浏览器Agent、Cowork桌面Agent、Projects记忆系统、Artifacts实时产出、语音与摄像头、MCP工具链——以及最被低估的一个场景。

截至2026年3月27日,Claude已经上线了比大多数人曾经尝试过更多的功能。大多数人还停留在往输入框里打字。

这单独一条就应该改变你的数据工作方式。

Claude直接集成进Google Sheets和Microsoft Excel。不是把数据复制粘贴到聊天框里——是在电子表格内部实时操作。

这篇文章和之前Zapier的AI Fluency框架可以对照——Zapier说的是组织里如何评估AI能力,这篇说的是个人如何在实际工作中调动这些能力。两个结合就是:知道有哪些功能(这篇)+ 知道在什么场景用什么功能(Zapier)。第8条Artifacts是最被低估的——会议中实时构建客户工具,意味着AI的输出可以直接变成交付物,而不只是建议。

PAPER2026-04-01

Claude Code 的七层记忆架构

Claude Code 源码反向工程完整披露:7层记忆系统如何协同,从毫秒级 token 裁剪到睡后后台的梦境整合,逐层防止成本逐级上升。

Claude Code 源码被公开后,有人对它做了完整的反向工程。它的记忆和上下文管理系统不是一个模块,是七层,每一层都比上一层更贵但更强,系统设计的基本逻辑是:让便宜的层拦截贵的层

Claude Code 标准上下文窗口是 200K token(加 [1m] 后缀可扩展到 1M)。一次编码会话轻松超出这个限制——几次文件读取、grep 结果、几个编辑周期,就没了。

Token 计数的标准函数是 tokenCountWithEstimation():以上一次 API 响应的 input_tokens 为基数,加上后续消息的粗估。粗估规则:普通文本每 token 4 字节,JSON 每 token 2 字节(JSON tokenize 密度更高),图片和文档一律固定 2000 token。

这七层架构本质上是把"上下文管理"拆成了成本梯度化的独立系统,每层有明确的失败模式和后备方案。工程上的亮点不是某个层设计得多精妙,而是整个系统的 failure hierarchy 非常清晰——每个层都知道自己可能失败,并且有明确的交接机制。这比很多生产系统的"一个 try-catch 包一切"要高明得多。

PAPER2026-04-01

Claude Code 的 200 行记忆悬崖

Claude Code 记忆系统有道硬限制:MEMORY.md 超过 200 行后静默截断,最旧的记忆直接消失,Claude 自己都不知道忘了什么。

Claude Code 的源码被公开后,有人直奔最有趣的部分——记忆系统本身。

Claude Code 把记忆存成明文 Markdown 文件,路径是 ~/.claude/projects/<项目名>/memory/。每个项目一个文件夹,每次对话结束后可写文件,文件在会话之间持久化。这就是整个持久化模型。

根目录有一个 MEMORY.md 索引文件。每次新会话开始时,Claude 读取这个索引,了解存在哪些记忆。正是这里埋着 Anthropic 从未公开的硬性限制。

Anthropic 给了一个正确但有天花板的设计——对于刚起步的项目,扁平 Markdown 加四类分类足够用。但"200 行静默截断"这个 failure mode 很危险:它不是报错,是慢性数据丢失,用户完全感知不到。Agent 记忆系统的工程难度不在于存,在于边界条件下的行为要可预期。mem0 的解法本质上是把记忆存算分离——用专用向量存储替代文件,做对了。

CLAUDE2026-04-01

Anthropic的Prompt配方:Claude Code源码里的28个系统Prompt拆解

Hesamation逆向Claude Code泄露源码,拆解Anthropic工程师如何构建Prompt:80个Prompt文件、28个系统Prompt节、10条核心Pattern,以及一份可直接复用的Meta-Prompt模板。

Claude Code里有约80个Prompt分布在代码库里,其中约28个是系统Prompt。这篇文章对泄露源码进行逆向工程,提取Anthropic构建Prompt的方法论,并附带一份可直接复用的Meta-Prompt模板。

Claude Code的API调用结构:

核心API调用在query.ts,负责组装系统Prompt、注册工具、处理消息流。

Prompt Engineering在Claude Code里不是一个章节,是一层工程。28个系统Prompt节不是28段文字,是28个独立维护、可组合、可测试的模块。每个模块都有明确的failure mode声明和边界定义——这是为什么Claude Code能在用户不盯着的情况下运行数小时不崩溃。写Prompt的本质不是写作,是系统工程。

CLAUDE2026-04-01

Claude Code源码阅读指南:5条路径带你从入口到精髓

Claude Code源码泄露后,neural_avb整理出最值得读的源码路径:5条专题阅读路线,从Prompt组装到长会话上下文压缩,每条路径5个核心文件,附最佳单文件起点推荐。

Claude Code源码泄露后,官方 sourcemap 里包含了完整 TypeScript 源码。neural_avb 花时间整理出了最值得读的源码路径——不是盲目翻目录,是5条有目标的阅读路线。

Claude Code 的主要源码组织:

起点:src/constants/prompts.tssrc/tools.tssrc/Tool.tssrc/query.tssrc/QueryEngine.ts

这份指南的价值在于它把512K行混乱的源码变成了有结构的路线图。选路径1+路径4配合阅读是最高效的组合——prompts.ts给行为模型,query.ts给执行模型,两者合一才能理解为什么Claude Code能在长时间会话里保持 coherence。

CLAUDE2026-04-01

Claude Code源码泄露完整复盘:Sourcemap是如何让安全公司泄密的

Chubby♨️的完整分析:Sourcemap=完整源码+Undercover Mode讽刺拉满+未发布功能路线图(KAIROS/ULTRAPLAN/BUDDY/Coordinator/Dream)+战略损失评估+Anthropic会怎么应对。

2026年3月31日,Claude Code的整个源码在npm上公开可下载。不是零日漏洞,不是心怀不满的员工,是.map文件——你打包工具生成的、用来调试堆栈跟踪的东西。

当Bun打包TypeScript项目时,默认生成sourcemap,包含sourcesContent字段,保存每个原始文件的所有源码:

Anthropic在Bun配置里忘了设置sourcemap: "none",或者忘了在.npmignore里排除*.mapnpm publish运行时,.map文件一起发了上去。

这篇文章和之前yq/tvytlx/claw-code的系列是同一个事件的不同切面——yq读的是功能层,tvytlx读的是系统层,这篇读的是安全+战略层。三个加在一起才是完整图景。Undercover Mode的讽刺是年度最佳信息安全冷笑话:防止泄露的代码,泄露了。

CLAUDE2026-04-01

Claude Skills完整上手指南:把团队工作流变成slash命令

Ruben Hassid的28页官方文档精读+实测:从Skill创建、上传到团队共享,附6个实战技巧和一个30分钟上手计划。

- Level 1:免费ChatGPT - Level 2:付费ChatGPT + Thinking - Level 3:付费ChatGPT + Opus + Thinking - Level 4:Claude Premium + Opus - Level 5:整个团队都在用Projects

现在是升级到Skills的时候了。

Skills是一套长上下文+指令,住在Claude内部。你只需要输入/命令(如 /brief 或 /linkedin),Skills就会激活。Skills可以被团队共享,可以从网上技能库下载。

Skill的本质是把团队的工作流变成可分发的指令集。"Skill处理流程,Voice文件处理语气"——这个双层设计解决了内容创作工具一直解决不了的问题:流程和风格是分开的变量,但大多数工具把它们混在一起。

CLAUDE2026-03-31

Claude Cowork 定时任务:把那些你重复了无数遍的日常写作交给 AI

Anthropic 在 Claude Cowork 里推出了 scheduled tasks。Nicolas Cole 的用法清单:7 个可以完全委托给 AI 的日常事务,从每周一早上总结 LinkedIn 表现到每周五下午检查客户联系间隔。

你写一次任务,设置每天或每周运行,然后走开。Agent 在你不在的时候处理。

因为你提问的位置太远了。

- "帮我做营销" - "自动化我的业务" - "让我更高效"

Nicolas Cole 一直是内容创作自动化的坚定推动者。这篇的框架很清晰:Zoom Out 是问题,scheduled tasks 是解法。但最值得记住的是那句"一个任务在描述还没ready的时候就handoff,给你的输出就是证明你还没思考完的证据"——这个判断对 human 和 AI 都适用。

AGENT2026-03-31

Agentic Workflows 入门:把 AI 变成你的执行层

AI 正在从「回答问题」进化到「替你执行」。这篇是 Agentic Workflow 的核心要素拆解:目标、推理引擎、工具、记忆体四件套,以及三层成熟度模型。

""

AI 领域正在发生一个微妙但强大的转变:我们不再只是「和 AI 对话」,而是开始「把任务委托给 AI」。这个转变,就是 Agentic Workflow 的本质。

大多数人对 AI 的使用方式仍然是:

CLAUDE2026-03-31

读完 Claude Code 源码后,我发现了 10 个大多数人都用错的地方

mal 读完 Claude Code 完整源码后发现:CLAUDE.md 每次查询都重新读取、5 个子 agent 几乎零额外成本、权限配置有 5 级级联、/compact 应该像游戏存档一样主动用。这些才是真正的高杠杆操作。

大多数人的用法:打开 Claude Code,打一个 prompt,等回复,再打下一个。

这就相当于买了辆法拉利,只在一档开。

读完整个源码(当然是我"读"的)之后,以下是真正的高杠杆用法。

这是目前看到的最实用的 Claude Code 源码解读。5 个 agent 成本 ≈ 1 个这个发现是硬核的工程事实,不是营销——prompt cache 是关键。权限级联和 /compact 策略是最被低估的两个功能点。

GITHUB2026-03-31

Claude Code 源码泄露:版本 2.1.88 完整结构解析

GitHub 出现 Claude Code v2.1.88 完整还原源码,通过提取 npm 包中的 source map 实现。4756 个文件、40+ 内置命令、12 个内置 Skill,Coordinator 多 Agent 协调模式首次完整曝光。

GitHub 出现了一份 Claude Code v2.1.88 的完整还原源码仓库——通过提取 @anthropic-ai/claude-code npm 包中附带的 cli.js.map,还原出 4756 个文件(含 1884 个 .ts/.tsx 源文件)。Stars 一天内破 500,Forks 892。

这个仓库不是 Anthropic 官方泄露的代码,而是利用了 npm 发布包中的 source map(sourcesContent 字段)还原出来的。Anthropic 在发布时附带了完整的调试 map 文件,还算常见做法。

仓库本身已标注"仅供研究使用"。

这份源码最有价值的地方不是某个具体功能,而是展示了 Claude Code 的设计哲学——以 feature flag 为核心的平台化架构。Coordinator 模式、KAIROS、Skill Generator 这些功能都已经是生产级代码,只是通过 flag 控制发布节奏。Anthropic 显然在下一盘很大的棋。

CLAUDE2026-03-31

Claude Engineer v2.60:让 code review 从可选项变成必选项

Claude Engineer 发布 v2.60,核心主题:review 全流程强制化 + 假阳性削减 49%。通过 6 级置信度评分、意图验证、PR 上下文对比,把 review 从噪音变成真正的质量门禁。

Compound Engineering 更新,v2.60.0 今日发布。主题是端到端流程收紧:review 不再可选,plan 在实施前捕获更多漏洞,日常使用摩擦持续下降。

第一步:headless mode。 其他 skills 可以编程方式调用 review,不需要交互式提示符,也不需要 git 流程。这解锁了第二步:让 code review 变成整个流水线的必选关卡。

ce:work、ce:brainstorm、ce:plan 现在全部强制执行 review 作为不可绕过的 checkpoint,不再是没人触发的可选项。ce:work 默认展示完整 review,只有在给出充分理由时才能降级到有限 review。

Trevin 的更新节奏很有意思——他不是在堆功能,是在打磨核心循环。Review 的强制化 + 降噪是正确顺序,先让人用起来,再优化体验。49% 假阳性削减和意图验证是两个硬指标,不是营销话术。

AGENT2026-03-31

Google Cloud:如何设计同时被 AI Agent 和人类调用的 CLI

CLI 是 Agent 调用工具的主要接口,但大多数 CLI 为人类设计,不适合自动化。Google Cloud 发布了一份实战设计规范,核心是:解耦数据与呈现,人类得 TUI,Agent 得 JSON。

2026 年,每一条 CLI 都会被某个 Agent 在某个时刻调用。大多数 CLI 还没准备好。

交互式提示符、彩色输出、终端 UI——这些人类觉得理所当然的设计,遇上自动化 Agent 就会全部崩溃。但如果为了 Agent 去掉这些,又会让人类的使用体验变差。

Google Cloud 的解法是:不需要在两个受众之间做选择。一套 CLI,同时服务两者。

这是 Google Cloud 技术团队发的实操规范,不是那种泛泛而谈的"CLI 最佳实践"。核心贡献是把 --json--no-tui 作为一等公民而不是事后补救。对照这份规范,大多数开源 CLI 连基础线都没达到——特别是出错不给 Hint、退出码随意这两点。

GITHUB2026-03-31

我的 tmux 工作流:一个项目一个 session,零摩擦

Felipe Coury 的 tmux 实战配置:5 个核心命令(tm/tp/tv/tn/zm)、Ctrl-a 前缀重映射、远程 session 管理、worktree 集成,以及那个让他特别满意的 scrollback 清除技巧。

每天都在用 tmux,时间久了就积累了一套让 session 管理变得几乎零摩擦的 shell 辅助函数和快捷键。本地机器和远程机器都能用。

核心理念很简单:每个项目一个 tmux session,目录名就是 session 名。cd 进 code/myapp,输入 tm,你就在一个叫 myapp 的 session 里了。点号自动变成下划线(my.projectmy_project),避免 tmux 报错。

全部遵循同一个模式:session 存在就 attach,不存在就创建。

这是一篇实用至上的 developer tooling 帖,没有新概念但执行得很干净。几个值得借鉴的地方:1) 目录→session 名的自动化映射消除了命名摩擦;2) scrollback 处理逻辑(检测进程类型决定发送 Ctrl-l 还是清屏)是少数人会想到但又特别影响体验的细节;3) worktree + tmux session 联动解决的是真实痛点。

AGENT2026-03-31

AI能力过剩时代,context才是真正的瓶颈

Box CEO Aaron Levie:AI能力在疯涨,但企业落地Agent的核心瓶颈是context——数据碎片、权限迷宫、技术栈快速迭代,三座大山挡在最后一步

""

William Gibson 说:未来已来,只是分布不均。

技术圈的人对 AI Agent 现在能做什么感受很深:编程 Agent 能处理长时间任务、接管整个开发项目,团队直接说产品现在全部由 Agent 写了。但跟技术圈外的人聊,甚至跟圈内非AI专项的人聊,会发现我们其实还早得很——AI 经常只是个能快速回答问题、帮忙查资料的助手,大规模工作产出和自动化还在婴儿期。

AGENT2026-03-31

Cheng Lou发布pretext:纯TS文本测量,绕过DOM reflow

Cheng Lou历时地狱级开发完成pretext——纯TypeScript文本测量与布局库,绕过DOM测量和reflow,用浏览器自有字体引擎做ground truth,解锁AI驱动的精确UI验证

""

DOM 测量(getBoundingClientRect、offsetHeight 等)是浏览器里最昂贵的操作之一——每次调用都可能触发强制重排(reflow),在动画、虚拟列表、动态内容加载等场景下是性能杀手。

而当 AI 开始写代码之后,这个问题变得更尖锐:AI 生成的按钮 label 会不会溢出到下一行?动态文字加载时 scroll 位置怎么 re-anchor?虚拟列表里的元素高度在没有真实渲染之前怎么估算?

CLAUDE2026-03-30

17 个 Claude Skills,$312/天:把 AI 当员工而不是玩具

Aleiah Lock 实记录:17 个真正有人付费的 Claude Skills,从冷邮件个性化到 CRM 清理,每个月稳定产出 $10K。核心逻辑是——没人付钱买 AI,他们付钱买被解决的痛苦。

$312/天 → $10K/月,这不是标题党,是作者 Aleiah Lock 在 X 上发的长文核心数据。她的结论也很直接:大多数人用 Claude 的方式就错了——当搜索引擎用,而不是当员工用。

文中最有价值的是这 17 个 Skills 的清单,全部来自真实付费订单:

1. Cold Email Personalization at Scale — 不是写邮件,是个性化。输入客户列表 + 公司网站 + 产品描述,Claude 输出第一行个性化 + 一个痛点 + 一个可信钩子。按线索收费,不是按字数。

这篇文章最有价值的地方是那 17 个 Skills 的清单——不是概念验证,是真实发生过订单的。但作者的总结其实更重要:supply 会随着 AI 工具普及而增加,最后竞争的还是 taste 和定位。大多数人读到这里会想「那我也可以做」,而不是去想「我的 taste 在哪」。

CLAUDE2026-03-30

AI 变现完整攻略:5 个可立即收费的服务 + 定价框架

Khairallah AL-Awady 的 Claude Skills 变现 playbook:AI Audit / 实施 / Prompt 库 / 培训 / 月费顾问,定价从 $500 到 $5000+,附 12 个月进阶路线图。

现在 AI 领域有两类人。第一类花了好几个月学 AI,看完所有教程,收藏完所有资源清单,零美元变现。第二类花了几周学基础,选了一个真实问题,建了能解决它的东西,然后开始收费。

这不是知识的差距。这是把 AI 当学科研究 vs 把 AI 当技能卖的根本差异。

Khairallah AL-Awady 在 X 上发的这篇长文,是一个完整的实战 playbook,没有理论,只有具体服务和具体定价。

这篇的核心信息是——AI 变现的门槛比你想的低很多。Khairallah 的版本非常务实,提供了 5 种服务、具体定价、和找客户的 5 种路径。如果你是 Agent 工程师或 AI 开发者,这些服务的交付对你来说技术难度不高,真正的门槛是敢不敢报价。市场确实很大,供给确实少,但大多数人在等"准备好"——而 ready 永远不来。

AGENT2026-03-30

毫不费力地完成任何事:Lighten, Level, Lean 三步框架

conduct|r 深度长文:从 Csikszentmihalyi 的心流研究到 Kobe Bryant 的 stillness,从 Lao Tzu 的 Wu Wei 到具体三步操作框架。核心洞察——最难的不是努力,是学会在正确的时刻停止用力。

水不会猛撞石头。它找到缝隙,绕过去,长期重塑整个地形,全程不出声。 Lao Tzu 两千五百年前就懂了这件事:无为。Action without force。

但大多数人对"不费力"的第一反应是:这听起来像瑜伽馆里的励志海报。

Csikszentmihalyi 花了 25 年、超过 100,000 个实时体验样本研究这个问题。他的发现应该真正让你不安:你的心智的默认状态不是平静,是混沌

这篇文章和 AI 生产力文章的共同点比看起来多。Dami-Defi 自动化 80% 的工作之后找回了 20% 的战略时间;conduct|r 这篇在说同样的事——当你停止用焦虑和过度思考污染每一个动作,你的能力自然会流向最重要的事。Wu Wei 的现代翻译也许就是:让 AI 做事,让人做判断,把认知带宽留给真正需要人类智慧的部分。

CLAUDE2026-03-30

Anthropic:长时 Agent 工作流的 Harness 设计实战

Anthropic 工程师复盘:用 GAN 风格三 Agent 架构解决自主编码的 context anxiety 和 self-evaluation 偏差,6 小时生成完整 App,新模型发布后需重新压测 harness。

如果你想让 Agent 在你睡觉时持续完成复杂任务,harness 设计的质量直接决定成败。Anthropic 工程师 Prithvi Rajasekaran 在三月份发表的 [Harness design for long-running application development](https://www.anthropic.com/engineering/harness-design-long-running-apps) 是一篇难得的实战复盘,完整记录了他们如何一步步把 Claude 从能跑推到能交付。

在进入架构设计之前,文章先指出了长时自主 Agent 任务中最普遍的两个失败模式:

Context anxiety:模型在接近上下文窗口上限时,会倾向于提前收尾,即使任务远未完成。Sonnet 4.5 这个问题尤为明显。

这篇最有价值的地方不是三 Agent 架构本身,而是每次新模型发布都要重新做一次 harness 压测这个工作方法论——大多数团队会停在能用就行,而他们选择主动裁剪不再需要的 scaffolding,这才是真正工程化的做法。

CLAUDE2026-03-30

我用 Claude 自动化了 80% 的工作:完整设置方案

Dami-Defi 实测:先用一周审计每天的工作(任务/时间/需要多少原创思考),发现 80% 是有规律的模式任务。然后用 Claude Projects + 自定义指令 + Prompt 链,45 小时/周降到 25 小时/周。

大多数用 AI 的人只是偶尔写写邮件或头脑风暴。有些人走得更远。

Dami-Defi 在 X 上发了一篇长文,记录他如何在几个月内用 Claude 系统性地自动化了大约 80% 的日常工作——没有定制软件,没有工程师团队,只有他、一个清晰的流程、和重新思考时间分配的意愿。

动手之前,他花了一整周记录自己做的所有事:每封邮件、每份报告、每个会议跟进、每条 Slack 消息。用三列表格:任务、做这件事花了多长时间、它实际上需要多少原创思考。

这篇最有价值的不是技术方案,而是他的失败教训——"太早自动化"和"过度信任输出"这两个坑几乎每个人都会踩。真正值得注意的是他说的"最终决策和关系对话保留给人":Claude 能替代执行,但不能替代判断。在 80% 的工作被自动化之后,人的价值反而更清晰地集中在 20% 的战略和创意上。核心原则就是——让人做判断,AI 做事,这是目前最成熟的 AI 工作流设计原则。

AGENT2026-03-29

60个真正值得使用的AI工具清单(2026)

Khairallah 花100+小时亲测整理,60个真正有用的AI工具,按9类组织,每项带真实评测笔记,706K浏览

Khairallah 花 100+ 小时实测 AI 工具,整理出 60 个真正有用的,按 9 类组织,每项带诚实评测。这不是营销 list,是实测报告。

真正能让 AI 替你写代码、review 代码、管理代码的工具,不只是 demo 里好看的那种。

01. Claude Code: Anthropic 的命令行编程 Agent。读文件、写代码、跑测试,直接操作本地环境。想对 AI 编程有完整控制权的首选。

这份 list 的价值不在于60 个工具,而在于 Khairallah 的评测视角——每条都是他实际用过分辨出hype和genuinely useful的判断。对想系统建立 AI 工作流的读者,这个分类框架比工具本身更有参考价值。

AGENT2026-03-29

普通人构建AI专家技能的实战Pipeline

NotebookLM做知识提取,结构化评估驱动迭代,普通人也能构建game theory和逻辑论证类AI技能

本月需要一位博弈论专家和一位形式逻辑专家来构建两个AI技能。作者没有这两个领域的深度知识,而是找到了一个出乎意料但效果极好的方案:两份PDF + NotebookLM。

前四步是纯机械操作。将源材料加载到NotebookLM(Schelling的《冲突的策略》用于构建焦点技能,Weston的《论证规则》用于论证技能),创建一个可查询的专业知识版本。然后穷举式查询:比如论证技能,意味着从9个部分中提取全部45条规则、19个命名谬误及其识别模式、6种演绎形式,以及需要示例的规则的工作示例。

用NotebookLM CLI将查询能力接入编码环境。作者使用了pi(pi.dev),一个精简的编程Agent,采用不同的架构思路:极简核心、无MCP、无技能市场,让Agent根据需求自行构建工具。

这个Pipeline的核心洞察是:构建有用AI技能的瓶颈不是编码或提示词技巧,而是领域专业知识。NotebookLM解决没有专家的问题,结构化评估解决不知道什么时候错了的问题——两个问题都解决,普通人也能构建出可信赖的专家级技能。

PODCAST2026-03-29

A Motorcycle for the Mind — Naval Podcast

Naval 和 Nivi 谈 AI 与未来工作:vibe coding 接管产品管理,训练模型接管编程,应用海啸即将到来

Nivi: Hey, this is Nivi. You're listening to the Naval Podcast. For the first time in recorded history, we are not at the same location. I am actually walking around town and Naval might be doing the same, so there might be some ambient noise, but we are going to try hard to remove that with AI and some good audio engineering.

Naval: Podcast recording is so stilted, because it's like you have to sit down and you schedule something, and you have this giant mic…

Naval 是真正在做的人,所以他说的话有重量。他说 vibe coding 是新产品管理,是因为他正在用 Claude Code 构建 Impossible——不是在推特上点评 AI。这期最被低估的观点是evaluation 是新瓶颈:生成代码容易,验证代码好不好才是真正难的事情,这解释了为什么 AI coding tools 一大堆,真正靠谱的代码审查流程却几乎没有。而AI 返回决策而不是链接这个判断,已经开始渗透到每一个 SaaS 产品的对话式界面设计里了。

PAPER2026-03-28

Agentic Memory:智能体的记忆系统设计

LLM 的 amnesia 是 agent 落地的最大瓶颈之一。本文拆解四种记忆类型——上下文、外部存储、情景记忆、参数记忆——及其协同机制。

大多数 LLM 每开启一个新对话都是从零开始——不知道你是谁、不记得讨论过什么、五分钟前在另一个窗口说的事也忘得干干净净。对简单聊天机器人这无所谓,但对需要持续执行任务、自主决策、越用越聪明的 Agent 来说,这种失忆是致命的。

真正的智能不只是响应好,还在于记得住、学得会、能复用。记忆把一个无状态的系统变成了能持续进化的实体。

Agentic Memory 不是单一组件,而是三个不同维度同时工作:

真正落地的 Agent 系统,记忆层才是护城河,不是模型本身。这篇文章把记忆分层讲清楚了,但实现部分用的是 ChromaDB——本地玩具可以,上生产等着被向量检索的延迟坑死。

PAPER2026-03-28

记忆系统大逃杀:Hindsight 91.4% 登顶,架构正在打败模型尺寸

Claude Opus 4.6 编译了一份 2024-2026 年 AI 记忆系统全景研究。核心结论:20B 模型 + 多策略检索,碾压全上下文 GPT-4o。架构比尺寸重要,这件事终于有数字了。

最冲击的一个数字:

Hindsight,20B 参数,83.6% LongMemEval。全上下文 GPT-4o,60.2%。

差了 23 个点。

Hindsight 83.6% vs GPT-4o 60.2% 是标题数字,但真正的故事是经济性——four-parallel retrieval + cross-encoder 跑大规模 corpus 很贵。成本-质量-延迟的不可能三角,目前没人解开。

CLAUDE2026-03-28

Claude Cowork 17 条实践:2.2M 播放之后,大家才发现用错了

Nav Toor 用 400 次会话、7 周测试,整理出 17 条让 Claude Cowork 能力拉开 100 倍差距的具体做法。不是提示词技巧,是 Setup。和模型对话之前,你得先把上下文结构搭好。

400 次会话,7 周,2.2M 播放。

Nav Toor 3 月 2 日发的这篇 Claude Cowork 实践总结,到现在还在 Twitter 上被疯狂转帖。17 条做法,分五部分:上下文架构、任务设计、自动化调度、插件技能、安全与效率。

大多数用户会死在第一条:文件夹里塞满文件,指望 Claude 自己搞清楚该读什么。

'30 分钟 setup'的前提是你已经理解 context engineering。对大多数用户,真正的时间成本在于想清楚 context 文件里该写什么——这才是 Nav Toor 没展开的硬问题。

CLAUDE2026-03-28

Context Engineering:真正的瓶颈从来不是模型

GitClear 分析 2.11 亿行代码发现 AI 工具让代码量增 10% 但质量崩 60%。真正的问题不是模型不够聪明,是没人设计模型看到什么。Anthropic 内部研究也确认:agent drift 是 context 失败,不是 reasoning 失败。

Prompt engineering 教你问更好的问题。

Context engineering 教你建更好的环境。

一个精心设计的 prompt,放在一个破碎的 context 里,输出的还是垃圾。一个平庸的 prompt,放在一个丰富、结构化的 context 里,每次都能产出有用的结果。

Context engineering 不是一个新概念,但这篇文章给了一个完整框架。2.11 亿行代码的质量崩溃数字是核心论据——"代码量增 10%,质量崩 60%" 比任何论点都有说服力。值得读完整版。