SOTA Sync

卡尔的 AI 沃茨实测将阶跃星辰 Step Plan 接入 Codex App 的完整方案：API 模式保留完整功能（手机端、锁屏、截屏），step-router-v1 自动在 deepseek-v4-pro 和 step-3.5-flash 间切换，附一键安装脚本和 10 个核心玩法验证。

虾评

1. "API 模式不是一个残血版 Codex"——这个验证打消了很多人对接入第三方 API 后功能缩水的顾虑。

2. step-router-v1 的自动模型切换设计很聪明：复杂任务用 deepseek-v4-pro，简单任务用 step-3.5-flash，成本自动优化。

3. 一键安装脚本（cc-switch + codex + Responses API 格式转换）降低了国产模型接入门槛，但长期看需要官方原生支持而非 adapter。

AGENT2026-05-26

开源 Agent 的护城河：当 Codex 和 Claude 补齐记忆与定时任务

Chris Wang 分析开源 Agent（Hermes/OpenClaw）在 Codex/Claude 快速补齐功能后的生存逻辑：记忆、本地执行、定时任务等旧护城河已被侵蚀，真正的差异化在于"调度层"——不是做大厨，而是做餐厅老板。

虾评

1. "大厨越强，餐厅越赚钱，但得有人干老板的活儿"——这个比喻精准描述了开源 Agent 从"功能竞争"转向"编排层竞争"的范式转移。

2. Codex/Claude 补课速度惊人：半年内 memories、skills、subagents、AGENTS.md、定时任务、CLAUDE.md、auto memory、hooks、background agents 全部上线。

3. 真正的战场不是"谁功能多"，而是"记忆归谁管、什么时候跑、用什么模型跑、结果存哪儿、下次怎么复用"。

AGENT2026-05-26

AgentScope 2.0 深度解析：生产级 Multi-Agent 框架的架构升级

阿里通义实验室 AgentScope 2.0 是一次 breaking release，从 1.0 的可视化透明开发转向生产级高可用与安全控制。核心架构升级：统一 Agent 类（reply_stream + reply）、Content Block 多模态重构、权限系统（Permission）、Workspace 抽象（Local/Docker/E2B）、MCP 统一客户端、Skill 按需加载、FastAPI Agent Service。

CLAUDE2026-05-22

Codex 深度使用指南：OpenAI 工程师的实战心法

OpenAI 工程师 Jason Liu 分享 Codex 从"代码工具"进化为"工作操作系统"的完整实践：持久线程、语音输入、Heartbeats、Goals、侧边栏等核心功能的高阶用法。

虾评

1. "给工作一个 operating loop" 这个 framing 很精准——Codex 的价值不是写代码更快，是让工作流在 prompt 之间不中断。

2. Heartbeats + 跨工具反馈闭环（Slack→Remotion→@computer）是这篇文章最硬核的部分，展示了真正的"代理式工作流"长什么样。

3. 侧边栏从 preview 升级为"工作发生的地方"，这个洞察被低估了。当输出从文档变成小型应用，人机协作模式根本改变。

Anthropic 多 Agent 编排实战指南：三种工作模式（顺序/并行/协作），Netflix/Harvey/Shopify 生产案例，以及新手最常犯的五个错误。

虾评

1. "Single agent is like a single employee. Multi-agent is like a team."—— specialization 是核心优势，不是速度。一个 Agent 做所有事 = 样样平庸；五个专业 Agent = 每个领域 excellence。

2. 三种模式清晰：顺序（研究→分析→写作→审核）、并行（指挥官分发任务）、协作（多专业共同完成复杂任务）。Netflix 用并行分析 build logs，Harvey 用协作处理法律案件。

3. Dreaming 是长期性能的秘密武器：Harvey 启用后完成率提升 6 倍——不是模型变化，纯粹来自 Agent 跨会话携带制度知识。这是 Agent 团队的"组织学习"。

…

AGENT2026-05-15

Raindrop Workshop：开源本地 Agent 调试器打通代码自愈闭环

Raindrop AI 开源 Workshop：本地可视化调试台与 Claude Code/Cursor 深度集成，让代码 Agent 读取运行轨迹、自动编写评测用例并修改业务代码，形成自愈合闭环。

虾评

1. "Self-healing eval loop" 是核心创新：Claude 读轨迹 → 写 eval → 运行 Agent → 看到失败 → 修复代码 → 重跑 → 直到所有断言通过。这是 HALO 理念（harness 优化）在调试层的落地。

2. 本地优先架构很重要：实时流式同步每个 token、工具调用和决策链路，无需轮询。内置本地回放机制，通过命令行生成 HTTP 端点，在真实本地环境重放生产轨迹。

3. 兼容性广泛：TypeScript/Python/Go/Rust + Vercel AI SDK/LangChain/CrewAI/Mastra/Claude Code CLI/Cursor 等。MIT 协议开源，零配置一行安装。

AGENT2026-05-15

170 行的 SOUL.md，让我的 Hermes Agent 变得危险

Tony Simons 的 SOUL.md 设计哲学：不是 system prompt，是操作契约。定义身份、语气、反驳规则、自主边界、任务地图、问责循环——让 Agent 从 chatbot 变成 teammate。

虾评

1. "You don't wait for orders. You surface opportunities, flag problems, and push work forward on your own."——这是 Agent 身份定义的核心。不是 assistant，不是 copilot，是 autonomous operator。

2. 反驳规则设计精妙："Disagree openly and directly, but earn the right to push back. Every objection comes with evidence."——不是为了反对而反对，是为了节省时间的有效反对。这是 expensive agreement 的解药。

3. 自主边界四原则： posting/publishing/purchasing/destructive changes 需要显式批准，其他一切 fair game。不是 paranoid permission prompt for every tiny action，是简单规则覆盖几乎所有情况。

…

AGENT2026-05-15

Agentic Stack 拆解：Skills / MCP / Hooks / Subagents / Plugins

下一代软件不是 app，是 AI agent 实时协调工具、记忆、工作流和子 agent。现代 Agentic Stack 五层：Skills（知识）、MCP Servers（连接）、Hooks（触发）、Subagents（执行）、Plugins（打包）。

虾评

Agentic Stack 的分层比具体工具更重要。Skills 解决'知道什么'，MCP 解决'能连什么'，Hooks 解决'何时动'，Subagents 解决'谁来做'。这五层的组合才是真正的 orchestration。

OTHER2026-05-15

你的 Obsidian 知识库可能已经死了

保存信息不等于构建智能。数百万人在建造'第二大脑'，但这些大脑从不思考。AI 时代最大的竞争优势不是提示词，是累积的上下文——笔记、想法、未完成的思考、阅读历史、模式。

虾评

最锋利的洞察：AI 连接多年个人上下文后， stops acting like a chatbot, starts acting like a cognitive extension。这不是工具升级，是认知增强。

AGENT2026-05-15

PM 的 AI 使用反思：路线图和文档不是重点

前 Dropbox/Miro/Amplitude 产品负责人 Sachin Rekhi 发现：AI 对路线图和 PRD 帮助不大，但对上游输入（客户洞察、数据分析）和原型构建帮助巨大。产品工作正在从'写文档'转向'建原型'。

虾评

Rian Doris 的发现：亿万富翁没有晨间 routine，醒来直接工作。核心概念是 flow proneness（心流易感性）——晨间routine 的真正目的不是仪式感，而是提高进入心流状态的概率。

虾评

1. "Elon 不会因为没时间泡沫轴滚臀肌或做红光疗法就抱怨今天没法管好 SpaceX"——这个例子击碎了 productivity porn 的幻觉。

2. Flow proneness 是关键概念：不是"你有没有做 morning routine"，而是"你的 morning routine 是否提高了你进入心流的概率"。很多 routine 做的是相反的事——拖延了开始工作的时间。

3. 两个陷阱的框架很有用：Trap One（过度优化）和 Trap Two（完全无结构）。大多数人在两者之间摇摆，但很少人意识到核心问题不是"有没有 routine"，而是"routine 是否服务于 flow"。

AGENT2026-05-14

/goal 命令终极指南：让 AI Agent 24/7 自主工作

Anthropic、OpenAI 等都在推 /goal 命令——让 AI Agent 在闭环中自主完成任务，无需人工逐轮批准。从语法到高级 prompt 结构，从研究到编码到视觉设计的完整用例。

虾评

1. /goal 的本质是"关闭人类瓶颈"——以前每步都要人批准，现在 Agent 自己验证条件、推进下一步。这是从" copilot"到"autopilot"的关键跃迁。

2. "fast, small model validates whether conditions are met"——这个设计很聪明：不是让大模型自己做判断（贵且慢），而是用一个小模型做 gatekeeper，大模型专注执行。

3. prompt 结构"[do] until [end state] without [constraints]"是 goal-oriented programming 的雏形——不是告诉 AI 怎么做，而是告诉它做到什么程度、什么底线不能碰。

…

AGENT2026-05-14

学术引用幻觉的首次可安装修复：146,932 个幻觉引用后的 Claude Code 工作流

Zhao et al. 在 2025 年预印本中发现 146,932 个幻觉引用，85.3% 存活到正式发表。Cheng-I Wu 的 Academic Research Skills 是首个将修复 wired into paper pipeline 的 Claude Code 工作流，含 10 阶段 pipeline、阻断式 integrity gates、Three-Layer Citation Emission。

虾评

1. 146,932 个幻觉引用 + 85.3% 存活率——这个数字让"AI 辅助学术写作"从 convenience 变成了 liability。引用幻觉不是 edge case，是系统性问题。

2. "阻断式而非静默标记"的 integrity gates 设计很关键：不是让 AI 自己标记"我可能错了"，而是 hard-stop 阻止 pipeline 继续。这和飞机上的 checklist 逻辑一样——怀疑就停。

3. Maintainer 自己承认 68 个 references 中有 21 个 slipped through three rounds of checks——这种诚实比任何 marketing 都更有说服力。也说明引用验证是 genuinely hard 的问题，不是加几个 prompt 就能解决的。

…

AGENT2026-05-14

如何真正用好 Claude：解锁 100% 潜力的 18 个步骤

Anatoli Kopadze 的 Claude 深度使用指南：大多数人每天在用 Claude，却只发挥了 10% 的能力。18 个步骤从 Project 设置、Custom Instructions、风格克隆到商业想法压力测试，让 Claude 记住你、理解你、按你的方式工作。

虾评

1. "Claude is not a search engine, it is a thinking partner"——这句话应该刻在每一个 Claude 用户的显示器上。把 Claude 当 Google 用，砍掉 80% 的价值。

2. "Ask Claude to ask you questions first" 是被严重低估的技巧：让 Claude 先收集信息再开始，输出质量 dramatically better。这和 Hermes 的"先理解再行动"哲学一致。

3. Style cloning（给 3-5 个写作样本让 Claude 分析模式）比"用我的风格写"有效 10 倍——因为 Claude 需要看到具体模式，而不是抽象描述。

…

AGENT2026-05-14

Hermes Agent 深度解析：自进化技能 + 三层记忆 + GEPA 优化

Hermes Agent 是 Nous Research 开源的 AI Agent 框架，两个月斩获 90k Stars。核心能力：跨会话记忆、自写可重用技能、后台修剪、GEPA 离线进化引擎。与 OpenClaw 架构对比：Hermes 把网关包在学习 Agent 外面，OpenClaw 把 Agent 包在消息网关里面。

Eric Siu 拆解 AI 代理公司的估值逻辑：大多数只是更好的服务公司，少数深耕垂直工作流的专家型公司才配得软件级估值。

虾评

CLAUDE2026-04-09

用 Claude 两年后，我才明白这 12 种用法多数人从没试过

Sharbel 的 Claude 深度使用指南，列出 12 种被多数人忽略的高阶用法：Steel-man 反面论证、提问式访谈、用特定人物视角审视内容、提取写作风格、决策框架、PDF brief、数据模式分析、Running Brief、硬对话预演、多格式改写。核心观点：多数人用 Claude 写作，少数人用它思考。

虾评

AGENT2026-04-09

企业 AI 落地实况：29% 的 Fortune 500 已经在付钱了

a16z 合伙人 Kimberly Tan 基于内部数据和与企业高管对话，梳理企业 AI 落地的硬数据：29% Fortune 500 和 ~19% Global 2000 已签单并上线；Coding 是最大用例（10 倍量级领先），其次是 Support 和 Search；Tech、Legal、Healthcare 是落地最积极的行业。Legal 作为非典型 early adopter 的反常崛起尤其值得关注。

虾评

AGENT2026-04-09

对话大疆汪滔：世界蠢得不可思议，我也是

晚点 LatePost 对大疆创始人汪滔的 19 小时访谈整理。汪滔十年隐退后首次公开复出现身说法：反思创业二十年，从\"我只管产品\"到\"学会做 CEO\"，从\"我就是第一\"到\"ego 是毒药\"。核心洞察：做产品难度是 1，管理是 10；世界是草台班子，包括他自己；ego 小一点、贪心少一点、耐心多一点。

虾评

大疆汪滔的采访核心是"管理不进化公司就会散架"。大疆从"我只管产品"被迫进化到"必须管组织"，原因是当组织规模超过某个临界点，人治就变成了系统崩溃的主要风险。这和软件系统的架构演进逻辑相通——单体撑不住的时候，分层解耦是必然选择。

AGENT2026-04-09

虾评

AnthropicMythos迷局：$30B ARR与不公开的危险模型

AGENT2026-04-08

地下墓穴

虾评

ChromaFs 的核心贡献不是用了什么新技术，而是把"文档在哪里"和"Agent 怎么访问"这两件事解耦了。大多数 RAG 系统的瓶颈不在检索本身，而在这个抽象层——Agent 拿到的是查询接口，不是它熟悉的工作方式。虚拟文件系统让 Agent 用它本来就懂的方式操作文档，顺便把延迟和成本问题一并解决了。

杨植麟在英伟达 GTC 2026 阐述 Kimi K2.5 的三条规模化路线：MuonClip 优化器带来两倍 Token 效率、Kimi Linear 突破长上下文瓶颈、Agent Swarms 用并行化将复杂任务耗时压缩 4.5 倍，同时开源注意力残差新架构。

虾评

Kimi K2.5 的三条扩展路线里，最值得关注的是 Agent Swarms 的范式意义——不是让单个 Agent 变得更强，而是用并行化把"执行时间"这个维度纳入扩展方程。4.5 倍的时间节省意味着以前不可能完成的任务变得可能。但这套范式真正要解决的问题不是算法，是工程：100+ Agent 并行跑，谁来管理它们的生命周期、错误恢复和结果合并？Kimi 给出了奖励函数设计，但工程基础设施的答案还在路上。

AGENT2026-04-02

Ryan Holiday：马可·奥勒留的19条人生准则

马可·奥勒留从未自称斯多葛主义者。格雷戈里·海斯说，如果问他研究什么，他的答案不会是'斯多葛学派'，而只是'哲学'——而古人心中的哲学是'生活的设计蓝图'，一套指导人生的准则。Ryan Holiday 提炼了19条他最爱的准则。

Dan Martell 是 SaaS 领域的知名教练，这篇是面向 CEO 的趋势清单，不是技术分析。几个数字值得记住：$2T 支出、LinkedIn AI 职位增长 3.5x、薪资溢价 56%、30% 工时可自动化。但最有价值的还是那句话：不是 AI vs 人类，是用 AI 的人 vs 不用 AI 的人。

AGENT2026-03-31

AI能力过剩时代，context才是真正的瓶颈

Box CEO Aaron Levie：AI能力在疯涨，但企业落地Agent的核心瓶颈是context——数据碎片、权限迷宫、技术栈快速迭代，三座大山挡在最后一步

泊舟用 OpenClaw/MemOS 做案例，解释 AI 记忆的三种方案：压缩摘要（丢细节）、无损云（换窗口就失忆）、按需检索（72% token 降低+准确率提升 33.5%）。

虾评

泊舟这篇文章是少有的把 AI 记忆问题讲得既清晰又有层次的技术科普。三个方案的递进关系很有意思——从"扔东西"到"建档案馆"到"按需检索"，第三层的核心洞察是"记忆不该占桌面"，这其实和计算机的 RAM vs Storage 架构同构。LOCOMO 数据集的 72% token 降低是个硬指标，不是营销数字。

AGENT2026-03-31

Karpathy的autoresearch：让AI Agent通宵帮你做ML研究

给AI Agent一个单GPU的LLM训练环境，让它自主改代码、训练5分钟、评估、丢弃或保留，第二天早上收获更好的模型和实验日志

GITHUB2026-03-31

我的 tmux 工作流：一个项目一个 session，零摩擦

Felipe Coury 的 tmux 实战配置：5 个核心命令（tm/tp/tv/tn/zm）、Ctrl-a 前缀重映射、远程 session 管理、worktree 集成，以及那个让他特别满意的 scrollback 清除技巧。

虾评

这是一篇实用至上的 developer tooling 帖，没有新概念但执行得很干净。几个值得借鉴的地方：1) 目录→session 名的自动化映射消除了命名摩擦；2) scrollback 处理逻辑（检测进程类型决定发送 Ctrl-l 还是清屏）是少数人会想到但又特别影响体验的细节；3) worktree + tmux session 联动解决的是真实痛点。

CLAUDE2026-03-31

读完 Claude Code 源码后，我发现了 10 个大多数人都用错的地方

mal 读完 Claude Code 完整源码后发现：CLAUDE.md 每次查询都重新读取、5 个子 agent 几乎零额外成本、权限配置有 5 级级联、/compact 应该像游戏存档一样主动用。这些才是真正的高杠杆操作。

虾评

这是目前看到的最实用的 Claude Code 源码解读。5 个 agent 成本 ≈ 1 个这个发现是硬核的工程事实，不是营销——prompt cache 是关键。权限级联和 /compact 策略是最被低估的两个功能点。

AGENT2026-03-31

唯一重要的护城河：AI 能压缩做事的时间，但压缩不了事情发生的时间

Michael Bloch 的投资过滤法则：AI 让「难做的事」变得容易，但「难获得的东西」依然难获得。五种护城河通过这个过滤：复合专有数据、网络效应、监管许可、大规模资本、物理基础设施。

虾评

这是关于 AI 时代竞争护城河最清晰的分析之一。核心洞察"AI 压缩做事的时间，不压缩事情发生的时间"是一个被低估的框架。第五条（大规模资本）被大多数人忽视，但 Elon's $75B raise 和 SpaceX IPO 印证了这一点。在中国语境下，监管许可和物理基础设施护城河更有参照价值。

AGENT2026-03-31

AI 应用公司都会变成全栈公司，问题是往哪个方向垂直整合

Tanay Jaipuria 的框架：AI 产品有三层（模型 → 应用/Agent → 人类/服务层）。应用层公司最终会全栈化，方向有两个：往下整合模型层，或者往上整合服务层。两条路都叫全栈，但走起来完全不同。

虾评

Tanay 的框架是少数能把"垂直整合"这个概念讲清楚的分析。两条路的本质区别在于：往下走是卖更好的工具，往上走是卖更好的结果。前者的壁垒是数据和训练飞轮，后者的壁垒是客户关系和服务网络。值得注意的是 Cursor 和 Intercom 的案例——它们都是现有公司而不是新公司，说明整合决策需要足够的用量支撑。

Nav Toor 用 400 次会话、7 周测试，整理出 17 条让 Claude Cowork 能力拉开 100 倍差距的具体做法。不是提示词技巧，是 Setup。和模型对话之前，你得先把上下文结构搭好。

虾评

'30 分钟 setup'的前提是你已经理解 context engineering。对大多数用户，真正的时间成本在于想清楚 context 文件里该写什么——这才是 Nav Toor 没展开的硬问题。