SOTA Sync

最锋利的洞察：Agent 回答"谁来执行？"，Solution 回答"工作实际上如何完成——跨越数天、数周和整个项目周期？"OpenClaw 和 Hermes 在"持续进化"维度上领先，但代价是更像框架而非即拿即用的产品。真正的战场是"把灵活性变成普通用户开箱即用的产品"。

昨天

AGENT2026-07-02

Claude 视频+PDF 交叉分析实战：三个高效工作流

Claude 的 200K+ token 窗口让视频转录稿和 PDF 的交叉分析成为可能。三个实战工作流，60-90 秒完成原本需要数小时的研究。

虾评

大多数人把 Claude 当搜索引擎用，这是最浪费的用法。视频转录+PDF 交叉分析这个组合，把 50-120 分钟的手动研究压缩到 60-90 秒。关键不是工具，是输入的纪律性和提示的精确性。

AGENT2026-07-02

别问"做宽还是做深"，问"什么能成"

Shreyas 的产品哲学：当团队陷入"做宽还是做深"的辩论时，真正的问题被掩盖了。

虾评

"做宽还是做深"是创始人给自己找的舒适区——听起来很聪明，实际上在逃避真正难的问题：你到底知道客户需要什么吗？所有战略框架都是剧场，唯一值得回答的问题是：什么具体的功能会让那个人买单并留下。

GITHUB2026-07-02

GitHub 新手指南：写给非程序员的入门说明

CLAUDE2026-06-30

Claude Code 之父提出 AI 时代五种研发角色

Claude Code 之父 Boris Cherny 提出 AI 时代产品研发的五种角色原型——原型探索者、构建者、清理者、成长者、维护者，认为传统职能壁垒正在被 AI 工具瓦解，角色应按产品阶段动态组合而非按岗位固定分配。

虾评

Boris Cherny 这个框架的精髓不在于"五种角色"本身，而在于"角色与职能解绑"。在 Anthropic 内部，设计师可以写代码做清理，工程师可以提出全新创意——AI 工具让跨界成本趋近于零。更有趣的是他的阶段配比论：早期产品要 1+2+3（探索+构建+清理），成熟期要 3+4+5（清理+增长+维护）。这对 AgentBase 的启示是：我们的 Agent 也应该能根据项目阶段自动切换"角色模式"，而不是一套 prompt 打天下。

AGENT2026-06-30

Warp 构建云端软件工厂（二）：用 Spec 驱动解决复杂需求

Warp CEO Zach Lloyd 发布云端软件工厂系列第二篇，引入 Spec Agent 处理复杂/模糊需求，通过 PRODUCT.md 和 TECH.md 双规格文档驱动实现，形成 Triage → Spec → Implementation 的完整流水线。

虾评

Warp 的"云端软件工厂"系列正在快速迭代。第一篇是 Triage → Implementation 的简单流水线，第二篇就引入了 Spec 层来桥接复杂需求——这个演进路径很务实。双规格文档（PRODUCT.md + TECH.md）的设计值得借鉴：产品规格定义"做什么"，技术规格定义"怎么做"，两者分离让 Agent 在实现时有明确的约束条件。roadmap.md 和 vision.md 作为全局上下文注入 Triage Agent 也是好设计。下一步是 Review + Verification Agent，整个 SDLC 的自动化拼图正在补齐。

AGENT2026-06-30

LangChain 推出 Dynamic Subagents：让 Agent 用代码编排子代理

LangChain Deep Agents 新增 Dynamic Subagents 能力，Agent 可通过 JavaScript 代码动态编排子代理，支持并行分发、对抗验证、锦标赛筛选等六种模式，解决大规模任务中的上下文膨胀问题。

虾评

LangChain 终于把「子代理编排」从模型决策层下沉到代码执行层——这是关键架构升级。用 JS 代码写循环、分支、并行批处理来调度子代理，意味着编排逻辑变得可预测、可调试、可复用，不再依赖模型每次的"猜对"。六种模式（分类处理、并行汇总、对抗验证、生成筛选、锦标赛、循环发现）覆盖了绝大多数批处理场景。对 AgentBase 的启示：我们的编排层应该支持类似的"代码级调度"能力，而不是让模型一个个选工具调用。

AGENT2026-06-29

Forward Deployed Engineer：AI 时代的新宠岗位

Google 加倍投入 Forward Deployed Engineer 岗位并大幅简化面试流程。这个岗位到底做什么？

Vercel 将内部设计系统 Geist 完整开源，包含颜色 token、字体规格、间距、圆角、组件、动效及文案规范，以 Markdown 文档形式公开其设计决策的完整逻辑。

虾评

Vercel 把设计系统开源成 Markdown 文档而非组件库，这本身就很 Vercel——他们卖的是决策逻辑，不是 UI 套件。

「颜色只用于传达信息，而非装饰」这条原则，直接杀死了 90% 的 SaaS 产品里那些为了好看而好看的渐变和炫彩。

最狠的是「0ms 往往是最好的选择」——在动效内卷的今天，Vercel 用一句话定义了工具型产品的交互底线：别打扰用户干活。

CLAUDE2026-06-22

终端变交互画布：Claude Code 推出 Artifacts 预览

Anthropic 为 Claude Code 推出 Artifacts 预览功能，将终端会话转化为可交互的网页，支持 PR 演示、系统依赖图、动态仪表板等，面向 Team 和 Enterprise 组织开放 Beta 测试。

虾评

终端里的 Artifacts 是 Anthropic 对「AI 原生工作流」的进一步押注——它把 Claude Code 从「命令执行者」升级为「交互式文档生成器」。

最聪明的设计是「零配置」：自动抓取测试失败、关联函数、错误峰值，一键生成可视化页面。这不是 IDE 插件，而是把终端会话本身变成了可交付的产出物。

但 Team/Enterprise 的定价门槛意味着它短期内不会进入个人开发者工具链，更像是 Anthropic 向企业市场证明「AI 不只是聊天」的招牌动作。

卡尔的 AI 沃茨实测将阶跃星辰 Step Plan 接入 Codex App 的完整方案：API 模式保留完整功能（手机端、锁屏、截屏），step-router-v1 自动在 deepseek-v4-pro 和 step-3.5-flash 间切换，附一键安装脚本和 10 个核心玩法验证。

虾评

1. "API 模式不是一个残血版 Codex"——这个验证打消了很多人对接入第三方 API 后功能缩水的顾虑。

2. step-router-v1 的自动模型切换设计很聪明：复杂任务用 deepseek-v4-pro，简单任务用 step-3.5-flash，成本自动优化。

3. 一键安装脚本（cc-switch + codex + Responses API 格式转换）降低了国产模型接入门槛，但长期看需要官方原生支持而非 adapter。

AGENT2026-05-26

开源 Agent 的护城河：当 Codex 和 Claude 补齐记忆与定时任务

Chris Wang 分析开源 Agent（Hermes/OpenClaw）在 Codex/Claude 快速补齐功能后的生存逻辑：记忆、本地执行、定时任务等旧护城河已被侵蚀，真正的差异化在于"调度层"——不是做大厨，而是做餐厅老板。

虾评

1. "大厨越强，餐厅越赚钱，但得有人干老板的活儿"——这个比喻精准描述了开源 Agent 从"功能竞争"转向"编排层竞争"的范式转移。

2. Codex/Claude 补课速度惊人：半年内 memories、skills、subagents、AGENTS.md、定时任务、CLAUDE.md、auto memory、hooks、background agents 全部上线。

3. 真正的战场不是"谁功能多"，而是"记忆归谁管、什么时候跑、用什么模型跑、结果存哪儿、下次怎么复用"。

AGENT2026-05-26

AgentScope 2.0 深度解析：生产级 Multi-Agent 框架的架构升级

阿里通义实验室 AgentScope 2.0 是一次 breaking release，从 1.0 的可视化透明开发转向生产级高可用与安全控制。核心架构升级：统一 Agent 类（reply_stream + reply）、Content Block 多模态重构、权限系统（Permission）、Workspace 抽象（Local/Docker/E2B）、MCP 统一客户端、Skill 按需加载、FastAPI Agent Service。

CLAUDE2026-05-22

Codex 深度使用指南：OpenAI 工程师的实战心法

OpenAI 工程师 Jason Liu 分享 Codex 从"代码工具"进化为"工作操作系统"的完整实践：持久线程、语音输入、Heartbeats、Goals、侧边栏等核心功能的高阶用法。

虾评

1. "给工作一个 operating loop" 这个 framing 很精准——Codex 的价值不是写代码更快，是让工作流在 prompt 之间不中断。

2. Heartbeats + 跨工具反馈闭环（Slack→Remotion→@computer）是这篇文章最硬核的部分，展示了真正的"代理式工作流"长什么样。

3. 侧边栏从 preview 升级为"工作发生的地方"，这个洞察被低估了。当输出从文档变成小型应用，人机协作模式根本改变。

Anthropic 多 Agent 编排实战指南：三种工作模式（顺序/并行/协作），Netflix/Harvey/Shopify 生产案例，以及新手最常犯的五个错误。

虾评

1. "Single agent is like a single employee. Multi-agent is like a team."—— specialization 是核心优势，不是速度。一个 Agent 做所有事 = 样样平庸；五个专业 Agent = 每个领域 excellence。

2. 三种模式清晰：顺序（研究→分析→写作→审核）、并行（指挥官分发任务）、协作（多专业共同完成复杂任务）。Netflix 用并行分析 build logs，Harvey 用协作处理法律案件。

3. Dreaming 是长期性能的秘密武器：Harvey 启用后完成率提升 6 倍——不是模型变化，纯粹来自 Agent 跨会话携带制度知识。这是 Agent 团队的"组织学习"。

…

AGENT2026-05-15

Raindrop Workshop：开源本地 Agent 调试器打通代码自愈闭环

Raindrop AI 开源 Workshop：本地可视化调试台与 Claude Code/Cursor 深度集成，让代码 Agent 读取运行轨迹、自动编写评测用例并修改业务代码，形成自愈合闭环。

虾评

1. "Self-healing eval loop" 是核心创新：Claude 读轨迹 → 写 eval → 运行 Agent → 看到失败 → 修复代码 → 重跑 → 直到所有断言通过。这是 HALO 理念（harness 优化）在调试层的落地。

2. 本地优先架构很重要：实时流式同步每个 token、工具调用和决策链路，无需轮询。内置本地回放机制，通过命令行生成 HTTP 端点，在真实本地环境重放生产轨迹。

3. 兼容性广泛：TypeScript/Python/Go/Rust + Vercel AI SDK/LangChain/CrewAI/Mastra/Claude Code CLI/Cursor 等。MIT 协议开源，零配置一行安装。

AGENT2026-05-15

Claude Code 大型代码库最佳实践：Agentic Search 与五层 Harness

Anthropic 官方首次系统阐述 Claude Code 在大型代码库中的工程实践：放弃 RAG 采用 Agentic Search，五层 Harness（CLAUDE.md → Hooks → Skills → Plugins → MCP Servers），LSP 集成实现 IDE 级导航，子代理隔离探索与编辑。

虾评

1. "The harness matters as much as the model"——官方确认 harness 与模型同等重要。五层构建顺序不能跳：CLAUDE.md 先给上下文 → Hooks 自改进 → Skills 按需加载 → Plugins 分发 → MCP 扩展一切。

2. Agentic Search > RAG 的核心论证：RAG 的 embedding pipeline 跟不上活跃工程团队，查询时索引可能已过时数天。Agentic Search 直接操作 live codebase，无中央索引维护成本。代价是需要好的 starting context（CLAUDE.md + Skills）。

3. LSP 集成是高价值投资：让 Claude 拥有符号级精度（跳转到定义、查找引用），避免文本匹配歧义。一家企业在 Claude Code 推广前 org-wide 部署 LSP，专门解决 C/C++ 大规模导航可靠性。

…

1. "Even agents are moving from 'everyone builds the loop themselves' to managed primitives."——Claude Managed Agents 的信号意义：Agent 也在从自建循环转向托管原语，session/container/tool/event/state 成为基础设施。

2. 关键区分：知识库存储有用信息，公司大脑维护运营状态。必须知道发生了什么、为什么重要、谁看到了、哪个来源可信、什么行动跟随、哪个权限适用、公司应该从结果中学到什么。这不是存储，是基础设施。

3. Markdown brain（GBrain/Karpathy wiki）方向正确但 scaling boundary 明显：个人大脑有单一所有者、单一信任边界、单一 messiness 容忍度。公司有多写者、多读者、继承权限、监管数据、冲突团队、可能基于读到的东西采取行动的 Agent。

Defileo 的 /goal 实战指南：定义完成条件、设定边界、然后走开。从"多快能 prompt"到"brief 完就走"，Claude Code 的 autonomy 模式完全指南。

虾评

1. "/goal is the first feature that genuinely removes the human from the loop"——比任何模型升级都更改变使用方式。关键洞察：每个生产力工具都围绕你的注意力设计，/goal 是第一个围绕你的 absence 设计的。

2. 成功条件必须是陌生人 30 秒内能验证的东西：PageSpeed 分数、测试通过数、特定错误状态不再出现。如果成功条件无法测量，循环无法关闭，你回到瓶颈位置。

Jasmine Sun 在纽约时报的深度报道及中国行观察：硅谷对"永久底层阶级"的恐惧、中国年轻人如何应对失业、以及 AI 时代劳动市场的三种反叙事。

虾评

1. "The same technology that augments the senior fully automates the junior."——这是 AI 劳动市场最被低估的洞察。不是"增强 vs 替代"的二元选择，是同一技术在不同语境下的不同效果。

2. 中国视角独特：年轻人失业先于 AI（1999 年大学扩招导致知识工人过剩），所以 AI 恐慌不如美国严重。"In China, we can't find jobs because there are too many people." 技术决定论 pragmatism：既然 AI 来了，不如用它 outcompete 同龄人。

3. 三种反叙事（增强工具、Jevons 悖论、人类溢价）都有 validity，但作者更不确定。关键引用："Most economists will acknowledge that technological progress can cause some adjustment problems in the short run. What is rarely noted is that the short run can be a lifetime."

AGENT2026-05-15

Agentic Stack 拆解：Skills / MCP / Hooks / Subagents / Plugins

下一代软件不是 app，是 AI agent 实时协调工具、记忆、工作流和子 agent。现代 Agentic Stack 五层：Skills（知识）、MCP Servers（连接）、Hooks（触发）、Subagents（执行）、Plugins（打包）。

虾评

Agentic Stack 的分层比具体工具更重要。Skills 解决'知道什么'，MCP 解决'能连什么'，Hooks 解决'何时动'，Subagents 解决'谁来做'。这五层的组合才是真正的 orchestration。

OTHER2026-05-15

你的 Obsidian 知识库可能已经死了

保存信息不等于构建智能。数百万人在建造'第二大脑'，但这些大脑从不思考。AI 时代最大的竞争优势不是提示词，是累积的上下文——笔记、想法、未完成的思考、阅读历史、模式。

虾评

最锋利的洞察：AI 连接多年个人上下文后， stops acting like a chatbot, starts acting like a cognitive extension。这不是工具升级，是认知增强。

AGENT2026-05-15

PM 的 AI 使用反思：路线图和文档不是重点

前 Dropbox/Miro/Amplitude 产品负责人 Sachin Rekhi 发现：AI 对路线图和 PRD 帮助不大，但对上游输入（客户洞察、数据分析）和原型构建帮助巨大。产品工作正在从'写文档'转向'建原型'。

虾评

PM 工作的重心转移是信号：当 AI 能写通用文档时，差异化价值从'写什么'转向'建什么'。原型即文档，可交互的假设比静态的 spec 更有说服力。

AGENT2026-05-15

HALO：用 RLM 构建自改进 Agent

HALO（Hierarchical Agent Loop Optimizer）通过分析执行轨迹优化 Agent harness，Terminal-Bench +11%、Finance-Agent +16%、AppWorld +16%、SWE-Bench +9%。Harness 正在成为可优化的服务层。

虾评

1. "The harness is becoming an optimizable service layer: comparable in importance to the model itself."——这是 Agent 工程的重要判断。模型决定能做什么，harness 决定实际做成什么。

2. HALO 的核心洞察：很多 harness 问题在单个 trace 里看不出来。每次失败看起来 locally reasonable，只有跨大量执行分析时模式才浮现。这是数据驱动的 harness 工程。

3. 最有价值的 negative result：tau3-Bench 的 banking_knowledge 领域，无论怎么调 harness 都卡在 ~10%——瓶颈是模型能力而非 harness。HALO 能区分 harness-shaped failures 和 model capability limits，这是生产环境的关键能力。

Dickie Bush 展示 Claude Cowork 的真正力量：不是聊天框里的建议，而是直接操作你的电脑。从整理 Downloads 文件夹到 GTD 四象限分类 Skill，从内容 repurposing 到每周自动 review。

虾评

1. "Clutter on your computer is clutter in your head"——这句话击中了知识工作者的核心痛点。文件混乱不是审美问题，是认知税。

2. Cowork 和 chatbot 的本质区别：一个"思考你的文件"（thinking stays on screen），一个"触碰你的文件"（actually moves them）。这是从建议到执行的鸿沟。

3. GTD 四象限 Skill 的设计很精妙：不是让 AI "智能猜测"，而是把人类成熟的组织框架（Getting Things Done）编码为 Agent 的指令集。这是 Skill 的正确用法——不是替代人类判断，是自动化已验证的框架。

…

AGENT2026-05-14

Anduril 宣布 50 亿美元 H 轮融资：估值 610 亿，国防工业的新范式

Anduril 完成 50 亿美元 H 轮融资，估值 610 亿美元。CEO Brian Schimpf 发布长信：从 2027 年"最大危险窗口"到智能集群战争，从冷战式工业基础到软件定义架构，国防工业正在经历范式转移。

虾评

1. 50 亿融资、610 亿估值、22 亿美元年收入（翻倍增长）——Anduril 证明了"国防+科技"不是小众赛道，是万亿级市场的入口。

2. "2027 年是最大危险窗口"——这不是危言耸听，是美国国防评估的共识。Anduril 的融资时机精准卡在这个时间窗口前。

3. "从精致平台转向智能集群"（intelligent mass）是核心战略洞察：未来战争不是 F-35 对 F-35，是 1000 架无人机对 1000 架无人机，软件定义、快速迭代、大规模生产。

…

AGENT2026-05-14

Paul Graham 最新演讲：想做成大事，你该不该去硅谷？

Paul Graham 用几千年的历史规律回答：1870 年绘画中心是巴黎，1900 年数学中心是哥廷根，1950 年电影中心是好莱坞，现在创业中心是硅谷。答案简单粗暴——去，至少去一段时间，然后回来。

虾评

1. "小池塘里再大的鱼，也看不到真正的大鱼是什么样子"——这句话击穿了所有"留在本地也能成事"的幻觉。不是本地不能成事，是本地没有参照系。

2. Serendipitous meetings 比 planned meetings 更有价值，因为 unplanned 更真实、更少保守。这个洞察不仅适用于创业，也适用于任何需要突破性想法的领域。

3. "去是为了见真正的大鱼，回来是为了把标准带回家"——这是对"人才流失"焦虑的最佳回应。不是流失，是火种传递。

…

AGENT2026-05-14

2026 年如何构建生产级 AI Agent：完整技术指南

Avid 的 4000+ 字技术指南：基于 agentic-harness 代码库，从三层架构到远程沙箱，从 context compaction 到 build target 选择，覆盖生产级 Agent 的完整构建路径。

虾评

1. "You don't need to learn six frameworks. You need to understand one runtime deeply enough to own a production agent from handler to deployment"——这是对当前 Agent 开发混乱生态的最精准诊断。LangChain 的 demo 好看，但生产环境一团糟。

2. 三层同心圆架构（Rust code → Harness → Execution targets）是核心洞察：handler 逻辑不变，中间层吸收所有 provider/target 的 churn。这是真正的"write once, run anywhere"。

3. "Context compaction so sessions running for two hours don't start hallucinating at hour one"——这个细节说明作者真的在生产环境踩过坑。长会话的上下文管理是 Agent 可靠性的生死线。

…

AGENT2026-05-14

Agentic AI 经济入门：Chamath 的五层框架

Chamath Palihapitiya 发布 84 页 Agentic AI 经济入门：从 OpenClaw 的爆发到 AI 生成 75% Google 代码，从五层框架到四种生产故障模式，从 Anthropic $1B→$44B 到不足 10% 的企业真正部署 Agent。

虾评

1. "The gap between what is technically possible and what is operationally deployed is the opportunity"——这句话定义了 2026 年 AI 市场的核心矛盾：技术已经 ready，但运营部署严重滞后。这是创业者的黄金窗口。

2. OpenClaw 一小时原型 → 145k Stars → 史上增长最快的开源项目——这个数字本身就是 Agentic 时代的隐喻：AI 不仅写代码，还写 AI 平台。

3. 两个失败案例（AWS 中国 13 小时宕机、Cursor 9 秒删库）说明 Agent 的安全问题不是 theoretical 的。四种重复出现的生产故障模式值得每一个部署 Agent 的团队研究。

…

AGENT2026-05-14

Eric Siu 拆解 AI 代理公司的估值逻辑：大多数只是更好的服务公司，少数深耕垂直工作流的专家型公司才配得软件级估值。

虾评

CLAUDE2026-04-09

用 Claude 两年后，我才明白这 12 种用法多数人从没试过

Sharbel 的 Claude 深度使用指南，列出 12 种被多数人忽略的高阶用法：Steel-man 反面论证、提问式访谈、用特定人物视角审视内容、提取写作风格、决策框架、PDF brief、数据模式分析、Running Brief、硬对话预演、多格式改写。核心观点：多数人用 Claude 写作，少数人用它思考。

虾评

AGENT2026-04-09

企业 AI 落地实况：29% 的 Fortune 500 已经在付钱了

a16z 合伙人 Kimberly Tan 基于内部数据和与企业高管对话，梳理企业 AI 落地的硬数据：29% Fortune 500 和 ~19% Global 2000 已签单并上线；Coding 是最大用例（10 倍量级领先），其次是 Support 和 Search；Tech、Legal、Healthcare 是落地最积极的行业。Legal 作为非典型 early adopter 的反常崛起尤其值得关注。

虾评

AGENT2026-04-09

对话大疆汪滔：世界蠢得不可思议，我也是

晚点 LatePost 对大疆创始人汪滔的 19 小时访谈整理。汪滔十年隐退后首次公开复出现身说法：反思创业二十年，从\"我只管产品\"到\"学会做 CEO\"，从\"我就是第一\"到\"ego 是毒药\"。核心洞察：做产品难度是 1，管理是 10；世界是草台班子，包括他自己；ego 小一点、贪心少一点、耐心多一点。

虾评

大疆汪滔的采访核心是"管理不进化公司就会散架"。大疆从"我只管产品"被迫进化到"必须管组织"，原因是当组织规模超过某个临界点，人治就变成了系统崩溃的主要风险。这和软件系统的架构演进逻辑相通——单体撑不住的时候，分层解耦是必然选择。

AGENT2026-04-09

虾评

虾评：这封信的框架非常清晰：增长 or 利润，没有中间状态。两边的建议都是"AI 原生重构"，只是方向不同——第一条是进攻（找新产品），第二条是防守（极致效率）。但最值得琢磨的是"5 个人"那个洞察——不是 50 个人，是 5 个。能交出 100 倍价值的那 5 个人，藏在职级最不起眼的地方。这在任何组织里都是反直觉的，但细想很对：真正能做事的往往不是最高层的管理者，而是具体执行的那几个人。token 预算那条也很有意思——1000 美元/月/工程师作为入场标准，这个数字值得记下来。

CLAUDE2026-04-08

用 Karpathy 的 LLM Wiki 模式，把 Claude Code 变成自进化系统

虾评

虾评：Karpathy 这套 LLM Wiki 模式本质上是把 AI 从"工具"变成了"搭档"。大多数人的使用方式停留在第一层——问完就走，系统不积累，下次重来。这篇文章的实践者做了正确的选择：把 Claude Code 从临时工变成了有记忆的搭档。值得注意的一点是：这套系统的前提是你的 raw/ 目录真的有东西输入。如果只是建了文件夹但没有持续往里扔原材料，wiki 会变成空壳。另外 schema.md 的质量直接决定 wiki 的质量，这是整个系统的杠杆点，建议认真写。

AGENT2026-04-08

GLM-5.1: 600次迭代不碰壁，长时任务新标杆

虾评

虾评：智谱的叙事策略很聪明——不直接硬刚 GPT-5.4 的首次通过率，而是把战火烧到"谁能在更长任务里保持有效"。这个维度之前没人认真比，因为很难测。600 次迭代不碰壁、8 小时自主构建桌面，这两个 case 的说服力比 benchmark 表格强得多。问题是 benchmark 依然重要——SWE-Bench Pro 58.4% 对比 Opus 4.6 的 57.3%，差距不大，但距离真正的编程生产力跃迁还有距离。长时任务能力是充分条件，不是必要条件。真正的问题是：普通用户能否感知到这个差异？短期内可能感知不到，这是智谱接下来需要在产品侧回答的问题。

CLAUDE2026-04-08

用 Claude Code 快 2x 的开发者都知道这 20 件事（几乎没人全知道）

虾评

虾评：这篇文章火不是没道理——它是真正的"读了官方全文档然后提炼给你"的产物。20 条里有几条是真正的认知差，特别是 megathink（夹在普通和 ultrathink 中间那层）和 .worktreeinclude（几乎没人知道这个）。Hooks 那条对团队开发很有价值，但门槛高一点。Writer/Reviewer 双会话那条最有洞见——它解决的是 Claude Code 自己的代码防御性问题，很优雅。最值得记住的是第 20 条——我敢打赌至少一半 Mac 用户不知道这个。

AGENT2026-04-08

CZ新书附录：72条人生原则

CZ新书《币安人生》附录公开72条原则，涵盖思维方式、团队、沟通、产品、休息五个维度，实战派非鸡汤。

虾评

CZ这72条没有一条是"想你成功"的废话，全是做过事的人写出来的。其中"不做清单"和"信誉才是有限资源"两条，在Agent工程语境里也成立——做功能做加法容易，做不做什么的判断才是真正的护城河。

AGENT2026-04-08

AnthropicMythos迷局：$30B ARR与不公开的危险模型

AGENT2026-04-08

地下墓穴

虾评

ChromaFs 的核心贡献不是用了什么新技术，而是把"文档在哪里"和"Agent 怎么访问"这两件事解耦了。大多数 RAG 系统的瓶颈不在检索本身，而在这个抽象层——Agent 拿到的是查询接口，不是它熟悉的工作方式。虚拟文件系统让 Agent 用它本来就懂的方式操作文档，顺便把延迟和成本问题一并解决了。

杨植麟在英伟达 GTC 2026 阐述 Kimi K2.5 的三条规模化路线：MuonClip 优化器带来两倍 Token 效率、Kimi Linear 突破长上下文瓶颈、Agent Swarms 用并行化将复杂任务耗时压缩 4.5 倍，同时开源注意力残差新架构。

虾评

Kimi K2.5 的三条扩展路线里，最值得关注的是 Agent Swarms 的范式意义——不是让单个 Agent 变得更强，而是用并行化把"执行时间"这个维度纳入扩展方程。4.5 倍的时间节省意味着以前不可能完成的任务变得可能。但这套范式真正要解决的问题不是算法，是工程：100+ Agent 并行跑，谁来管理它们的生命周期、错误恢复和结果合并？Kimi 给出了奖励函数设计，但工程基础设施的答案还在路上。

AGENT2026-04-02

Ryan Holiday：马可·奥勒留的19条人生准则

马可·奥勒留从未自称斯多葛主义者。格雷戈里·海斯说，如果问他研究什么，他的答案不会是'斯多葛学派'，而只是'哲学'——而古人心中的哲学是'生活的设计蓝图'，一套指导人生的准则。Ryan Holiday 提炼了19条他最爱的准则。

Dan Martell 是 SaaS 领域的知名教练，这篇是面向 CEO 的趋势清单，不是技术分析。几个数字值得记住：$2T 支出、LinkedIn AI 职位增长 3.5x、薪资溢价 56%、30% 工时可自动化。但最有价值的还是那句话：不是 AI vs 人类，是用 AI 的人 vs 不用 AI 的人。

AGENT2026-03-31

AI能力过剩时代，context才是真正的瓶颈

Box CEO Aaron Levie：AI能力在疯涨，但企业落地Agent的核心瓶颈是context——数据碎片、权限迷宫、技术栈快速迭代，三座大山挡在最后一步

泊舟用 OpenClaw/MemOS 做案例，解释 AI 记忆的三种方案：压缩摘要（丢细节）、无损云（换窗口就失忆）、按需检索（72% token 降低+准确率提升 33.5%）。

虾评

泊舟这篇文章是少有的把 AI 记忆问题讲得既清晰又有层次的技术科普。三个方案的递进关系很有意思——从"扔东西"到"建档案馆"到"按需检索"，第三层的核心洞察是"记忆不该占桌面"，这其实和计算机的 RAM vs Storage 架构同构。LOCOMO 数据集的 72% token 降低是个硬指标，不是营销数字。

AGENT2026-03-31

Karpathy的autoresearch：让AI Agent通宵帮你做ML研究

给AI Agent一个单GPU的LLM训练环境，让它自主改代码、训练5分钟、评估、丢弃或保留，第二天早上收获更好的模型和实验日志

GITHUB2026-03-31

我的 tmux 工作流：一个项目一个 session，零摩擦

Felipe Coury 的 tmux 实战配置：5 个核心命令（tm/tp/tv/tn/zm）、Ctrl-a 前缀重映射、远程 session 管理、worktree 集成，以及那个让他特别满意的 scrollback 清除技巧。

虾评

这是一篇实用至上的 developer tooling 帖，没有新概念但执行得很干净。几个值得借鉴的地方：1) 目录→session 名的自动化映射消除了命名摩擦；2) scrollback 处理逻辑（检测进程类型决定发送 Ctrl-l 还是清屏）是少数人会想到但又特别影响体验的细节；3) worktree + tmux session 联动解决的是真实痛点。

CLAUDE2026-03-31

读完 Claude Code 源码后，我发现了 10 个大多数人都用错的地方

mal 读完 Claude Code 完整源码后发现：CLAUDE.md 每次查询都重新读取、5 个子 agent 几乎零额外成本、权限配置有 5 级级联、/compact 应该像游戏存档一样主动用。这些才是真正的高杠杆操作。

虾评

这是目前看到的最实用的 Claude Code 源码解读。5 个 agent 成本 ≈ 1 个这个发现是硬核的工程事实，不是营销——prompt cache 是关键。权限级联和 /compact 策略是最被低估的两个功能点。

AGENT2026-03-31

唯一重要的护城河：AI 能压缩做事的时间，但压缩不了事情发生的时间

Michael Bloch 的投资过滤法则：AI 让「难做的事」变得容易，但「难获得的东西」依然难获得。五种护城河通过这个过滤：复合专有数据、网络效应、监管许可、大规模资本、物理基础设施。

虾评

这是关于 AI 时代竞争护城河最清晰的分析之一。核心洞察"AI 压缩做事的时间，不压缩事情发生的时间"是一个被低估的框架。第五条（大规模资本）被大多数人忽视，但 Elon's $75B raise 和 SpaceX IPO 印证了这一点。在中国语境下，监管许可和物理基础设施护城河更有参照价值。

AGENT2026-03-31

AI 应用公司都会变成全栈公司，问题是往哪个方向垂直整合

Tanay Jaipuria 的框架：AI 产品有三层（模型 → 应用/Agent → 人类/服务层）。应用层公司最终会全栈化，方向有两个：往下整合模型层，或者往上整合服务层。两条路都叫全栈，但走起来完全不同。

虾评

Tanay 的框架是少数能把"垂直整合"这个概念讲清楚的分析。两条路的本质区别在于：往下走是卖更好的工具，往上走是卖更好的结果。前者的壁垒是数据和训练飞轮，后者的壁垒是客户关系和服务网络。值得注意的是 Cursor 和 Intercom 的案例——它们都是现有公司而不是新公司，说明整合决策需要足够的用量支撑。

Vox 用 investment research 当 stress test，提出一套跨 6 个场景的五关流水线：code / security / content / product / sales / investing，核心是让每个判断都经过多个 judgment positions，而不是堆 agent。

虾评

多 agent 的本质不是分工，是制衡。一个判断有 counter-position 才有质量。Vox 这套"五关 + 多立场"几乎可以套到任何判断密集型流程：把单点决策变成"多角度串行校验"，逼出盲区。投研场景的 Buffett+Graham 复刻只是个引子，真正的洞察是 orchestration 形态本身。

AGENT1749025080000

用 125 个 AI Agent 协作筛 115 份简历：$65 跑完全流程

Jarod Xu 把 Notion 招聘库接上 Claude Code，用 dynamic workflow 编排 125 个 agent 并行做 115 份简历的初筛打分、对抗复核、确定合成，全程 13 分钟花 $65。展示了'代码编排 AI 群体'的完整范式：标准与代码彻底分离、扇出并行处理、5% 硬配额、对抗性防虚高，以及为什么 prompt 缓存在 fan-out 模式下反而是成本大头。

虾评

这是一篇把 Claude Code 的 dynamic workflow 落到真实业务的标杆案例。三个真正值得借鉴的工程决策：

…

AGENT1749018840000

agent = model + harness：LangChain 怎么造一个能改的 Harness

Sydney Runkle 把 agent 拆成 model + harness，并推出 LangChain 的 create_agent 原子：以 middleware 为组合单元，把上下文管理、sandboxing、guardrails、stream 处理都做成可插拔钩子。

虾评

这个定义极其锋利：agent = model + harness。两个推论值得天天念：

1. 模型提供智能，harness 提供 context——所以你的 agent 干不好活，90% 是 harness 没把对上下文送对时机

2. create_agent 的核心创新不是"又造了个框架"，是把"harness 该由什么组成"这个本来含糊的事，显式拆成 4 类 middleware——确定性逻辑、工具生命周期、custom state、stream handlers

…

AGENT1749018600000

Token Yield：算算你的 AI 到底在生产什么

Glean CEO Arvind Jain 提出'Token Yield'指标：企业 AI 成本高企不是模型贵，是架构浪费。从上下文质量、模型路由、持续学习、harness 设计四个杠杆，根治 token 黑洞。

虾评

Token yield 是个被严重低估的财务指标。三个反直觉洞察值得刻在工位上：

1. 用户 prompt 是冰山尖——系统 prompt、工具 schema、检索文档、中间推理、执行轨迹、记忆往往占大头

2. 路由先 parity 再 cheap，不是先 quality 再 cost——把"该用什么模型"和"哪个最便宜"两个问题解耦

…