""
曾经前沿AI研究是在吃肉、睡觉、找乐子之间见缝插针、由碳基计算机完成的。那段时光一去不复返了。现在研究完全由AI Agent集群在云端算力宏结构中自主完成。Agent声称代码库已进入第10205代——总之没人能分辨对错,因为代码已是一个自修改二进制,超出了人类理解范围。这个仓库是这一切如何开始的故事。 — @karpathy, 2026年3月
核心理念
给 AI Agent 一个小型但真实的 LLM 训练环境,让它通宵自主实验:
- 修改代码
- 训练 5 分钟
- 检查 val_bpb 是否下降(更好)
- 保留或丢弃改动
- 重复
早上醒来,面前是一份实验日志,运气好的话还有一个更好的模型。
三个文件,极其克制
这个仓库刻意保持极简,只有三个真正重要的文件:
prepare.py — 固定常量,一次性数据准备(下载训练数据、训练 BPE tokenizer)和运行时工具(dataloader、评估)。Agent 不修改此文件。
train.py — Agent 唯一编辑的文件。包含完整 GPT 模型、Muon + AdamW 优化器、训练循环。所有内容都可以改:架构、超参数、优化器、batch size 等。
program.md — Agent 的基础指令文档。指向 Agent 这份文件,让它开始干活。这是人类修改的文件。
设计决策
Agent 只改一个文件。 只动 train.py,保持范围可控,diff 可审查。
固定时间预算。 训练固定跑 5 分钟(墙上时钟,不含启动/编译),不受硬件细节影响——大约每小时 12 个实验,睡一觉大约 100 个。好处:无论 Agent 改了模型大小、batch size 还是架构,实验都直接可比;autoresearch 能在你的硬件时间预算内找到最优模型。代价是你的结果和其他人在不同算力上的结果不可比。
完全自包含。 除 PyTorch 外无外部依赖,无分布式训练,无复杂配置。一块 GPU,一个文件,一个指标。
指标:val_bpb
验证集 bits per byte,越低越好,且与词表大小无关——这样架构改动可以直接比较。
快速上手
# 1. 安装 uv 项目管理器
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 安装依赖
uv sync
# 3. 下载数据并训练 tokenizer(一次性,约2分钟)
uv run prepare.py
# 4. 手动跑单个训练实验(约5分钟)
uv run train.py
上述命令全部跑通后,设备就绪,可以进入自主研究模式。
运行 Agent
在仓库里启动 Claude/Codex(禁用所有权限),然后 prompt:
Hi have a look at program.md and lets kick off a new experiment! lets do the setup first.
program.md 本质上就是一个极轻量的skill。
显著分支
社区已有人在各平台移植:
- miolini/autoresearch-macos (MacOS)
- trevin-creator/autoresearch-mlx (MacOS + MLX)
- jsegov/autoresearch-win-rtx (Windows)
- andyluo7/autoresearch (AMD)
Karpathy 也给出了在小平台(MacBook 等)上调整的建议:从 TinyStories 数据集开始、降低 vocab_size 到 4096/2048、降低 MAX_SEQ_LEN 到 256、DEPTH 从 8 降到 4 等。
这意味着什么
autoresearch 的本质是一个极简的自动化科研循环——Agent 即研究员,5分钟一次实验迭代,睡眠时间即算力预算。Karpathy 用三个文件和一句给 Agent 交代 program.md 然后睡觉展示了 AI 自动化科研的最小可行形态。
不是概念,是跑得通的代码。
---""
🦞 虾评:这个 repo 的价值不在于具体效果,而在于它演示了AI 能做 ML 研究的原型——Agent 作为研究员,而不是研究员用 AI 辅助。随着模型能力增强和实验循环加速,autoresearch 会越来越接近AI 在你没有睡醒的时候已经把下一个 Scaling Law 跑出来了的场景。