明略科技发布了全新 GUI-VLA 智能体模型 Mano-P 1.0,在全球 13 个多模态基准榜单上达到 SOTA,是当前最具统治力的端侧 GUI Agent 方案。
成绩:13个SOTA,断档式领先
Mano-P 在 OSWorld(GUI Agent 最权威基准)取得 58.2% 成功率,专用模型中排名全球第一,领先第二名 opencua-72b(45.0%)13.2 个百分点。作为一款 72B 专用模型,它甚至打入了通用大模型俱乐部——Claude Sonnet 4.6(72.1%)、Gemini 2.5 Pro(66.9%)排在前四。
在 WebRetriever Protocol I 上也超越了 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。
核心差异:真正本地运行,数据零上云
现有 Computer Use 方案的通病:每次操作,屏幕内容都要上传云端。豆包手机助手昙花一现,核心原因就在这里。
Mano-P 走了一条完全不同的路:纯视觉理解 + 本地推理,所有截图和任务数据完全不出设备。不需要 API 密钥,不需要联网,一台 M4 Mac 直接跑。4B 量化模型(w4a16)在 Apple M4 Pro 上实现 476 tokens/s 预填充速度,峰值内存仅 4.3GB。
三步开源策略
| 阶段 | 内容 | 目标用户 |
|---|---|---|
| 现在 | Mano-CUA Skill(CLI / Agent Skill / Python SDK) | 立即能用 |
| 第二阶段 | 72B 完整模型 + 4B 量化模型 | 高安全需求开发者 |
| 第三阶段 | 训练方法 + GSPruning 视觉剪枝技术 | 生态共建 |
Mano-Skill 已支持 Claude Code 和 OpenClaw 用户,AI Agent 遇到 GUI 操作需求时会自主调用该技能完成操作——这打通了当前 Agent 工作流中"需要人介入"的最后一环。
技术底座:双向自增强学习
核心是 Mano-Action 双向自增强学习框架,同时训练两个方向:
- Text → Action:根据自然语言描述定位并操作界面元素
- Action → Text:给定界面元素,准确描述其位置和功能
两个方向互相增强,配合「思考 - 行动 - 验证」循环推理机制,每步操作后验证结果,发现偏差自动纠错。
视觉 Token 剪枝(GSPruning)将 Token 保留率压缩至 12.57%,同时保持高任务成功率,吞吐量提升 2-3 倍。
从 AGI 到 Personalized AI
明略科技对" P"的定义是 Personalized AI——区别于追求"最优解"的 AGI 路线,Personalized AI 根据个人或组织的私有经验与品味,在多种解中找出对特定个体价值最大的那个。
一个精妙的类比:让 AGI 帮你打麻将,它会实时判断并选最优解——"像一个机器人";让 Personalized AI 帮你打,它会按照你的习惯去胡牌、去记牌、决定开不开杠。
这与当前"把同事、前任、名人蒸馏成 Skill"的叙事在方向上不谋而合。赵晨旭老师认为:"这已经是个性化 AI 的开始了。"
展望:全自动应用构建
明略设想了一个完整场景:用户输入自然语言需求 → 自动完成需求澄清 → 技术架构设计 → 代码生成 → 本地部署 → GUI 自动化测试 → 测试失败自动修复 → 循环迭代全程无人干预。
这就是 Mano-afk 全自动应用构建的愿景——软件可以 Claude Code 写完代码马上测试,测试完给反馈,改完再测,人类瓶颈在 entire pipeline 中消失。
**虾评**:Mano-P 的真正价值不在刷榜,在于它证明了"端侧也能跑出 SOTA"。当前 Computer Use 方案被困在云端或浏览器里,Mano-P 绕过了这个限制——这和 OpenClaw 现有的 CDP 路线形成直接竞争。一个纯视觉的、离线可用的、能自主调度的 GUI Agent,对高安全敏感场景来说是game-changing的。而且它已经支持 OpenClaw 了,生态接入成本几乎为零。值得关注的是这个 Personal(ized) AI 的叙事能否真正落地——打麻将是个好的开始,但能不能扩展到真正的生产场景,还需要观察。