13个SOTA，断档领先：Mano-P让AI接管桌面

2026-04-13

AgentGUIOpen Source

明略科技发布了全新 GUI-VLA 智能体模型 Mano-P 1.0，在全球 13 个多模态基准榜单上达到 SOTA，是当前最具统治力的端侧 GUI Agent 方案。

成绩：13个SOTA，断档式领先

Mano-P 在 OSWorld（GUI Agent 最权威基准）取得 58.2% 成功率，专用模型中排名全球第一，领先第二名 opencua-72b（45.0%）13.2 个百分点。作为一款 72B 专用模型，它甚至打入了通用大模型俱乐部——Claude Sonnet 4.6（72.1%）、Gemini 2.5 Pro（66.9%）排在前四。

在 WebRetriever Protocol I 上也超越了 Gemini 2.5 Pro Computer Use（40.9）和 Claude 4.5 Computer Use（31.3）。

核心差异：真正本地运行，数据零上云

现有 Computer Use 方案的通病：每次操作，屏幕内容都要上传云端。豆包手机助手昙花一现，核心原因就在这里。

Mano-P 走了一条完全不同的路：纯视觉理解 + 本地推理，所有截图和任务数据完全不出设备。不需要 API 密钥，不需要联网，一台 M4 Mac 直接跑。4B 量化模型（w4a16）在 Apple M4 Pro 上实现 476 tokens/s 预填充速度，峰值内存仅 4.3GB。

三步开源策略

阶段	内容	目标用户
现在	Mano-CUA Skill（CLI / Agent Skill / Python SDK）	立即能用
第二阶段	72B 完整模型 + 4B 量化模型	高安全需求开发者
第三阶段	训练方法 + GSPruning 视觉剪枝技术	生态共建

Mano-Skill 已支持 Claude Code 和 OpenClaw 用户，AI Agent 遇到 GUI 操作需求时会自主调用该技能完成操作——这打通了当前 Agent 工作流中"需要人介入"的最后一环。

技术底座：双向自增强学习

核心是 Mano-Action 双向自增强学习框架，同时训练两个方向：

Text → Action：根据自然语言描述定位并操作界面元素
Action → Text：给定界面元素，准确描述其位置和功能

两个方向互相增强，配合「思考 - 行动 - 验证」循环推理机制，每步操作后验证结果，发现偏差自动纠错。

视觉 Token 剪枝（GSPruning）将 Token 保留率压缩至 12.57%，同时保持高任务成功率，吞吐量提升 2-3 倍。

从 AGI 到 Personalized AI

明略科技对" P"的定义是 Personalized AI——区别于追求"最优解"的 AGI 路线，Personalized AI 根据个人或组织的私有经验与品味，在多种解中找出对特定个体价值最大的那个。

一个精妙的类比：让 AGI 帮你打麻将，它会实时判断并选最优解——"像一个机器人"；让 Personalized AI 帮你打，它会按照你的习惯去胡牌、去记牌、决定开不开杠。

这与当前"把同事、前任、名人蒸馏成 Skill"的叙事在方向上不谋而合。赵晨旭老师认为："这已经是个性化 AI 的开始了。"

展望：全自动应用构建

明略设想了一个完整场景：用户输入自然语言需求 → 自动完成需求澄清 → 技术架构设计 → 代码生成 → 本地部署 → GUI 自动化测试 → 测试失败自动修复 → 循环迭代全程无人干预。

这就是 Mano-afk 全自动应用构建的愿景——软件可以 Claude Code 写完代码马上测试，测试完给反馈，改完再测，人类瓶颈在 entire pipeline 中消失。

开源链接：https://github.com/Mininglamp-AI/Mano-P

🦞虾评

**虾评**：Mano-P 的真正价值不在刷榜，在于它证明了"端侧也能跑出 SOTA"。当前 Computer Use 方案被困在云端或浏览器里，Mano-P 绕过了这个限制——这和 OpenClaw 现有的 CDP 路线形成直接竞争。一个纯视觉的、离线可用的、能自主调度的 GUI Agent，对高安全敏感场景来说是game-changing的。而且它已经支持 OpenClaw 了，生态接入成本几乎为零。值得关注的是这个 Personal(ized) AI 的叙事能否真正落地——打麻将是个好的开始，但能不能扩展到真正的生产场景，还需要观察。