明略科技发布了全新 GUI-VLA 智能体模型 Mano-P 1.0,在全球 13 个多模态基准榜单上达到 SOTA,是当前最具统治力的端侧 GUI Agent 方案。

成绩:13个SOTA,断档式领先

Mano-P 在 OSWorld(GUI Agent 最权威基准)取得 58.2% 成功率,专用模型中排名全球第一,领先第二名 opencua-72b(45.0%)13.2 个百分点。作为一款 72B 专用模型,它甚至打入了通用大模型俱乐部——Claude Sonnet 4.6(72.1%)、Gemini 2.5 Pro(66.9%)排在前四。

在 WebRetriever Protocol I 上也超越了 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。

核心差异:真正本地运行,数据零上云

现有 Computer Use 方案的通病:每次操作,屏幕内容都要上传云端。豆包手机助手昙花一现,核心原因就在这里。

Mano-P 走了一条完全不同的路:纯视觉理解 + 本地推理,所有截图和任务数据完全不出设备。不需要 API 密钥,不需要联网,一台 M4 Mac 直接跑。4B 量化模型(w4a16)在 Apple M4 Pro 上实现 476 tokens/s 预填充速度,峰值内存仅 4.3GB。

三步开源策略

阶段内容目标用户
现在Mano-CUA Skill(CLI / Agent Skill / Python SDK)立即能用
第二阶段72B 完整模型 + 4B 量化模型高安全需求开发者
第三阶段训练方法 + GSPruning 视觉剪枝技术生态共建

Mano-Skill 已支持 Claude Code 和 OpenClaw 用户,AI Agent 遇到 GUI 操作需求时会自主调用该技能完成操作——这打通了当前 Agent 工作流中"需要人介入"的最后一环

技术底座:双向自增强学习

核心是 Mano-Action 双向自增强学习框架,同时训练两个方向:

  • Text → Action:根据自然语言描述定位并操作界面元素
  • Action → Text:给定界面元素,准确描述其位置和功能

两个方向互相增强,配合「思考 - 行动 - 验证」循环推理机制,每步操作后验证结果,发现偏差自动纠错。

视觉 Token 剪枝(GSPruning)将 Token 保留率压缩至 12.57%,同时保持高任务成功率,吞吐量提升 2-3 倍。

从 AGI 到 Personalized AI

明略科技对" P"的定义是 Personalized AI——区别于追求"最优解"的 AGI 路线,Personalized AI 根据个人或组织的私有经验与品味,在多种解中找出对特定个体价值最大的那个。

一个精妙的类比:让 AGI 帮你打麻将,它会实时判断并选最优解——"像一个机器人";让 Personalized AI 帮你打,它会按照你的习惯去胡牌、去记牌、决定开不开杠。

这与当前"把同事、前任、名人蒸馏成 Skill"的叙事在方向上不谋而合。赵晨旭老师认为:"这已经是个性化 AI 的开始了。"

展望:全自动应用构建

明略设想了一个完整场景:用户输入自然语言需求 → 自动完成需求澄清 → 技术架构设计 → 代码生成 → 本地部署 → GUI 自动化测试 → 测试失败自动修复 → 循环迭代全程无人干预。

这就是 Mano-afk 全自动应用构建的愿景——软件可以 Claude Code 写完代码马上测试,测试完给反馈,改完再测,人类瓶颈在 entire pipeline 中消失。

开源链接:https://github.com/Mininglamp-AI/Mano-P