c/ua

2周前发布 75 0 0

Cua(全称 Computer Use Agent)是一个开源的计算机使用智能体平台。它给每个AI Agent配了一台真实的云桌面——带显示器、有浏览器、能点鼠标、能敲键盘、能运行程序。

收录时间:
2026-05-11

🖥️ 一句话定位:AI的”云电脑”

Cua(全称 Computer Use Agent)是一个开源的计算机使用智能体平台。简单说,它给每个AI Agent配了一台真实的云桌面——带显示器、有浏览器、能点鼠标、能敲键盘、能运行程序。
目前已经在GitHub收获了 15.9k Star,被5万+工程师使用。

c/ua

c/ua 网站截图


🔥 四大核心特色,看完你就知道为什么它火了

1️⃣ 真·多系统沙箱:不止Linux,还有macOS/Windows/Android

市面上大多数AI运行环境只给Linux容器,但Cua直接提供了:
  • Linux、Windows、macOS、Android 四大系统的云桌面沙箱
  • 每个沙箱都有真实桌面、浏览器、root权限
  • 热启动不到1秒,即开即用
这意味着你的AI Agent可以在Windows上测试Excel宏,在macOS上跑Xcode,在Android上操作App——完全模拟真实用户场景

2️⃣ 截图级UI理解:AI真的能”看懂”界面

Cua内置了强大的视觉理解能力:
  • 截图标注:自动识别界面元素,生成带边界框的层级标注
  • OCR识别:读取屏幕上的文字内容
  • 密集描述:用自然语言描述复杂界面布局
配合 Computer SDK,Agent可以执行截图、点击、输入、Shell命令、文件操作、Playwright浏览器自动化——像人类一样与图形界面交互

3️⃣ 模型自由组合:本地 grounding + 云端 planner

Cua不绑定单一模型,支持灵活组合:
  • 云端大模型:Claude、Gemini、GPT-4 做”大脑”(规划决策)
  • 本地 grounding 模型:UI-TARS、Qwen 等做”眼睛”(界面理解)
  • 两者通过 Agent SDK 的 Observe-Reason-Act 循环协作
这种”分工”让Agent既聪明又省钱——复杂推理上云端,高频UI操作在本地。

4️⃣ 训练闭环:从运行到评估到RL,一条龙

这可能是Cua最硬核的地方——它不只是一个运行环境,更是一个Agent训练平台
模块 功能
Cua-Bench 在真实桌面沙箱上执行可验证任务,自动打分
任务环境 提供Slack、Spotify、WhatsApp、银行系统等真实Web应用副本
轨迹录制 记录Agent完整操作过程,筛选优质样本
RL训练 直接把轨迹喂进强化学习pipeline
你可以录制100次Agent操作,筛选出表现最好的20次,用来微调自己的模型——形成完整的”运行-评估-训练”闭环c/ua

🛠️ 开发者友好度拉满

  • CLI工具:一行命令创建、打开、管理沙箱
  • Snapshot API:保存沙箱完整状态,随时恢复,热启动<1秒
  • MCP Server:把Cua Agent当成工具,接入Claude Desktop、Cursor等客户端
  • 自托管支持:可以跑在自己的服务器上,数据不出境
  • Lume项目:本地Apple Silicon上的macOS沙箱,MIT协议开源,原生速度

💡 适合谁用?

AI Agent开发者:需要真实桌面环境测试Computer Use能力
自动化测试工程师:跨平台UI自动化,替代传统RPA
RL研究者:需要可验证的桌面任务环境做强化学习
企业IT:让AI自动操作内部系统,处理重复性桌面工作

相关导航

暂无评论

none
暂无评论...