🖥️ 一句话定位:AI的”云电脑”
Cua(全称 Computer Use Agent)是一个
开源的计算机使用智能体平台。简单说,它给每个AI Agent配了一台真实的
云桌面——带显示器、有浏览器、能点鼠标、能敲键盘、能运行程序。
目前已经在GitHub收获了
15.9k Star,被5万+工程师使用。

c/ua 网站截图
🔥 四大核心特色,看完你就知道为什么它火了
1️⃣ 真·多系统沙箱:不止Linux,还有macOS/Windows/Android
市面上大多数AI运行环境只给Linux容器,但Cua直接提供了:
这意味着你的AI Agent可以在Windows上测试Excel宏,在macOS上跑Xcode,在Android上操作App——完全模拟真实用户场景。
2️⃣ 截图级UI理解:AI真的能”看懂”界面
Cua内置了强大的视觉理解能力:
配合
Computer SDK,Agent可以执行截图、点击、输入、Shell命令、文件操作、Playwright浏览器
自动化——
像人类一样与图形界面交互。
3️⃣ 模型自由组合:本地 grounding + 云端 planner
Cua不绑定单一模型,支持灵活组合:
-
云端大模型:Claude、Gemini、GPT-4 做”大脑”(规划决策)
-
本地 grounding 模型:UI-TARS、Qwen 等做”眼睛”(界面理解)
-
两者通过 Agent SDK 的 Observe-Reason-Act 循环协作
这种”分工”让Agent既聪明又省钱——复杂推理上云端,高频UI操作在本地。
4️⃣ 训练闭环:从运行到评估到RL,一条龙
这可能是Cua最硬核的地方——它不只是一个运行环境,更是一个Agent训练平台:
| 模块 |
功能 |
| Cua-Bench |
在真实桌面沙箱上执行可验证任务,自动打分 |
| 任务环境 |
提供Slack、Spotify、WhatsApp、银行系统等真实Web应用副本 |
| 轨迹录制 |
记录Agent完整操作过程,筛选优质样本 |
| RL训练 |
直接把轨迹喂进强化学习pipeline |
你可以录制100次Agent操作,筛选出表现最好的20次,用来微调自己的模型——
形成完整的”运行-评估-训练”闭环。

🛠️ 开发者友好度拉满
-
CLI工具:一行命令创建、打开、管理沙箱
-
Snapshot API:保存沙箱完整状态,随时恢复,热启动<1秒
-
MCP Server:把Cua Agent当成工具,接入Claude Desktop、Cursor等客户端
-
自托管支持:可以跑在自己的服务器上,数据不出境
-
Lume项目:本地Apple Silicon上的macOS沙箱,MIT协议开源,原生速度
💡 适合谁用?
✅ AI Agent开发者:需要真实桌面环境测试Computer Use能力
✅ 自动化测试工程师:跨平台UI自动化,替代传统RPA
✅ RL研究者:需要可验证的桌面任务环境做强化学习
✅ 企业IT:让AI自动操作内部系统,处理重复性桌面工作