c/ua

1个月前更新 197 0 0

Cua（全称 Computer Use Agent）是一个开源的计算机使用智能体平台。它给每个AI Agent配了一台真实的云桌面——带显示器、有浏览器、能点鼠标、能敲键盘、能运行程序。

收录时间：

2026-05-11

打开网站手机查看

AI工具 # AIAgent # c/ua # ComputerUse # 云桌面 # 自动化

🖥️ 一句话定位：AI的”云电脑”

Cua（全称 Computer Use Agent）是一个开源的计算机使用智能体平台。简单说，它给每个AI Agent配了一台真实的云桌面——带显示器、有浏览器、能点鼠标、能敲键盘、能运行程序。

目前已经在GitHub收获了 15.9k Star，被5万+工程师使用。

c/ua

c/ua 网站截图

🔥 四大核心特色，看完你就知道为什么它火了

1️⃣ 真·多系统沙箱：不止Linux，还有macOS/Windows/Android

市面上大多数AI运行环境只给Linux容器，但Cua直接提供了：

Linux、Windows、macOS、Android 四大系统的云桌面沙箱
每个沙箱都有真实桌面、浏览器、root权限
热启动不到1秒，即开即用

这意味着你的AI Agent可以在Windows上测试Excel宏，在macOS上跑Xcode，在Android上操作App——完全模拟真实用户场景。

2️⃣ 截图级UI理解：AI真的能”看懂”界面

Cua内置了强大的视觉理解能力：

截图标注：自动识别界面元素，生成带边界框的层级标注
OCR识别：读取屏幕上的文字内容
密集描述：用自然语言描述复杂界面布局

配合 Computer SDK，Agent可以执行截图、点击、输入、Shell命令、文件操作、Playwright浏览器自动化——像人类一样与图形界面交互。

3️⃣ 模型自由组合：本地 grounding + 云端 planner

Cua不绑定单一模型，支持灵活组合：

云端大模型：Claude、Gemini、GPT-4 做”大脑”（规划决策）
本地 grounding 模型：UI-TARS、Qwen 等做”眼睛”（界面理解）
两者通过 Agent SDK 的 Observe-Reason-Act 循环协作

这种”分工”让Agent既聪明又省钱——复杂推理上云端，高频UI操作在本地。

4️⃣ 训练闭环：从运行到评估到RL，一条龙

这可能是Cua最硬核的地方——它不只是一个运行环境，更是一个Agent训练平台：

模块	功能
Cua-Bench	在真实桌面沙箱上执行可验证任务，自动打分
任务环境	提供Slack、Spotify、WhatsApp、银行系统等真实Web应用副本
轨迹录制	记录Agent完整操作过程，筛选优质样本
RL训练	直接把轨迹喂进强化学习pipeline

你可以录制100次Agent操作，筛选出表现最好的20次，用来微调自己的模型——形成完整的”运行-评估-训练”闭环。 c/ua

c/ua

🛠️ 开发者友好度拉满

CLI工具：一行命令创建、打开、管理沙箱
Snapshot API：保存沙箱完整状态，随时恢复，热启动<1秒
MCP Server：把Cua Agent当成工具，接入Claude Desktop、Cursor等客户端
自托管支持：可以跑在自己的服务器上，数据不出境
Lume项目：本地Apple Silicon上的macOS沙箱，MIT协议开源，原生速度

💡 适合谁用？

✅ AI Agent开发者：需要真实桌面环境测试Computer Use能力
✅ 自动化测试工程师：跨平台UI自动化，替代传统RPA
✅ RL研究者：需要可验证的桌面任务环境做强化学习
✅ 企业IT：让AI自动操作内部系统，处理重复性桌面工作

相关导航

TypingSVG

TypingSVG是一款开源的打字动画SVG生成器，在原有工具基础上进行了大幅增强，专注于灵活性与渲染精确。

Klic Studio

Klic Studio 是一款融合 AI 语音合成、机器翻译、智能剪辑和文稿生成等前沿技术的全链路视频本地化平台。

Docmost

Docmost是一款开源、自托管的协作式 Wiki 和文档平台，被誉为 Confluence 和 Notion 的优秀开源替代品.

通义千问

通义千问是提供人工智能问答系统的网页，它不仅可以回答问题、撰写代码、生成文本，还能进行跨语言翻译、文档归纳、PPT创作等多种功能，适用于学习、工作、生活等多个领域。

Slidesgo

Slidesgo是一款PPT模板资源下载平台，致力于为用户提供结构完整、视觉美观、主题丰富的演示文稿模板。

谱乐AI

谱乐AI是一站式AI音乐创作平台，集AI音乐生成、混音、母带处理、人声克隆与替换以及音乐发行于一体，让人人都可以创作，人人都可以发行。

GitMCP

GitMCP 是一款面向 GitHub 项目的 AI 辅助平台，它通过搭建 Model Context Protocol（MCP）服务器，将任意公开仓库的代码结构、文档和配置转化为机器可读取的上下文信息。

Hermes Desktop

Hermes Desktop是一个真正能自我成长、长期记忆、跨平台陪伴你的自主 AI Agent，支持 macOS、Windows 和 Linux，让普通用户也能轻松驾驭这个强大 Agent。

暂无评论

none

暂无评论...