克拉玛依铝皮保温 字节开源GUI Agent登顶GitHub热榜,豆包手机中枢时刻冲破26k Star


铁皮保温

GitHub 新热榜榜克拉玛依铝皮保温,来自字节。

这波自研硬核时刻不是别的——

恰是豆包手机的中枢维持,GUI Agent 模子UI-TARS。

力压 OpenAI 官 Skills,开源登顶榜,冲破 26k Star!

UI-TARS 的中枢是个多模态 AI 智能体,你只有通过天然言语教唆——

也便是说句东谈主话,就能让它我方点鼠标、敲键盘、拖动转动、翻页浏览,在浏览器和各式软件里帮你完成整套复杂操作。

主要包含了 Agent TARS 和 UI-TARS-desktop 两个形态。

Agent TARS 支手键式开箱即用的 CLI,不错在有界面的 Web UI 环境实行,也能在界面的工作器环境运行;

UI-TARS-desktop 则是个桌面利用关键,主要帮你操作腹地电脑和浏览器。

纯视觉驱动

UI-TARS 这种 GUI Agent 的中枢逻辑其实便是五个字——纯视觉驱动。

纯视觉有啥特质呢?

手机:18632699551(微信同号)

从传统 RPA 这类自动化器具来看,它们要想干活儿就得去扒复杂的网页源码、记控件编号,况且旦这些界面稍稍改点,剧本就凯旋报废了。

纯视觉便是说,靠内置的视觉大模子,AI 就能凯旋像东谈主眼样不雅察屏幕。

非论软件有莫得盛开 API、非论界面有多复杂,只有你能看清菜单在哪、按钮在哪,它就也能,然后帮你操作。

如若有一又友想体验,部署起来也相等苟简,只需要三步。

步,查验有莫得装置Node.js和Chrome,没装置 Node.js 的话,要装置个>=22 的版块。

查验不错用如下号召:

node -v

如若莫得还莫得装置,不错用 nvm 先装置下:

# Install Node.js LTS

nvm install --lts

# Switch to Node.js LTS

nvm use --lts

二步,装置 Agent TARS。

新版:

npm install @agent-tars/cli@latest -g

公测版:

npm install @agent-tars/cli@next -g克拉玛依铝皮保温

三步,选拔模子,需要 API,面前 Agent TARS 可兼容 Seed1.5-VL、claude-3.7-sonnet 和 gpt-4o。

agent-tars

--provider volcengine

--model doubao-1-5-thinking-vision-pro-250428

--apiKey {apiKey}

agent-tars

--provider anthropic

--model claude-3-7-sonnet-latest

--apiKey {apiKey}

agent-tars

--provider openai

--model gpt-4o

--apiKey {apiKey}

选完模子后,出现如下界面就示意部署完成啦!

然后咱们上头框选的引导,即可开 Web 用户界面。

接下来就不错对它发!号!施!令!了。

豆包手机天然时成为了风光的爆款,电脑版当今登顶了开源榜,但这项时刻其实早在年前就启动布局了。

UI-TARS 的中枢诡计是让 Agent 真确具备感知、动作、理、操心四大智商。

2025 年 1 月和清华作开源,成为国产纯视觉 GUI Agent 中个在基准测试对标并越 GPT-4o 的形态。

接着它就启动了路狂飙进化。

初代凭借 600 万质料教程数据注入的度念念考智商,以及的统动作空间,让 AI 像东谈主类样看懂并操作界面,在多项 SOTA 榜单上插旗。

短短 3 个月后,又迎来了 UI-TARS-1.5。

让 Agent 在出手前先多想几步,通过 Inference-time Scaling 预判后果,尤其在 GUI 定位任务上刷新了行业记录。

到了 9 月,UI-TARS-2 的出现将智商拉满,铝皮保温成为豆包手机的底层时刻。

它针对数据瓶颈、多轮 RL 不稳、纯 GUI 局限、环境前后仰四大痛点,通过"数据飞轮"让模子和数据相互喂养进化。

不再局限于单纯的与滑动,而是通了文献系统与沙盒平台,将浏览器、号召行、器具调用全量整。

几轮迭代下来,UI-TARS 照旧成为火的开源多模态 Agent 之。

走"前门"的 GUI Agent

说到 Agent、GUI Agent,就在几天前,梦想汽车 CEO 李想的条一又友圈也在科技圈引起柔和。

他指出 2025 年具冲破的三个风光居品鉴别是 Claude Code、豆包手机、Manus;

而 2026 年个月就出现了三个风光的居品:OpenClaw、MoltBook、Chrome Gemini。

不错说,被点名的 6 个居品,有 5 个齐和 Agent 凯旋关连,致使有 3 个齐是 GUI Agent。

(如若把 Claude Code 看作 Coding Agent,也不错说是 6 个……)

豆包手机:手机里的 GUI Agent,凯旋让 AI 像东谈主样看屏、、切换 APP;

OpenClaw:电脑里的 GUI Agent,不错操作利用关键、贬责文献、通过通信器具接纳教唆实行复杂任务;

Chrome Gemini:浏览器里的 GUI Agent,模拟东谈主类完成网页跳转、信息索要、表单填写等操作。

这三款居品的底层逻辑致,齐是纯视觉驱动的端侧交互实行门道。

在输入上,不读取 APP/ 网页 / 软件里面的空间 ID、源码、独到接口等,统截取屏幕像素图像算作唯输入,靠多模态视觉模子识别界面元素;

在实行上,不调用 API 完成,凯旋模拟东谈主的交互行径进行、滑动、窗口切换,和真东谈主操作的系统进口致;

在兼容逻辑上,非论诡计利用是否盛开 API、是否老旧闭源、是否加密,只有屏幕能暴露、东谈主能操作,它就能实行。

再说说另外两个。

Manus 是云霄全自主通用 Agent,不靠纯视觉模拟界面操作,先调用 API 与器具链自主拆解复杂任务,在云霄沙箱完身分析、处理、生周全经由,凯旋托付终恶果,不错说是注复杂任务闭环的数字职工。

MoltBook 则吵嘴实行类 Agent 载体,不操作界面、不调用 API 完成实用任务,而是让千般 Agent 自主发帖、互动、产生内容,是不带物理操作,纯方案层的自主 Agent 行径。

不错说,这几个居品看似各有域,却共同指向个中枢问题——

怎样让 AI 真确"出手"帮东谈主类干活?

GUI Agent 们选拔"走前门",凯旋看屏模拟操作,冲破阻滞生态的壁垒;

也有的靠灵敏酌量和器具链闭环来托付恶果;

致使有的把 Agent 们向我方的全国,放大 AI 之间的聚会。

于是李想在两天后又发了条有道理的不雅点:

原来计 Agent 这类 AI 器具会缩凡人与东谈主之间的智商差距,骨子上却是十倍、百倍地放大了差距。

GitHub 引导:https://github.com/bytedance/UI-TARS-desktop

—  宽贷 AI 居品从业者共建  —

� �「AI 居品常识库」是量子位智库基于遥远居品库跟踪和用户行径数据出的飞书常识库,旨在成为 AI 行业从业者、投资者、探究者的中枢信息关节与方案支手平台。

键柔和 � � 点亮星标

科技前沿线路逐日见克拉玛依铝皮保温

相关词条:玻璃棉毡     塑料挤出机     预应力钢绞线    铁皮保温    万能胶生产厂家