克拉玛依铝皮保温 字节开源GUI Agent登顶GitHub热榜,豆包手机中枢时刻冲破26k Star

GitHub 新热榜榜克拉玛依铝皮保温,来自字节。
这波自研硬核时刻不是别的——
恰是豆包手机的中枢维持,GUI Agent 模子UI-TARS。
力压 OpenAI 官 Skills,开源登顶榜,冲破 26k Star!
UI-TARS 的中枢是个多模态 AI 智能体,你只有通过天然言语教唆——
也便是说句东谈主话,就能让它我方点鼠标、敲键盘、拖动转动、翻页浏览,在浏览器和各式软件里帮你完成整套复杂操作。
主要包含了 Agent TARS 和 UI-TARS-desktop 两个形态。
Agent TARS 支手键式开箱即用的 CLI,不错在有界面的 Web UI 环境实行,也能在界面的工作器环境运行;
UI-TARS-desktop 则是个桌面利用关键,主要帮你操作腹地电脑和浏览器。
纯视觉驱动
UI-TARS 这种 GUI Agent 的中枢逻辑其实便是五个字——纯视觉驱动。
纯视觉有啥特质呢?
手机:18632699551(微信同号)从传统 RPA 这类自动化器具来看,它们要想干活儿就得去扒复杂的网页源码、记控件编号,况且旦这些界面稍稍改点,剧本就凯旋报废了。
纯视觉便是说,靠内置的视觉大模子,AI 就能凯旋像东谈主眼样不雅察屏幕。
非论软件有莫得盛开 API、非论界面有多复杂,只有你能看清菜单在哪、按钮在哪,它就也能,然后帮你操作。
如若有一又友想体验,部署起来也相等苟简,只需要三步。
步,查验有莫得装置Node.js和Chrome,没装置 Node.js 的话,要装置个>=22 的版块。
查验不错用如下号召:
node -v
如若莫得还莫得装置,不错用 nvm 先装置下:
# Install Node.js LTS
nvm install --lts
# Switch to Node.js LTS
nvm use --lts
二步,装置 Agent TARS。
新版:
npm install @agent-tars/cli@latest -g
公测版:
npm install @agent-tars/cli@next -g克拉玛依铝皮保温
三步,选拔模子,需要 API,面前 Agent TARS 可兼容 Seed1.5-VL、claude-3.7-sonnet 和 gpt-4o。
agent-tars
--provider volcengine
--model doubao-1-5-thinking-vision-pro-250428
--apiKey {apiKey}
或
agent-tars
--provider anthropic
--model claude-3-7-sonnet-latest
--apiKey {apiKey}
或
agent-tars
--provider openai
--model gpt-4o
--apiKey {apiKey}
选完模子后,出现如下界面就示意部署完成啦!
然后咱们上头框选的引导,即可开 Web 用户界面。
接下来就不错对它发!号!施!令!了。
豆包手机天然时成为了风光的爆款,电脑版当今登顶了开源榜,但这项时刻其实早在年前就启动布局了。
UI-TARS 的中枢诡计是让 Agent 真确具备感知、动作、理、操心四大智商。
2025 年 1 月和清华作开源,成为国产纯视觉 GUI Agent 中个在基准测试对标并越 GPT-4o 的形态。
接着它就启动了路狂飙进化。
初代凭借 600 万质料教程数据注入的度念念考智商,以及的统动作空间,让 AI 像东谈主类样看懂并操作界面,在多项 SOTA 榜单上插旗。
短短 3 个月后,又迎来了 UI-TARS-1.5。
让 Agent 在出手前先多想几步,通过 Inference-time Scaling 预判后果,尤其在 GUI 定位任务上刷新了行业记录。
到了 9 月,UI-TARS-2 的出现将智商拉满,铝皮保温成为豆包手机的底层时刻。
它针对数据瓶颈、多轮 RL 不稳、纯 GUI 局限、环境前后仰四大痛点,通过"数据飞轮"让模子和数据相互喂养进化。
不再局限于单纯的与滑动,而是通了文献系统与沙盒平台,将浏览器、号召行、器具调用全量整。
几轮迭代下来,UI-TARS 照旧成为火的开源多模态 Agent 之。
走"前门"的 GUI Agent
说到 Agent、GUI Agent,就在几天前,梦想汽车 CEO 李想的条一又友圈也在科技圈引起柔和。
他指出 2025 年具冲破的三个风光居品鉴别是 Claude Code、豆包手机、Manus;
而 2026 年个月就出现了三个风光的居品:OpenClaw、MoltBook、Chrome Gemini。
不错说,被点名的 6 个居品,有 5 个齐和 Agent 凯旋关连,致使有 3 个齐是 GUI Agent。
(如若把 Claude Code 看作 Coding Agent,也不错说是 6 个……)
豆包手机:手机里的 GUI Agent,凯旋让 AI 像东谈主样看屏、、切换 APP;
OpenClaw:电脑里的 GUI Agent,不错操作利用关键、贬责文献、通过通信器具接纳教唆实行复杂任务;
Chrome Gemini:浏览器里的 GUI Agent,模拟东谈主类完成网页跳转、信息索要、表单填写等操作。
这三款居品的底层逻辑致,齐是纯视觉驱动的端侧交互实行门道。
在输入上,不读取 APP/ 网页 / 软件里面的空间 ID、源码、独到接口等,统截取屏幕像素图像算作唯输入,靠多模态视觉模子识别界面元素;
在实行上,不调用 API 完成,凯旋模拟东谈主的交互行径进行、滑动、窗口切换,和真东谈主操作的系统进口致;
在兼容逻辑上,非论诡计利用是否盛开 API、是否老旧闭源、是否加密,只有屏幕能暴露、东谈主能操作,它就能实行。
再说说另外两个。
Manus 是云霄全自主通用 Agent,不靠纯视觉模拟界面操作,先调用 API 与器具链自主拆解复杂任务,在云霄沙箱完身分析、处理、生周全经由,凯旋托付终恶果,不错说是注复杂任务闭环的数字职工。
MoltBook 则吵嘴实行类 Agent 载体,不操作界面、不调用 API 完成实用任务,而是让千般 Agent 自主发帖、互动、产生内容,是不带物理操作,纯方案层的自主 Agent 行径。
不错说,这几个居品看似各有域,却共同指向个中枢问题——
怎样让 AI 真确"出手"帮东谈主类干活?
GUI Agent 们选拔"走前门",凯旋看屏模拟操作,冲破阻滞生态的壁垒;
也有的靠灵敏酌量和器具链闭环来托付恶果;
致使有的把 Agent 们向我方的全国,放大 AI 之间的聚会。
于是李想在两天后又发了条有道理的不雅点:
原来计 Agent 这类 AI 器具会缩凡人与东谈主之间的智商差距,骨子上却是十倍、百倍地放大了差距。
GitHub 引导:https://github.com/bytedance/UI-TARS-desktop
— 宽贷 AI 居品从业者共建 —
� �「AI 居品常识库」是量子位智库基于遥远居品库跟踪和用户行径数据出的飞书常识库,旨在成为 AI 行业从业者、投资者、探究者的中枢信息关节与方案支手平台。
键柔和 � � 点亮星标
科技前沿线路逐日见克拉玛依铝皮保温
相关词条:玻璃棉毡 塑料挤出机 预应力钢绞线 铁皮保温 万能胶生产厂家