我要投稿

豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型

AI老司机 AI行业动态

2025-04-18 0 361

豆包1.5·UI-TARS是什么

豆包1.5·UI-TARS是字节豆包推出的面向图形界面交互（GUI）的Agent模型。模型基于感知、推理和动作执行等类人能力，与图形界面进行连续、流畅的交互。模型将视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中，无需预定义工作流程或人工规则，实现端到端的任务自动化。豆包1.5·UI-TARS 已在火山方舟平台上线。

豆包1.5·UI-TARS的主要功能

图形界面交互能力：基于感知、推理和动作执行，与图形用户界面进行连续、流畅的交互，完成复杂的任务。
视觉理解与定位：理解屏幕上的视觉信息，支持多目标、小目标的框定位和点定位，进行定位计数、描述定位内容等。
逻辑推理与决策：结合视觉信息和任务指令，进行逻辑推理，生成合理的操作步骤。
高执行效率：基于方舟豆包大模型推理服务，全网最高吞吐，初始500w TPM，极致的推理延迟，TPOT 30ms。
原生GUI Agent：无需预定义流程或人工规则，实现端到端的自动化GUI交互任务执行。

豆包1.5·UI-TARS的技术原理

视觉大模型（VLM）：模型基于强大的视觉大模型，理解和处理图形界面中的视觉信息，包括图像、文本、图标等。
多模态融合：将视觉感知、逻辑推理和动作执行能力集成到一个模型中，实现多模态信息的融合处理。
端到端学习：基于大量的标注数据和强化学习，模型学习从任务输入到操作输出的端到端映射，无需人工定义规则。

豆包1.5·UI-TARS的项目官网

项目官网：https://www.volcengine.com/docs

豆包1.5·UI-TARS的应用场景

自动化办公：自动处理文档、表格、邮件等任务，提高效率。
软件测试：模拟用户操作，检测软件问题，提升质量。
智能客服：实时解答用户问题，提供操作指导。
机器人交互：指导机器人完成复杂操作，应用在工业和物流。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型 https://www.ailsj.cn/1402.html