欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

清华大学推 AutoDroid-V2:优化移动端自动化 GUI 操控

发布时间:2025-01-05 文章来源:本站  浏览次数:756
AutoDroid-V2 是清华大学智能产业研究院(AIR)于 2024 年 12 月 24 日发布的 AI 模型,在优化移动端自动化 GUI 控制方面有显著成果。以下是其具体介绍:

技术原理


  • 基于脚本的方法:与传统依赖云端大型语言模型(LLM)的 “逐步 GUI 智能体” 方式不同,AutoDroid-V2 采用基于脚本的方法,根据用户指令生成多步骤脚本,一次性执行多个 GUI 操作,大幅减少了查询频率和资源消耗。
  • 利用设备端小型语言模型:利用设备上的小型语言模型(SLM)进行脚本生成和执行,避免了对强大云端模型的依赖,有效保护了用户隐私和数据安全,并降低了服务器端成本。
  • 离线构建应用程序文档:在离线阶段构建应用程序文档,包含 AI 引导的 GUI 状态压缩、元素 XPath 自动生成和 GUI 依赖分析,为脚本生成奠定基础。

性能优势


  • 任务完成率显著提升:在 23 个移动应用上进行 226 项任务的基准测试,与 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基线相比,任务完成率提高 10.5%-51.7%。
  • 资源消耗大幅降低:输入和输出 token 消耗分别减少至 43.5 分之一和 5.8 分之一,LLM 推理延迟降低至 5.7-13.4 分之一。
  • 跨 LLM 适应性良好:在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表现一致,成功率 44.6%-54.4%,反向冗余比 90.5%-93.0%。

应用前景


  • 提升用户体验:用户可以通过自然语言更高效地控制移动设备,执行复杂任务,如自动完成一系列应用内的操作流程,无需手动逐个点击,为用户带来更加便捷、智能的操作感受。
  • 助力移动应用开发与测试:开发者可以利用 AutoDroid-V2 快速进行应用的自动化测试,模拟用户操作,提高测试效率和覆盖范围,及时发现和修复问题,提升应用质量。
  • 拓展智能设备交互场景:为智能家居、智能车载等领域的设备控制提供了新的思路和方法,通过自然语言实现对多种智能设备的统一控制,打造更加智能、便捷的物联网生态。

上一条:优必选工业人形机器人 W...

下一条:长沙经开区构建产业开展“...