多模态手机智能体 Mobile-Agent

Original 徐海洋 DataFunSummit

2024-09-11

导读本次分享将介绍阿里通义实验室最新的多模态手机智能体 Mobile-Agent 的相关工作。

主要内容包括：

1. 大模型智能体背景

2. 多模态手机智能体 Mobile-Agent-V1

3. 多模态手机智能体 Mobile-Agent-V2

4. Mobile-Agent 开源实战

分享嘉宾｜徐海洋阿里通义实验室高级算法专家

编辑整理｜王甲君

内容校对｜李瑶

出品社区｜DataFun

大模型智能体背景

随着大模型的快速发展，大模型智能体被认为是 AI 应用的未来。相比之前的深度学习和机器学习阶段，人们更多地将模型视为工具。而大模型智能体则展示了基于大模型可以开发出很多有趣的应用。

智能体的概念由来已久，早期主要与强化学习相关，像 OpenAI 和 DeepMind 有很多这方面的研究。之前的智能体工作主要在特定环境和任务上进行优化。而现在的大模型智能体吸引关注并能实现许多创新应用，主要原因在于：

大模型智能体基于海量数据训练，具备丰富的世界知识。
它有强大的推理和规划能力，这是智能体的核心能力。
它还具备调用工具的能力，如检索、代码生成和上下文学习等。

这些特点使大模型智能体能实现许多有趣的应用。

什么是大模型智能体系统呢？其实 AI 智能体不仅仅是工具或模型层面的概念，它能根据观察周围环境，进行思考并采取行动，从而自主完成任务。

目前公认的 Agent 定义包括两个方面：

个性化领域，需要定义一个 profile，包含智能体的背景、人设、人物经历、话术和情感。
功能层面，具备记忆能力（长期或短期记忆），能够对任务进行整体规划和拆解，不是像工具那样只处理输入和输出，而是通过结合 profile、memory 和 planning 来做出决策。

在 ChatGPT 发布后，AI Agent 领域出现了多种类型的模型、框架和应用，呈现井喷式增长的趋势，包括知名的开源框架 Meta GPT、Auto GPT 和 HuggingGPT，以及 ModelScope-Agent 都在业界具有显著影响。

我们团队目前专注于大模型智能体的开发，围绕几大赛道展开工作：

一是助手效率型智能体，能够快速协助开发者或用户完成任务。
二是个性化的 profile 类型智能体。
三是多模态智能体，涵盖各种操作终端，包括 Mobile 和 PC，满足多种使用场景的需求。

我们围绕大模型智能体技术应用开展的工作主要包括：

助手类智能体，如开源框架 ModelScope-Agent，无论是单智能体还是多智能体都可以使用。
个性化的通义星尘智能体。
多模态领域的 Mobile-Agent，这是本次介绍的重点，它是一个可以通过指令操作手机的智能体，无论是单 APP 还是多 APP 的 UI 交互，类似于苹果近期发布的 Siri。

多模态大模型智能体相较于基于文本的智能体，能在多模态环境中与现实世界进行交互（我们接触到的环境和世界是多模态的，所以需要在现实世界进行多模态环境交互）。当前已有一些有趣的多模态智能体，例如打游戏、视频生成以及 UI 操作的智能体（操作 Mobile 和 PC）。在大模型出现之前，这类应用非常少见。

多模态手机智能体 Mobile-Agent-V1

我们从今年 1 月开始开展多模态手机智能体 V1 版本的工作，最近发布了 V2 版本，两个版本都已在 GitHub 上开源。Mobile-Agent-V1 能够通过一句指令自动操作手机。我们的 Mobile-Agent 有三个特点：

采用纯视觉方案，不依赖系统数据，区别于之前依赖系统数据的工作；
能进行多个 APP 之间的操作；
可以进行整体感知、规划和反思，即理解手机 UI 界面，进行任务规划，以及判断每一步的完成情况和正确性。

V1 版本主要完成单指令和单 APP 操作，而 V2 版本实现复杂指令和多 APP 操作。V1 版本基于安卓模拟器实现，已展示了诸如天气查询、视频浏览、视频搜索和导航等全自动手机操作。

我们也提供了快速接入手机进行实测的方法，给出指令后，智能体可以从手机桌面多步完成任务。这与苹果前段时间发布的 Siri 比较类似，但我们的工作比他们早很多，且他们也引用了 Mobile-Agent-V1 的工作。

这是多模态手机智能体 Mobile-Agent-V1 在手机斗地主游戏上的一个测试案例。

下面具体介绍一下 Mobile-Agent 的工作原理。我们的纯视觉方案使用截屏数据和历史操作记录作为输入。用户给出全局指令，如“搜索今天湖人的比赛结果并在笔记本上记录分析”，然后将当前屏幕截图作为输入。Agent 首先观察页面情况，思考下一步操作，并在行动过程中使用工具完成操作。图中展示的就是 Mobile-Agent 整体的工作流程。

我们的行为空间目前包括七类操作：点击文本、点击图标、打字、上划&下划、返回上一页面、返回桌面和结束，主要提升在于多模态大模型的精确 grounding 能力。操作手机难在于精确定位指令的位置，即使最强的 GPT-4o 和 GPT-4v 在 grounding 能力上仍不足。

Grounding 是指将文本指令在视觉上进行定位，例如点击红色爱心或 star 图标，需要精确定位坐标。我们使用了具有 grounding 能力的 OCR 和图标分割工具。在操作过程中，多模态大模型根据页面情况给出可能操作的位置或图标描述，然后 OCR 和图标分割工具提供潜在选项，多模态大模型再做选择，这样比直接端到端回复更简单。这是 Mobile-Agent 在技术上的一个亮点。

这是一个关于搜索湖人比分的案例，其中第二步和第三步尤为有趣。图中第二步点错了，如果 Agent 不知道自己做错了，就会一直卡在这个界面上。因此，反思能力对于 Agent 来说非常关键。在第三步时，模型意识到错误后，重新思考并做出新决策。每一步操作与当前通用的Agent 方法类似，先观察页面描述，再进行思考，最后做出特定决策。

以上是 Mobile-Agent-V1 的工作，相关论文和代码已开源。

多模态手机智能体 Mobile-Agent-V2

接下来介绍 Mobile-Agent-V2 的工作。之所以开发 V2，是因为 V1 在单指令和单 APP 操作上表现良好，但在处理更复杂的指令和中文设置时遇到了问题。这是因为无论多模态大模型还是文本大模型，处理长序列操作都存在难度。因此，现在的趋势是使用 Multi Agent，因为它能将 Single Agent 的复杂操作拆分成多个 Agent，降低任务难度。

此外，操作手机涉及图文交互的操作历史，这对多模态大模型来说更难处理。相比于文本，多模态大模型处理长序列的问题更复杂。我们给出了一个案例，比如操作七步截屏，token 数量已达到 12K。准确率测试显示，Multi Agent 在处理复杂指令时，准确率明显高于 Single Agent。

这是我们在打车场景上适配的案例，图中给出的案例是通过高德打车到浙大，右侧的命令行操作过程是基于安卓手机模拟器。在 V2 中我们将 V1 的 Single Agent 转换成了 Multi Agent，同时延续了纯视觉方案。转换成 Multi Agent 的好处在于，操作手机本身较为复杂，常常超过十步，让 Single Agent 既做决策反思，又处理长序列，压力很大。因此，我们采用 Multi Agent，更有效地追踪任务进度，记录关键信息，拆解复杂指令，支持跨 APP 和多语言操作。

这是 Mobile-Agent-V2 的展示案例。你会发现，与 V1 相比，V2 具有许多进阶能力,包括中文操作，无论是微信、小红书，比如处理未读消息，转发视频，这些都可以很好地完成。同时，无论是在 YouTube 搜索视频，还是在 Twitter 上评论消息， V2 都能很好地完成。相比 V1，V2 能完成更多高级的操作和应用。

Mobile-Agent-V2 采用了 Multi Agent 的框架，主要包括 Planning Agent、Decision Agent 和 Reflection Agent。Planning Agent 负责记录任务完成进度和上一步操作，以及必要的关键信息，然后据此制定计划。Decision Agent 根据 Planning Agent 提供的指令和已完成的任务，决定具体操作，如点击特定位置，上划或下划，或者返回上一步。操作完成后，结果反馈给 Reflection Agent，Reflection Agent 评估当前步骤是否正确，任务是否结束，来决定是否返回上一步或结束当前任务。

这样的 Multi Agent 框架可以减轻 Single Agent 的任务压力，拆分成 Multi Agent 后，无论效率还是效果都有明显提升。Mobile-Agent-V2 的论文也已开源。

我们进行了动态评测，包括 5 个系统内置应用和 5 个第三方应用，单 APP 和多 APP 各有 2 条基础指令和进阶指令。结果显示，Mobile-Agent-V2 相比 V1 有明显提升。

一个有趣的问题是，我们的任务往往依赖于多模态大模型或文本大模型的预存知识。但对于新 APP 或复杂操作，可能超出模型能力。此时，开发者或用户可以自定义操作指南，遇到问题或个性化需求时，通过指令或说明书方式将知识输入到 Mobile-Agent 智能体中，以完成更复杂的任务。

我们的评测指标包括：是否完成任务（SR），完成步骤的比例，决策和反思的准确率。在论文中提供了结果，并区分了纯英文和中文两种语言设置的效果。

我们还进行了 Ablation Setting 和长序列评测。右侧的图展示了在任务更长更难时的效果差距。可以看到，Mobile-Agent-V1 在长序列任务中的完成度和准确率下降，符合我们的预期，因为它是单智能体。而 Mobile-Agent-V2 不受序列长度影响，表现更稳定。我们还分析了 backbone，发现手机操作仍然是非常难的任务，目前表现最好的仍是 GPT-4v 和 GPT-4o。

图中展示了 Mobile-Agent-V2 整体操作过程。相比 V1，操作过程更复杂，因为包含了计划、决策和记忆。在每步操作中，需要决定哪些信息需要记忆。在过程中，计划、决策和反思都是重要的能力。

我们也在探索将 Mobile-Agent-V2 扩展到更多终端，例如电脑。我们提供了几个案例，包括在电脑端搜索下载论文，编辑和保存 Word 文档，搜索论文并通过钉钉发送等。这些都显示了多模态智能体在各终端都有极大的潜力，无论是在电脑端提升效率，还是在手机端提供娱乐，都有着巨大的潜力。

多模态手机智能体 Mobile-Agent 开源实战

最后，介绍一下多模态手机智能体 Mobile-Agent 的开源和实战。Mobile-Agent 已在 GitHub 上开源，包含 demo 和部署方法。图中展示的是 ModelScope-Agent，它是阿里魔搭开发的中文开源社区，类似于 Hugging Face。ModelScope-Agent 也已将 Mobile-Agent 集成在内，大家可以在我们的仓库中体验提到的 demo 和相关功能。

具体操作非常简单，主要通过安卓模拟器进行。安装好相关依赖环境后，将安卓模拟器连接到电脑即可。操作过程中需安装安卓模拟器的键盘，因为许多操作需要打字。

运行方式方面，无论是 OCR 还是图片分割，都需在本地部署相应模型。如果本地电脑性能足够，可以直接部署；如果不够，可以通过 API 访问通义千问等模型，或者在 GitHub 上找到已部署的模型。如果本地无法部署，也可以使用 API。

为了加快操作，可以暂时关闭反思和记忆功能，因为对简单操作反思和记忆并不重要，但对复杂操作则需要。详细操作过程可参考 Mobile-Agent 开源项目的 README 文件，有兴趣的朋友可以试用。

我们也提供了另一种体验方式。原本通过真机实测，只需电脑连接手机并通过命令行操作。但由于 Mobile-Agent 基于安卓，很多 iOS 用户无法体验。

Mobile-Agent-V2 在 ModelScope 上提供了另一种方式，即通过手机截图体验。每次上传手机截图到 demo，智能体会框出当前需要的操作，如点击哪里，或是上划&下划。这种模拟体验方式适合不愿插手机或觉得操作麻烦的用户。此外，Hugging Face 上也开放了 Mobile-Agent-V1 和 V2 的 demo，供大家体验。

目前我们正在与魔搭社区紧密合作建设 Mobile-Agent 开发者社区，未来将扩展至 iOS 系统和更多有趣的应用场景，如游戏和个性化服务等等。此外，社区活动还将涵盖数据收集、模型训练、评测和比赛等。

目前，我们正基于 GPT-4v 和 GPT-4o 开发 Mobile-Agent-V3，探索纯开源和自主研发模型。欢迎大家参与并为 Mobile-Agent 项目做出贡献。

最后介绍一下通义 mPLUG。我负责整个通义 mPLUG 的多模态体系。我们从 2019 年就开始了多模态预训练，从最早的两阶段预训练，到端到端预训练，再到 2021、2022 年的大一统预训练，直至去年的类 GPT-4v 多模态大模型。我们在多模态文档大模型和多模态智能体方面也做了很多工作。这些成果都在 GitHub 上开源，感兴趣的朋友可以体验。

我们在 GitHub 上开源了整个通义 mPLUG 模块化的多模态体系，包括前述的 Mobile-Agent、多模态文档大模型 mPLUG-DocOwl、角色化工作、多智能体工作、对话大模型 mPLUG-Owl，以及幻觉模块等。

我们在多模态领域做了大量工作，并始终坚持开源理念。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

徐海洋

阿里通义实验室

高级算法专家

徐海洋，阿里通义实验室高级算法专家，负责通义多模态大模型 mPLUG 系列工作，包括基础多模态模型 mPLUG/mPLUG-2，多模态对话大模型 mPLUG-Owl/Owl2，多模态文档大模型 mPLUG-DocOwl，多模态智能体 Mobile-Agent 等，其中 mPLUG 工作在 VQA 榜单首超人类的成绩。在国际顶级期刊和会议 ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI 等发表论文 30 多篇，并担任多个顶级和会议 AC/PC/Reviewer。主导参与开源项目 mPLUG，X-PLUG，AliceMind，DELTA。

活动推荐

往期推荐

大模型推荐系统：进展与未来

利用大语言模型促进综合图学习能力

开源框架 ModelScope-Agent 加速多智能体应用构建

数据治理在真实应用场景的落地探索！

大模型与图机器学习协同的用户行为风控

从RAG到Agent，就是大模型的全部了？

加速云端机器学习-Alluxio 在小红书的实践

从 Bert 到 LLM：360 广告推荐业务中语言模型的应用探索

模型赋能下的数据安全合规管理

TCHouse-C 实时数据更新的技术选型与工程实践

点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个

DataFunSummit

向上滑动看下一个

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

多模态手机智能体 Mobile-Agent

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

多模态手机智能体 Mobile-Agent

您可能也对以下帖子感兴趣