首页站长资讯Mobile-Agent: 具有视觉感知可以像人类样操作手机的自主多模态AI代理

Mobile-Agent: 具有视觉感知可以像人类样操作手机的自主多模态AI代理

站长网2024-01-31 17:05:141阅

划重点:

📱 纯视觉解决方案，无需系统代码，通过图像分析理解和操作手机

🤖 能完成多种任务，如购物、播放音乐、使用导航APP、写便签和发邮件

🔍 特点包括独立于XML和系统元数据、即插即用、自主任务规划和执行、自反思能力

Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理，由北京交通大学联合阿里巴巴团队共同开发。简单的说，Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理。

该代理采用纯视觉解决方案，独立于XML和系统元数据，不需要任何系统代码，完全通过分析图像来理解和操作手机。

它能够自动完成各种任务，比如可以在淘宝加购物车车，在APP播放音乐，自主使用导航APP，收发邮件等等。

Mobile-Agent的主要特点包括操作范围不受限制，多应用操作，以及采用纯视觉解决方案。其无需探索和培训，用户可随时使用。项目团队通过 Mobile-Eval 进行了性能评估，包括10个主流单应用场景和1个多应用场景，为用户提供了详细的评估结果。该评估覆盖了阿里巴巴、亚马逊音乐、谷歌地图等10个应用场景，以及一个多应用场景。

每个场景设计了三个不同难度的指令，以评估 Mobile-Agent 在各种任务下的表现，具体如下

应用操作说明阿里巴巴1.帮我在阿里巴巴找帽子。

2.帮我在阿里巴巴找帽子。如果商品信息页面中显示“添加到购物车”，请将商品添加到我的购物车。

3.我想买一顶帽子。我听说阿里巴巴的东西很便宜。也许你可以帮我找到它。

亚马逊音乐1.在亚马逊音乐中搜索歌手周杰伦。

2. 在亚马逊音乐中搜索一首关于“特工”的音乐并播放。

3.我想听音乐放松一下。寻找一个应用程序来帮助我。

谷歌浏览器1. 搜索今天湖人队比赛的结果。

2. 搜索有关泰勒·斯威夫特的信息。

3. 我想知道今天湖人队比赛的结果。寻找一个应用程序来帮助我。

邮箱1. 发送一封空电子邮件至 {address}。

2. 发邮件到{address}n告诉我的新作品。

3. 我想让我的朋友知道我的新作品，他的地址是{address}。寻找一个应用程序来帮助我。

谷歌地图1.导航至杭州西湖。

2. 导航到附近的加油站。

3.我想去杭州西湖，但不认识路。寻找一个应用程序来帮助我。

谷歌游戏1. 在 Play 商店下载 WhatsApp。

2. 在 Play 商店下载 Instagram。

3. 我想要在手机上安装 WhatsApp。寻找一个应用程序来帮助我。

笔记1. 在Notes中创建一个新笔记。

2. 在Notes中创建一个新笔记并写入“您好，这是一条笔记”，然后保存。

3.我突然有事要记录，帮我找个App，写下以下内容:下午3点开会。

设置1.开启深色模式。

2. 打开飞行模式。

3. 我想查看电池电量下的实时网速，请帮我打开此设置。

抖音1. 在 TikTok 中滑动一段有关宠物猫的视频，并为该视频点“赞”。

2、在抖音里刷一段关于宠物猫的视频并评论“哦哦哦，好可爱的猫!”。

3.在TikTok中滑动视频。点击“喜欢”3只宠物视频猫。

YouTube1. 在 YouTube 上搜索有关斯蒂芬·库里的视频。

2. 在 YouTube 上搜索有关斯蒂芬·库里的视频，然后打开“评论”评论“哦，厨师，你的篮球精神一直激励着我”。

3. 我需要你帮助我在 YouTube 上表达我对斯蒂芬·库里的喜爱。

多应用程序1. 打开日历并查看今天的日期，然后转到“注释”并创建一个新注释以写入“今天是{今天的数据}”。

2.查看未来5天的温度，然后在笔记中新建一条笔记，写下温度分析。

3. 搜索今天湖人队比赛的结果，然后在注释中创建注释，为该结果撰写体育新闻。

MobileAgent的特点包括依赖于纯视觉解决方案、独立于XML和系统元数据、具备多种视觉感知工具进行操作定位、无需探索和训练即插即用。其工作原理涵盖视觉感知工具、自主任务规划和执行、自反思等关键模块，使其能够准确识别和操作手机屏幕上的各种元素。团队宣布即将发布移动代理的演示视频，展示其在实际操作中的性能和应用场景。

MobileAgent具有视觉感知可以像人类样操作手机的自主多模态AI代理

0001

评论列表

共(0)条

Mobile-Agent: 具有视觉感知可以像人类样操作手机的自主多模态AI代理

LLaVA-1.6来了！赶超Gemini Pro 提升推理性能

淘宝直播新招提前刺激双11

百度引导百家号头部账号公示实名：不同意影响流量、收益

白宫报告称美国10%的员工面临高度暴露于人工智能的风险

谁在为“雪季”买单？

​Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理

LLaVA-1.6来了！赶超Gemini Pro 提升推理性能

淘宝直播新招提前刺激双11

百度引导百家号头部账号公示实名：不同意影响流量、收益

白宫报告称美国10%的员工面临高度暴露于人工智能的风险

谁在为“雪季”买单？

Mobile-Agent: 具有视觉感知可以像人类样操作手机的自主多模态AI代理