网络百科 心情随笔 AI Agent涌向移动终端,手机智能体开启跨端跨应用业务连接新场景

AI Agent涌向移动终端,手机智能体开启跨端跨应用业务连接新场景

AI Agent涌向移动终端,手机智能体势不可挡

还没搞清楚什么是AI Agent,手机Agent就已经横空出世

AIGC为何涌向移动端?背后有哪些逻辑?什么是手机智能体?一文看明白

科技大厂、手机厂商、企服领域都在发力,手机智能体成AI Agent新趋势

AI Agent迎来移动端大爆发,手机智能体将成企业AIGC新标配

AI Agent移动应用大升级,手机智能体开启跨端跨应用业务连接新场景

文/王吉伟

春节期间OpenAI推出的AI视频模型Sora火出天际,到处都是文生视频模型如何厉害如何改变真实世界的信息,以至于OpenAI在AI Agent方面的最新动向都被掩盖了。

春节前的2月8日,科技媒体The Information报道OpenAI正开发两款革命性的Agent软件,其中一款能够有效接管客户的设备来自动执行复杂的任务。

据说,这个Agent能够自动执行点击、光标移动、文本输入等操作,与人类操作软件无异。例如,把文档中的数据传输到电子表格中进行分析,或者自动填写费用报告并将其输入会计软件,或者根据一定的预算制定行程或预订机票。

这个能够直接操纵个人电脑自动完成各种任务的智能体,现在被更多媒体称作AI Agent 2.0。

这些报道没有具体说明这款Agent所接管的设备是PC还是手机,不过ChatGPT有移动端,能够在手机或者平板上调用这个Agent是迟早的事。

想要在移动端构建AI Agent的大语言模型(LLM,Large Language Models)厂商,远不止OpenAI这一家。

去年12月,腾讯与德州大学达拉斯分校合作推出了一个名为AppAgent的项目。该项目可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务。

包括在社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑。AppAgent在50个任务上进行了广泛测试,涵盖了10种不同的应用程序。

2月初,阿里巴巴与北京交通大学联合推出了一款全新的手机操作智能体框架Mobile-Agent。该框架的核心优势在于其纯视觉解决方案。传统的手机操作方式往往需要依赖XML等标记语言以及系统元数据,而Mobile-Agent则完全摒弃了这些需求。

这意味着,用户无需进行复杂的设置或修改,只需通过直观的视觉指示即可完成操作。

除了科技大厂,LLM创业团队也推出了相应的Agent项目。比如在去年12月,清华&智谱AI团队推出的CogAgent-Chat。CogAgent是一个基于180亿参数规模的视觉语言模型(VLM)的图形用户界面(GUI)智能体,专注于GUI图形交互界面的理解和导航。

CogAgent使用屏幕截图作为输入,在PC和Android GUI导航任务上超越了基于语言模型的方法,如Mind2Web和AITW,引领了GUI理解领域的最新技术发展。

如今的大语言模型在具体应用方面都是多端通用,MAS和SaaS模式使得LLM厂商推出的AI Agent构建平台及个体能够应用于手机端也是必然。

AI智能体涌向移动端,已经成为AIGC行业发展的必然趋势。

(注:回复 手机Agent 获取本文提到的所有研报资源。)

AI Agent趋势:涌向移动端

系统厂商与终端厂商的步子,甚至比大模型厂商迈得还要大。毕竟他们更贴近用户,了解市场需要什么,也知道自己在哪里突破。

这些厂商对于AI Agent的探索比我们预想得要早很多,且已经拿出初步成果。

也是在春节前夕,微软推出了名为UFO的Windows Agent。这是一款用于构建用户界面(UI)交互智能体的 Agent 框架,能够快速理解和执行用户的自然语言请求。

UFO可以在Windows内自主回答用户查询,可在单个或者跨多个App中无缝导航和操作来满足Windows 操作系统上的用户请求。可以更加智能地理解用户的意图,不用人工干预,自动执行相应的操作。