越来越多的AI Agent项目正在融合RPA,背后的逻辑是什么?
被遗忘在角落的RPA,成了提升AI Agent执行能力的天选神器
由RPA厂商推出的RPA Agent,与市面上的Agent有什么不同?
源自API的实验性AI智能体越来越多,基于RPA的实用性AI Agent稳扎稳打
API难以解决AI智能体执行能力问题,AI Agent深度落地锁定RPA
全文约5800字,阅读时间10分钟
文/王吉伟
LLM(Large Language Models)刚爆发之时,很多人认为RPA要完了,自然语言交互+API操作足以干掉任何UI自动化工具。
然而,大语言模型应用发展到AI Agent这一步,大家才发现API并不是万能的。Agent平台雨后春笋一般出现,但所构建的大多Agent只能在问答与订餐、买机票之间徘徊。
不能参与复杂业务流程的Agent,也就无法帮助企业更好地增效降本。
由此,探索Agent与RPA的厂商越来越多。
OpenAI投资了一家主打“RPA 3.0”的初创企业Induced AI,面壁智能联合清华等机构发布了“APA”推出了ProAgent,清华&智谱AI团队发布了专注于GUI图形交互界面的理解和导航的CogAgent,腾讯推出了用于移动端的AppAgent。
这些相关项目,本质上都是Agent与RPA的结合。
Gartner曾在2022年RPA魔力象限报告中预测,到2024年,95%的RPA供应商将通过API与UI集成提供自动化。当前融合RPA的超自动化厂商,基本实现了兼顾API与UI。
说到这里,有人可能会问,如果把功能强大的企业级RPA平台作为工具融入Agent架构,这样的Agent产品是不是就能深度参与到企业运营的复杂业务流程?由RPA厂商打造的Agent产品又与其他厂商的产品有什么不同?
本文,王吉伟频道就跟大家聊聊这些。
AI Agent瞄准RPA
今年10月份,OpenAI投资了的一家RPA初创公司Induced AI。在Induced AI,用户只需用简单的英语输入工作流程和录屏视频,Induced AI就能将其实时转换为伪代码,并调取多种相关工具,来执行大量重复性任务。
把RPA当作工具去操作API无法触达的企业管理软件,自然就能大幅提升Agent的能力,且只有这样的才有可能打造出企业级Agent。
自此开始,关于Agent与RPA的研究越来越多。
11月份,面壁智能联合清华自然语言处理实验 等机构共同发布了新一代流程自动化范式 Agentic Process Automation(APA,相关项目为ProAgent),该范式实现了工作流构建的自动化,以及工作流执行时动态决策的自动化,并通过实验揭示了大模型智能体在自动化中的可行性与潜力。
而在此之前,为了解决LLM面对用户指令使用外部工具(API)处理高级任务时的不足问题,面壁智能联合来自TsinghuaNLP、耶鲁、人大、腾讯、知乎的研究人员推出 ToolLLM 工具学习框架中的ToolBench数据集,已经囊括16464个真实世界API。
由此,UI自动化对于Agent在真实世界应用重要性不言而喻。
12月15日,清华&智谱AI团队发布了最新研究成果CogAgent-Chat。CogAgent是一个基于180亿参数规模的视觉语言模型(VLM)的图形用户界面(GUI)智能体,专注于GUI图形交互界面的理解和导航。
这个技术理念,与实在智能推出的RPA Agent使用屏幕语义理解技术通过识别屏幕构建UI自动化非常相似,同样属于Agent与RPA技术的结合。
除了创业公司,科技大厂也在关注这个领域。最近腾讯和德州大学达拉斯分校的研究团队合作开发了一个名为AppAgent的项目,该项目可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务。
这个项目,可以看作Agent与RPA结合在手机端的应用。
(注:回复 APA,获取项目相关论文。)
除了上述项目,王吉伟频道也接触过几个智能体创业项目,都采用了Agent+RPA这个模式。
LLM厂商、科研机构以及科技大厂对于Agent和RPA的探索与研究,进一步验证了当前阶段RPA对于AI Agent在各领域落地应用的重要性。
背后的逻辑
相较于直接使用LLM,目前的AI Agent产品在体验上的优势尽显:
首先,智能程度和普适性高,能较好的理解和推理复杂的任务并且做出规划;
一是效果不稳定,多步推理能力不够。大部分产品demo看上去效果惊艳,但对于抽象复杂的问题,能有效解决的比例不到 10%,只适合解决一些中等难度的问题。
二是外部生态融合度不高。第三方API支持的数量和生态不多(基本以搜索和文件读取功能为主),API覆盖范围不够广,很难做到比较完整的跨应用生态。
上面第一个问题关联的是用户体验与实际效果,当然还要看Agent面向什么应用场景。
如果是2C场景比如购物分析等效果不稳定或者等待太长时间,大概率会让很多用户放弃使用。
但若是2B场景比如用于程序构建,其自动化生成应用及业务流程的能力,远比之前手动输入代码或者拖拽式的无代码操作的效率要高得多。
但对于大型企业异构且复杂的信息化环境来说,这些API仍然无法满足其个性化、安全性等方面的需求。
加上很多企业软件系统缺少API以及开发成本过高等因素,使得Agent无法操作更多的企业管理软件,阻碍了AI Agent的跨部门、跨领域应用,执行能力大打折扣。
这种情况下,在工具调用上,如果想打造一款能够参与复杂业务流程的企业级Agent,不只需要通过API调用工具,更需要通过UI自动化实现各种软件连接。
RPA和AI Agent有着很强的关系。接口的设计原则是“高内聚、低耦合”,实际上很多软件很难有接口,这时候RPA的作用就尤为重要。把API和RPA封装起来作为“手和脚”,结合大语言模型“大脑”,Agent才能真正实现无所不能的智能自动化。
同时,Agent的执行能力落点到RPA,也使得已经积累大量数据、经验、技术以及生态能力的RPA厂商所推出的Agent产品,受到更多关注。
尤其是发布相关领域模型的厂商,更是广大企业与投资机构关注的重点。
RPA Agent的优势
由RPA超自动化厂商推出的基于RPA构建的AI Agent,或者将RPA作为工具的Agent,这里将其称之为RPA Agent。
类似的智能体能够胜任内容生成、推理分析及反馈等,对于一些不需要太多企业管理系统的中小微企业大部分业务运营都能胜任。
但在执行层面就要差很多,不能在生成内容后执行其他业务流程的任务自动化,缺少了对长流程的支持,无法调用工具去完成复杂业务流程的自动化执行。
与这类Agent相比,RPA Agent恰好可以解决上述Agent难以解决的问题。
RPA本身就是为解决UI自动化而生,用于弥补API自动化覆盖范围小、开发难度大等的不足。
为了保证RPA运行的稳定性,厂商们在技术及产品上面下了很大的功夫,比如屏幕语义识别、IPA模式等,这样的产品作为Agent的调用工具,具备操作大型企业复杂业务流程的天然属性。
这样企业就不用再去了解和引入新的Agent解决方案,避免更多的投资与开销,这在当前经济下行的形势下是蛮重要的。
Agent厂商在为广大企业提供个性化服务及部署时,也会基于原有企业的RPA系统去做相应的解决方案,这使得大量企业的Agent解决方案实则都是在工具应用上调用RPA去执行各种企业管理软件的操作。
从具体需求来看,比如金融领域大B客户对于查询和拆解指标、项目数据查看分析、推送报表/报告等需求,看起来简单却不是简单的GPTs或者知识内容类Agent能够实现的。
其中的业务流程涉及到了深入企业管理系统的复杂流程自动化构建,更涉及到了数据库读取、API管理及UI自动化连接等。
目前仅是基于API接口读取数据及调用工具插件的Agent,难以实现这样的流程应用,而基于LLM并同时兼顾API与UI自动化的RPA Agent是不错的解决方案。
所以,RPA Agent不只是一种行之有效的Agent解决方案,更是当下LLM时代企业应用Agent的新范式。
RPA Agent实例解读
下面,我们来看两个已经发布的RPA Agent产品案例。
案例1:实在智能TARS-RPA-Agent
上个月完成近2亿元C轮融资的实在智能在8月份所推出的实在Agent智能体,是一个典型的企业级Agent智能体产品。
实在Agent智能体,既可以支持私有化部署,又支持无需部署就可以方便用户使用的大语言模型的超自动化智能体,它基于“自研垂直大语言模型TARS和ISSUT(智能屏幕语义理解)双模引擎打造。
实在Agent智能体能够听懂业务用户的所有指令,更能准确把指令任务自主拆解成方便后续自动化流程去执行的“生成式,懂业务的智能数字员工”。
只需简单说一句话,实在Agent智能体就能帮用户操作电脑软件完成各种工作和任务,每个流程中的步骤百分百可视,用户可以边查看执行的每一个步骤,边判断整个自动化流程是否准确,并可以随时进行调整。
使用智能体可以替代手工作业,实现至少300%效率提升,保证数据处理准确无误,防止人为因素风险,将个人智慧转化为企业组织智慧,沉淀人机协同经验。
作为一款企业级AI Agent平台,实在Agent智能体具备识别与理解、系统方案、深入匹配、专有部署、更加可信、自主可控、持续迭代等多种特性,可以为企业打造无需额外配置、开箱即用且效果立竿见影的智能体助理,帮助员工提升工作效率和创造力,赋能企业增效降本。
案例2:壹沓科技CubeAgent
CubeAgent是壹沓科技推出的基于大模型的数字员工平台,为企业提供基于大模型技术驱动的数字员工聚合及训练平台,帮助企业轻松构建专有的“数字员工团队”,为白领员工配备具备多种能力的“办公小助手”,一站式帮助企业员工完成所有的日常工作。
借助一系列虚拟办公助手,运小沓数字员工平台也将为供应链企业提供更加智能的业务自动化解决方案、「白领员工+CubeAgent数字员工」的人机协作智能办公新模式,提升组织人才密度、敏捷性,帮助供应链企业重构生产关系,推动企业生产力跃迁。
据悉在商业拓展方面,运小沓数字员工平台已经跟供应链Top企业在大模型方面达成战略合作,并宣布成立了Next Club。
Induced AI已经在前面介绍过,这里不再作为案例赘述。
后记:RPA Agent的“iPhone时刻”
把时间轴放大去看,在API一统数字化江湖之前,RPA会一直拥有存在的价值。只要仍旧存在UI操作的业务流程,只要API无法解决所有软件的联通问题,RPA或者类RPA工具就会一直充当UI自动化的连接器。
欧美日韩等地域的RPA超自动化应用普及率已经很高,意味着API+UI的Agent解决方案更容易得到推广。
所以,“RPA Agent”这个词组,除了表达它是一种“以RPA为工具的Agent”之外,更意味着Agent+RPA管理企业数字化运营的模式即将流行起来。
表面上看,RPA成了AI Agent执行层面的超级工具。反过来看,AI Agent也在借助RPA落地。
在最新的埃森哲最新发布的《2024年技术展望》趋势报告中,将“智能体-AI互联网的生态系统“列入第二趋势,再次证明AI Agent将在组织运营中扮演的重要角色。
同时该报告调查数据显示,96%的高管认为,在未来3年内充分利用AI Agent生态系统将成为其组织的重要机遇。AI Agent生态系统的崛起正在改变企业智能和自动化战略的思考方式,将带来巨大的机遇和挑战。
对于智能体早期企业可以做什么,埃森哲也提到越早为智能体准备好相关的基础设施和信息,智能体就能越早发挥潜力。并建议重新考虑某些数据管理实践,比如数据库的向量化处理、提供用于访问数据的新API以及扩展与公司系统进行接口交互的工具等。
而当前与系统进行接口交互的主流自动化工具,正是能够通过UI连接不同系统以补充API生态不足的RPA。
由此,作为能够深扎复杂业务流程且执行能力更强的AI智能体,RPA Agent的“iPhone时刻”已然到来。
全文完
推荐阅读
详解AI Agent市场格局、技术路径与未来市场,智能体创业一定不要错过
AIGC研究系列文章
C
期待点赞、在看、评论、转发,您的支持就是我的动力。
鼓励积极评论,您的留言可以成为选题。
欢迎阅读其他文章,或会激发您的更多思考。
点击左下角“阅读原文”查看AIGC研究系列文章,扫码或者后台回复【加群】申请加入AIGC行业应用交流社群。如果你是正在关注AI Agent的创业者、投资人及企业,欢迎带着产品、项目及需求与王吉伟频道交流。
注:RPA相关文章,后台回复关键词 RPA 。
原标题:《API难以解决AI智能体执行能力问题,AI Agent深度落地锁定RPA》