据最新报道,Emergence AI 公司推出了一款名为 Agent-E 的全新智能网页代理,成功率高达73.2%,较以往提升了20%。这一新技术旨在实现自主网页导航,让人工智能代理能够更高效地完成复杂在线任务,从数据检索和表单提交到订购最便宜的机票或预订住宿。
传统的网页代理在处理现代网页的复杂性和变化性时常常表现低效且容易出错。它们往往无法准确执行任务,因为无法有效处理嘈杂且庞大的 HTML 文档对象模型(DOMs)。这种低效性是实际应用中自主网页代理部署的重要障碍,而在这些场景下,可靠性和精准度至关重要。
Emergence AI 的研究团队引入了 Agent-E,这是一款旨在克服现有系统缺陷的全新网页代理。Agent-E 采用分层架构,将任务规划和执行阶段分为两个独立组件:规划代理和浏览器导航代理。这种每个组件可以专注于其特定角色,从而提高效率和性能。规划代理将用户任务拆分为较小的子任务,并通过先进的 DOM 提炼技术由浏览器导航代理执行。
Agent-E 的方法包括多项创新步骤,以有效管理嘈杂且庞大的网络内容。规划代理将用户任务拆分为较小的子任务,并将其分配给浏览器导航代理。浏览器导航代理使用灵活的 DOM 提炼技术为每个任务选择最相关的 DOM 表示形式,减少噪音并专注于特定任务信息。Agent-E 采用变化观察来监视任务执行过程中的状态变化,提供反馈以增强代理的性能和准确性。
经过 WebVoyager 基准测试评估,Agent-E 明显优于以往最先进的网页代理系统。Agent-E 取得了73.2% 的成功率,比以往纯文本网页代理提高了20%,比多模态网页代理提高了16%。在像 Wolfram Alpha 这样复杂的网站上,Agent-E 的性能提高达30%。除成功率外,研究团队还报告了其他指标,如任务完成时间和错误感知。Agent-E 平均需要150秒才能成功完成一个任务,对于失败的任务需要220秒。每个任务平均需要25次大型语言模型调用,突显其效率和有效性。
Emergence AI 进行的研究代表了自主网页导航领域的重大进展。通过采用分层架构和先进的 DOM 管理技术解决了当前网页代理系统存在的低效问题,Agent-E 为性能和可靠性设立了新标杆。该研究结果表明,这些创新可以应用于除网络自动化之外的其他人工智能驱动自动化领域,并为 agent 系统设计原则提供了宝贵见解。Agent-E 在实现73.2% 任务完成率和高效任务执行过程方面取得成功,突显了其改变网络导航和自动化潜力。
欢迎大家加入AiBase交流群, 扫码进入,畅谈AI赚钱心得,共享最新行业动态,发现潜在合作伙伴,迎接未来的赚钱机遇!。
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
众多AI视频创作者翘首以盼的Runway的Gen3,终于面向部分超级合作者开放了。我的好基友@闲人一坤也是第一时间拿到了内测资格,我就直接把号要来了。
【新智元导读】面对GenAI的技术浪潮,很多人都会在不断迭代更新的技术中逐渐迷失。站在潮头的Sapphire、Emergence、Menlo等风投公司,又会如何看待这场AI变局的现状与走向?根据SapphireVentures的数据,GenAI领域从2022年到2023年迎来了爆发式的增长,全球范围的风投资金总量从76亿美元陡增到247亿。不论我们谈论的是端到端平台是AI驱动的计算环境,成功的关键在于培养适应性。
在WWDC24上,苹果推出自己的AIAppleIntelligence。目前AppleIntelligence还处于测试阶段,用户可以免费使用,但是未来苹果将会收费。对于iPhone15系列的其他机型以及更早的iPhone,苹果并未提供AI支持。
XLA是Google提出的一个神经网络编译器,可以用于加速AI模型的训练和推理。MegEngine1.13.1中也已经支持了XLA,在训练模型时可以选择开启此项功能,不同的模型可以获得10%~80%不等的速度提升。在开启XLA后,大部分模型的性能可以获得10%~40%的提升,最多可以超过80%。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:、炸裂!MMTryon不仅可试穿单件服装支持组合换装,无需分割,通过文本指令即可实现高质量虚拟换装。
随着大模型的火热持续迭代,AI基础设施愈发成为云厂商的核心竞争力之一。7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。大模型时代的来临,将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”,也将持续升级底
AppleIntelligence将在今年秋季正式登场,iPhone16系列、iPhone15Pro和iPhone15ProMax将首发搭载AppleIntelligence,iPhone正式迈入AI时代。但需要注意的是,在秋季亮相的AppleIntelligence还不完善,有几项功能会缺席,苹果会在晚些时候加入这些缺失的功能。最后一项缺失的功能是邮件分类和邮件摘要,在苹果邮件里,AppleIntelligence扫描邮件内容后,会按照重要程度分门别类,这能帮助用户更高效的处理邮件内容,这个重要功能目前还没有准备好,苹果会在晚些时候上线。
在CJ展上,线将带来GPU内插帧技术,这项技术原计划在骁龙8Gen4平台上首发,如今搭载骁龙8Gen3的线系GPU插帧方案由真我和高通联合研发,这个内插帧方案的延迟远低于目前厂商采用的外挂独显芯片方案,媲美原生高帧率。骁龙8Gen4将采用自研架构方案,彻底放弃Arm公版架构,这是骁龙移动平台的一次重大变化。
7月2日凌晨,着名生成式AI平台Runway在官网宣布,其文生视频模型Gen-3Alpha向所有用户开放使用。上周日Runway只向部分用户提供了Gen-3的使用权限,「AIGC开放社区」也为大家解读了10个非常有代表性的视频案例。Runway的Gen-2以及其他产品仍然是免费的,并表示,Gen-3会提供运动画笔、相机控制、导演模式等高级功能,帮助用户制作更精良的视频。
Kotae 是一款专为小型企业设计的智能聊天机器人。它利用先进的自然语言处理技术,能够理解用户的需求并提供相应的帮助。这款产品的主要优点包括:1) 提高客户服务效率;2) 降低人工成本;3) 提供24/7的在线) 增强客户满意度。Kotae 适合需要提升客户互动和服务质量的小型企业使用。
Smart AI Survey是一款结合AI驱动的问卷调查和数据分析的工具,能够从开放式问题和答案中快速生成洞见。它提供实时答案验证和深入访谈,确保高质量响应。AI数据分析能够识别主题和洞见,提供对数据的更深层次理解。该工具覆盖从收集商店体验的事实到衡量青少年护肤意见的使用案例,能够即时链接定量和定性数据。此外,洞见可以实时与受访者和用户共享。
CamoCopy是一款注重隐私保护的AI助手和搜索引擎,提供包括复杂问题解答、文本分析、翻译、生成文本、撰写文章、社交媒体内容创作等功能。它结合了Google的搜索能力和ChatGPT的对话能力,同时确保用户数据的隐私。CamoCopy支持图像识别、加密聊天、匿名搜索查询,并提供iOS和Android应用。它基于强大的本地开源技术构建,使用欧盟的服务器和合作伙伴,确保数据安全。
ViPer:是一种个性化方法,通过要求用户对几张图片发表评论,解释他们的喜好和不喜好,提取个人偏好。这些偏好指导文本到图像模型生成符合个人口味的图像。
ViPer是一种个性化生成模型,可以根据用户的视觉偏好生成符合个人口味的图像。该模型使用了稳定扩散XL技术,可以在保持图像质量的同时实现个性化生成。ViPer的主要优点是可以为用户提供个性化的图像生成服务,满足用户的个性化需求。
Surgical Robot Transformer 是一种通过模仿学习在达芬奇机器人上执行手术操作任务的模型。该模型通过相对动作公式克服了达芬奇系统的前向运动学不准确的问题,使得机器人能够成功地训练和部署政策。这种方法的一个显着优势是可以直接利用包含近似运动学的大量临床数据进行机器人学习,而无需进一步校正。该模型展示了在执行三个基本手术任务(包括组织操作、针头处理和结扎)方面的成功。
Alchemist是一种利用预训练的文本到图像模型和合成数据,允许用户在图像中编辑物体的材质属性的技术。它通过微调合成数据集,实现了对物体的特定材质属性(如粗糙度、金属感、基础颜色饱和度和透明度)的参数化编辑控制。这项技术的主要优点包括在保持物体几何形状和图像光照不变的同时,能够改变物体的属性,甚至在物体透明化时,能够真实地填充背后的背景、隐藏的内部结构和折射光效果。