微软开源AI基准测试：涵盖154项任务，20分钟全面评估

发布日期：2024-09-19 06:24 点击次数：205

编译 | 尹明顺裁剪 | 漠影

智东西9月14日音讯，据VentureBeat昨日报说念，微软公布了一项名为“Windows Agent Arena（WAA）”的始创性基准测试。该测试用于在Windows操作环境中对AI Agent性能进行评估，旨在为AI Agent开导提速。

该论文发表在arXiv.org上。筹办东说念主员写说念：“诳言语模子在AI Agent领域流走漏雄壮的后劲，简略在需要野心和推理的多模态任务中缓助东说念主类坐褥力和软件的可用性。”同期还补充说念：“关连词，在真的环境中斟酌AI Agent性能照旧是一个挑战。”

论文连合：https://arxiv.org/pdf/2409.08264

WAA的改造点在于，它简略在微软Azure云科技中的多个诬捏机上进行并行测试，在短短20分钟内就可完周至面的基准评估。

此外，微软还将多模态AI Agent Navi引入测试，以展示WAA的技艺。经锻练，Navi在WAA测试中任务完成的告捷率为19.5%，而东说念主类的告捷率是74.5%。

▲Windows Agent Arena（开端：Windows Agent Arena页面）

一、涵盖154项任务测试，全面基准评估时长裁减至20分钟

Windows Agent Arena提供了一个可复现测试环境，其中AI Agent与常见的Windows愚弄尺度、网罗浏览器和系统器具进行交互，模拟东说念主类用户体验，继而匡助开导者评估和优化AI Agent的技艺。

微软的筹办东说念主员写说念，在真的环境中测试Agent性能仍然是一个挑战，这是因为大多量基准测试仅限于特定款式或领域（举例，纯文本、Web导航、问答、编码）；另外鉴于任务的多门径规则性质，完好的基准评估很慢（大致几天时辰）。

WAA的一个环节改造是简略在微软Azure云科技中的多个诬捏机上进行并行测试。论文诠释称：“咱们的基准测试是可膨大的，不错在Azure中无缝并行处理，在短短20分钟内就可完周至面的基准评估。”与传统可能需要数天的规则测试比拟，这极地面加速了AI Agent开导周期。

该测试包含了154个不同任务，涵盖裁剪文档和电子表格（LibreOffice Calc/Writer）、浏览互联网（微软Edge、Google Chrome）、Windows系统任务（文献资源处分器、确立）、编码（Visual Studio Code）、不雅看视频（VLC播放器）和实辛勤能（记事本、时钟、绘制）。

▲涵盖的测试具体任务流露（图源：Windows Agent Arena页面）

二、测试AI Agent任务告捷率仅19.5%，远低于东说念主类操作技艺

Windows Agent Arena技俩页面流露：“为了展示WAA的技艺，咱们还引入了一种新的多模态AI Agent Navi。”

▲Navi在Windows Agent Arena中濒临一个典型的Windows任务：在Visual Studio Code中安设Pylance膨大。这展示了如何教师AI Agent东说念主在庸碌软件环境中导航（开端：微软筹办院）

测试效果流露，Navi在WAA中的告捷率为19.5%，而东说念主类的告捷率是74.5%。这确认思开导出能与东说念主类狡计机操作技艺相仿的AI，还存在很大挑战。

▲Navi在职务时间的推理进程和屏幕理解的分步示例（图源：Windows Agent Arena页面）

这项筹办的主要作家Rogerio Bonatti说：“Windows Agent Arena为达成AI Agent的冲破，提供了一个试验而全面的环境。同期，咱们也但愿通过AWW开源，来推动通盘AI社区在这一环节领域的筹办。”

此外，微软对几种起先进的视觉话语模子Agent树立齐进行了基准测试，发现与东说念主类手脚比拟统共现存模子的性能齐较低，而况模子之间性能也存在很大互异。

WAA的发布碰劲科技巨头之间竞争加重之际，他们正在开导功能更强劲的AI Agent，以搪塞复杂的狡计机任务。

微软对Windows环境的爱护可能会使其在企业场景中保捏主导上风。

三、开导AI Agent时需均衡改造和伦理

像Navi这么的AI Agent带来的潜在平正是权贵的，但开导此类技艺也激勉了弥留的伦理考量。

跟着AI Agent变得越来越复杂，它们将更全面地拜访用户的数字生涯，可能会在各式愚弄尺度中与用户的明锐个东说念主信息、专科信息产生搏斗。

AI Agent在Windows环境中具有解放操作的技艺，比如拜访文献、发送电子邮件或修改系统确立等等，这齐流走漏接管强劲的诡秘保护表率的必要性。

在赋予AI灵验协助用户的技艺与珍视用户诡秘、终端用户数字领域之间，需要找到一个玄妙的均衡点。

此外，跟着AI Agent越来越简略师法东说念主类与狡计机系统的交互，还出现了关连透明度和问责制的问题。

当用户与AI交互时，特别是在专科或者高风险场景中，可能需要被明确示知，因此明确用户答应契约也至关弥留。

结语：开源WAA也需缓助风险防控意志

微软开源了Windows Agent Arena，朝着缓助合营开导和审查技艺迈出积极一步。

但与此同期，可能会有东说念主使用该测试去开导具有坏心的AI Agent，这意味着东说念主们需要对此领域保捏必要警惕和监管。

跟着WAA为开导功能更强劲的AI Agent加速，筹办东说念主员、伦理学家、计谋制定者和公众就这些技艺的影响进行捏续讨论，将至关弥留。

开端：VentureBeat、Windows Agent Arena页面

新闻资讯

TOP

友情链接：

热点资讯

相关资讯

九游会j9·游戏「中国」官方网站

微软开源AI基准测试：涵盖154项任务，20分钟全面评估

发布日期：2024-09-19 06:24 点击次数：205

新闻资讯