OpenAI最强竞对Claude再次出牌

发布日期：2024-10-27 05:37 点击次数：122

出品｜虎嗅科技组

作家｜余杨

剪辑｜苗正卿

头图｜视觉中国

10月22日，由Anthropic开荒的Claude 3.5迎来重磅升级，发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模子也被称为“十四行诗”（Sonnet），Anthropic公司在为其模子定名时，模仿了体裁艺术作品中的术语，其中包括“俳句”（Haiku）、“十四行诗”（Sonnet）和“极品”（Opus），这些称号不仅代表了模子的不同版块，也响应了它们在功能和性能上的特色。

Claude 3.5 Sonnet 有着更强的编程智力，全新功能的computer use（臆想机使用），复古像东谈主类相似操作臆想机，可以辞退用户的敕令在臆想机屏幕上移动光标，点击干系位置，并通过捏造键盘输入信息，模拟东谈主们与我方臆想机的交互模式。

当今，Claude 3.5 Sonnet 已进入使用。

Claude系列大言语模子，一直被闲居合计是OpenAI的ChatGPT和谷歌的Gemini的主要竞争敌手。Anthropic在X中发布了模子基准测试恶果，与GPT和Gemini在多个限度进行横向对比。

这些限度包括筹商生水平的推明智力（GPQA Diamond）、本科生水平的常识掌执（MMLUPro）、代码编写智力（Code HumanEval）、数学问题惩处智力（MATH）、视觉问答智力（MMMU）以及代理编码（SWE-bench Verified）和代理器具使用（TAU-bench）。

在筹商生水平推理测试（GPQA Diamond）中，Claude 3.5 Sonnet以65.0%的准确率拔得头筹，Claude 3.5 Haiku则以41.6%的准确率则稍显失色。而Gemini 1.5 Pro 的准确率为59.1%，居于第二。在本科生水平常识测试（MMLUPro）中，Claude 3.5 Sonnet再次以78.0%的准确率跨越，而Gemini 1.5 Pro 则以75.8%的准确率紧随后来。

在这次主打的代码编写智力测试（Code HumanEval）中，Claude 3.5 Sonnet以93.7%的准确率获取了最好收货，GPT-4o系列模子在这一测试中也展现了可以的性能，准确率为90.2%和87.2%。

天然在数学问题惩处测试（MATH）中，Claude 3.5系列稍显失色，Gemini 1.5 Pro 仍然碾压全场，但关于视觉问答测试（MMMU）和代理编码测试（SWE-bench Verified），Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的阐述。

而TO B的代理器具使用测试（TAU-bench），则奏凯关系到大模子的愚弄智力，这次主要测试了零卖和航空限度。Claude 3.5 Sonnet在零卖和航空限度的准确率离别为69.2%和46.0%，而Claude 3.5 Haiku在零卖和航空限度的准确率离别为51.0%和22.8%。

需要正式的是，OpenAI的o1模子家眷由于其依赖于闲居的预响应臆想时辰，与典型模子存在根底相反，这使得性能相比变得贫困，因此在本次评估中被排斥在外。

这可能不够具像化。

Anthropic提供了一个演示，在2分钟的视频中，筹商员给Claude建议了一个指示：

我的一又友要来旧金山，我思未来早上和他一谈在金门大桥看日出。咱们将从太平洋高地动身。你能帮咱们找到一个绝佳的不雅赏所在，稽察一下开车时辰和日出时辰，然后安排一个日期行径，让咱们有裕如的时辰到达那儿吗？

Claude的回话当先是，“让我搜索谷歌寻找最好日出不雅赏所在”，并自行怒放了Google初始搜索。

Claude以用户的居住地为起点，在舆图中check了驾驶时辰，随后，Claude不仅怒放了一个新的网页阐明未来的日出时辰，还在日期中成就了行程提醒，并附上了Notes，URL和附件。

开荒者展示出Claude如何操控了我方的条记本电脑，丝滑地完成了一个任务。

Anthropic示意，“咱们并莫得制作特定器具来匡助 Claude 完成单个任务，而是教它通用的臆想机妙技——允许它使用为东谈主类谋略的各式圭臬器具和软件顺序。咱们构建了一个 API，使 Claude 大约感知臆想机界面并与之交互。该 API 使 Claude 大约将辅导翻译成臆想机敕令。开荒东谈主员可以使用它来自动实施重迭性任务、进行测试和 QA 以及进行开放式筹商”。

在其他的demo中，开荒者还让Claude填写了一份来自蚂蚁开荒公司的供应商苦求表，需要填写的数据分布在电脑的各个边缘，Claude跨愚弄进行了搜索，切换到CRM系统中，更始页面，查找填表所需的总共信息，然后提交了表格。

AI操作电脑的智力代表了一种全新的东谈主工智能开荒方法，国内开荒者也显露出在该限度长远的戮力。

10月23日，在荣耀MagicOS 9.0发布会上，新升级的YOYO智能体也展现出 AI 手机端操作智力的访佛特质，不仅帮演示者提交了咖啡订单，还填写了博物馆场馆预约信息。

一部分柔和者对此满怀期待，合计这意味着使命中很多不得不作念的繁琐事项，齐可以交由AI 代劳了。

不外，天然Claude也曾获取了一些收货，但咱们日常使用电脑时的很多操作，如拖拽、缩放等，Claude齐还无法作念到。

何况，它的操作仍然相对渐渐，且像东谈主类相似会出错。在一次演示中，Claude不着重点击住手了一个永劫辰运行的屏幕录制，导致总共摄像齐付诸东流。而在另一次编码演示中，Claude则瞬息“跑神”，初始兴味勃勃地浏览起黄石国度公园的像片。

但玄虚绝伦，这并不妨碍咱们像莎士比亚相似，将Claude的新时候比作“夏季”。

新闻资讯

TOP

友情链接：

热点资讯

相关资讯

九游会j9·游戏「中国」官方网站

OpenAI最强竞对Claude再次出牌

发布日期：2024-10-27 05:37 点击次数：122

新闻资讯