出品|虎嗅科技组
作家|余杨
剪辑|苗正卿
头图|视觉中国
10月22日,由Anthropic开荒的Claude 3.5迎来重磅升级,发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。
Claude模子也被称为“十四行诗”(Sonnet),Anthropic公司在为其模子定名时,模仿了体裁艺术作品中的术语,其中包括“俳句”(Haiku)、“十四行诗”(Sonnet)和“极品”(Opus),这些称号不仅代表了模子的不同版块,也响应了它们在功能和性能上的特色。
Claude 3.5 Sonnet 有着更强的编程智力,全新功能的computer use(臆想机使用),复古像东谈主类相似操作臆想机,可以辞退用户的敕令在臆想机屏幕上移动光标,点击干系位置,并通过捏造键盘输入信息,模拟东谈主们与我方臆想机的交互模式。
当今,Claude 3.5 Sonnet 已进入使用。
Claude系列大言语模子,一直被闲居合计是OpenAI的ChatGPT和谷歌的Gemini的主要竞争敌手。Anthropic在X中发布了模子基准测试恶果,与GPT和Gemini在多个限度进行横向对比。
这些限度包括筹商生水平的推明智力(GPQA Diamond)、本科生水平的常识掌执(MMLUPro)、代码编写智力(Code HumanEval)、数学问题惩处智力(MATH)、视觉问答智力(MMMU)以及代理编码(SWE-bench Verified)和代理器具使用(TAU-bench)。
在筹商生水平推理测试(GPQA Diamond)中,Claude 3.5 Sonnet以65.0%的准确率拔得头筹,Claude 3.5 Haiku则以41.6%的准确率则稍显失色。而Gemini 1.5 Pro 的准确率为59.1%,居于第二。在本科生水平常识测试(MMLUPro)中,Claude 3.5 Sonnet再次以78.0%的准确率跨越,而Gemini 1.5 Pro 则以75.8%的准确率紧随后来。
在这次主打的代码编写智力测试(Code HumanEval)中,Claude 3.5 Sonnet以93.7%的准确率获取了最好收货,GPT-4o系列模子在这一测试中也展现了可以的性能,准确率为90.2%和87.2%。
天然在数学问题惩处测试(MATH)中,Claude 3.5系列稍显失色,Gemini 1.5 Pro 仍然碾压全场,但关于视觉问答测试(MMMU)和代理编码测试(SWE-bench Verified),Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的阐述。
而TO B的代理器具使用测试(TAU-bench),则奏凯关系到大模子的愚弄智力,这次主要测试了零卖和航空限度。Claude 3.5 Sonnet在零卖和航空限度的准确率离别为69.2%和46.0%,而Claude 3.5 Haiku在零卖和航空限度的准确率离别为51.0%和22.8%。
需要正式的是,OpenAI的o1模子家眷由于其依赖于闲居的预响应臆想时辰,与典型模子存在根底相反,这使得性能相比变得贫困,因此在本次评估中被排斥在外。
这可能不够具像化。
Anthropic提供了一个演示,在2分钟的视频中,筹商员给Claude建议了一个指示:
我的一又友要来旧金山,我思未来早上和他一谈在金门大桥看日出。咱们将从太平洋高地动身。你能帮咱们找到一个绝佳的不雅赏所在,稽察一下开车时辰和日出时辰,然后安排一个日期行径,让咱们有裕如的时辰到达那儿吗?
Claude的回话当先是,“让我搜索谷歌寻找最好日出不雅赏所在”,并自行怒放了Google初始搜索。
Claude以用户的居住地为起点,在舆图中check了驾驶时辰,随后,Claude不仅怒放了一个新的网页阐明未来的日出时辰,还在日期中成就了行程提醒,并附上了Notes,URL和附件。
开荒者展示出Claude如何操控了我方的条记本电脑,丝滑地完成了一个任务。
Anthropic示意,“咱们并莫得制作特定器具来匡助 Claude 完成单个任务,而是教它通用的臆想机妙技——允许它使用为东谈主类谋略的各式圭臬器具和软件顺序。咱们构建了一个 API,使 Claude 大约感知臆想机界面并与之交互。该 API 使 Claude 大约将辅导翻译成臆想机敕令。开荒东谈主员可以使用它来自动实施重迭性任务、进行测试和 QA 以及进行开放式筹商”。
在其他的demo中,开荒者还让Claude填写了一份来自蚂蚁开荒公司的供应商苦求表,需要填写的数据分布在电脑的各个边缘,Claude跨愚弄进行了搜索,切换到CRM系统中,更始页面,查找填表所需的总共信息,然后提交了表格。
AI操作电脑的智力代表了一种全新的东谈主工智能开荒方法,国内开荒者也显露出在该限度长远的戮力。
10月23日,在荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展现出 AI 手机端操作智力的访佛特质,不仅帮演示者提交了咖啡订单,还填写了博物馆场馆预约信息。
一部分柔和者对此满怀期待,合计这意味着使命中很多不得不作念的繁琐事项,齐可以交由AI 代劳了。
不外,天然Claude也曾获取了一些收货,但咱们日常使用电脑时的很多操作,如拖拽、缩放等,Claude齐还无法作念到。
何况,它的操作仍然相对渐渐,且像东谈主类相似会出错。在一次演示中,Claude不着重点击住手了一个永劫辰运行的屏幕录制,导致总共摄像齐付诸东流。而在另一次编码演示中,Claude则瞬息“跑神”,初始兴味勃勃地浏览起黄石国度公园的像片。
但玄虚绝伦,这并不妨碍咱们像莎士比亚相似,将Claude的新时候比作“夏季”。
Powered by 九游会j9·游戏「中国」官方网站 @2013-2022 RSS地图 HTML地图