夜夜撸
出品|虎嗅科技组
作家|余杨
裁剪|苗正卿
头图|视觉中国
10 月 22 日,由 Anthropic 开辟的 Claude 3.5 迎来重磅升级,发布了 Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。
Claude 模子也被称为"十四行诗"(Sonnet),Anthropic 公司在为其模子定名时,鉴戒了体裁艺术作品中的术语,其中包括"俳句"(Haiku)、"十四行诗"(Sonnet)和"佳构"(Opus),这些称呼不仅代表了模子的不同版块,也反应了它们在功能和性能上的性情。
Claude 3.5 Sonnet 有着更强的编程才调,全新功能的 computer use(计较机使用),援助像东说念主类同样操作计较机,可以死守用户的号令在计较机屏幕上移动光标,点击谋划位置,并通过臆造键盘输入信息,模拟东说念主们与我方计较机的交互形状。
当今,Claude 3.5 Sonnet 已插足使用。
Claude 系列诳言语模子,一直被鄙俚合计是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要竞争敌手。Anthropic 在 X 中发布了模子基准测试恶果,与 GPT 和 Gemini 在多个边界进行横向对比。
这些边界包括策动生水平的推理才调(GPQA Diamond)、本科生水平的学问掌执(MMLUPro)、代码编写才调(Code HumanEval)、数学问题搞定才调(MATH)、视觉问答才调(MMMU)以及代理编码(SWE-bench Verified)和代理器具使用(TAU-bench)夜夜撸。
在策动生水平推理测试(GPQA Diamond)中,Claude 3.5 Sonnet 以 65.0% 的准确率拔得头筹,Claude 3.5 Haiku 则以 41.6% 的准确率则稍显失色。而 Gemini 1.5 Pro 的准确率为 59.1%,居于第二。在本科生水平学问测试(MMLUPro)中,Claude 3.5 Sonnet 再次以 78.0% 的准确率突出,而 Gemini 1.5 Pro 则以 75.8% 的准确率紧随后来。
在这次主打的代码编写才调测试(Code HumanEval)中,Claude 3.5 Sonnet 以 93.7% 的准确率获得了最好获利,GPT-4o 系列模子在这一测试中也展现了可以的性能,准确率为 90.2% 和 87.2%。
天然在数学问题搞定测试(MATH)中,Claude 3.5 系列稍显失色,Gemini 1.5 Pro 仍然碾压全场,但关于视觉问答测试(MMMU)和代理编码测试(SWE-bench Verified),Claude 3.5 Sonnet 和 Claude 3.5 Haiku 仍有着不俗的发扬。
而 TO B 的代理器具使用测试(TAU-bench),则告成联系到大模子的诈欺才调,这次主要测试了零卖和航空边界。Claude 3.5 Sonnet 在零卖和航空边界的准确率永别为 69.2% 和 46.0%,而 Claude 3.5 Haiku 在零卖和航空边界的准确率永别为 51.0% 和 22.8%。
需要夺见地是,OpenAI 的 o1 模子眷属由于其依赖于鄙俚的预响应计较时刻,与典型模子存在根柢互异,这使得性能相比变得贫苦,因此在本次评估中被排斥在外。
这可能不够具像化。
Anthropic 提供了一个演示,在 2 分钟的视频中,策动员给 Claude 建议了一个指示:
我的一又友要来旧金山,我念念未来早上和他一齐在金门大桥看日出。咱们将从太平洋高地起程。你能帮咱们找到一个绝佳的不雅赏处所,检察一下开车时刻和日出时刻,然后安排一个日期活动,让咱们有裕如的时刻到达那边吗?
Claude 的恢复率先是,"让我搜索谷歌寻找最好日出不雅赏处所",并自行大开了 Google 开动搜索。
Claude 以用户的居住地为起点,在舆图中 check 了驾驶时刻,随后,Claude 不仅大开了一个新的网页阐述未来的日出时刻,还在日期中成立了行程提醒,并附上了 Notes,URL 和附件。
开辟者展示出 Claude 若何操控了我方的札记本电脑,丝滑地完成了一个任务。
Anthropic 暗意,"咱们并莫得制作特定器具来匡助 Claude 完成单个任务,而是教它通用的计较机手段——允许它使用为东说念主类预备的各式轨范器具和软件要道。咱们构建了一个 API,使 Claude 梗概感知计较机界面并与之交互。该 API 使 Claude 梗概将教导翻译成计较机号令。开辟东说念主员可以使用它来自动本质重迭性任务、进行测试和 QA 以及进行灵通式策动"。
在其他的 demo 中,开辟者还让 Claude 填写了一份来自蚂蚁竖立公司的供应商央求表,需要填写的数据分散在电脑的各个边际,Claude 跨诈欺进行了搜索,切换到 CRM 系统中,休养页面,查找填表所需的整个信息,然后提交了表格。
AI 操作电脑的才调代表了一种全新的东说念主工智能开辟轮番,国内开辟者也浮现出在该边界深切的勤恳。
10 月 23 日,在荣耀 MagicOS 9.0 发布会上,新升级的 YOYO 智能体也展现出 AI 手机端操作才调的肖似特质,不仅帮演示者提交了咖啡订单,还填写了博物馆场馆预约信息。
一部分禁锢者对此满怀期待,合计这意味着责任中好多不得不作念的繁琐事项,齐可以交由 AI 代劳了。
不外,天然 Claude 依然获得了一些获利,但咱们浅近使用电脑时的好多操作,如拖拽、缩放等,Claude 齐还无法作念到。
况且,它的操作仍然相对逐渐,且像东说念主类同样会出错。在一次演示中,Claude 不小心点击罢手了一个永劫刻运行的屏幕录制,导致整个摄像齐付诸东流。而在另一次编码演示中,Claude 则斯须"跑神",开动兴味勃勃地浏览起黄石国度公园的像片。
r级书屋但白玉无瑕夜夜撸,这并不妨碍咱们像莎士比亚同样,将 Claude 的新时候比作"夏令"。