夜夜撸 OpenAI最强竞对Claude再次出牌

27 2024-10
夜夜撸 OpenAI最强竞对Claude再次出牌

发布日期：2024-10-27 10:38 点击次数：64
夜夜撸
出品｜虎嗅科技组
作家｜余杨
裁剪｜苗正卿
头图｜视觉中国
10 月 22 日，由 Anthropic 开辟的 Claude 3.5 迎来重磅升级，发布了 Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。
Claude 模子也被称为"十四行诗"（Sonnet），Anthropic 公司在为其模子定名时，鉴戒了体裁艺术作品中的术语，其中包括"俳句"（Haiku）、"十四行诗"（Sonnet）和"佳构"（Opus），这些称呼不仅代表了模子的不同版块，也反应了它们在功能和性能上的性情。
Claude 3.5 Sonnet 有着更强的编程才调，全新功能的 computer use（计较机使用），援助像东说念主类同样操作计较机，可以死守用户的号令在计较机屏幕上移动光标，点击谋划位置，并通过臆造键盘输入信息，模拟东说念主们与我方计较机的交互形状。
当今，Claude 3.5 Sonnet 已插足使用。
Claude 系列诳言语模子，一直被鄙俚合计是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要竞争敌手。Anthropic 在 X 中发布了模子基准测试恶果，与 GPT 和 Gemini 在多个边界进行横向对比。
这些边界包括策动生水平的推理才调（GPQA Diamond）、本科生水平的学问掌执（MMLUPro）、代码编写才调（Code HumanEval）、数学问题搞定才调（MATH）、视觉问答才调（MMMU）以及代理编码（SWE-bench Verified）和代理器具使用（TAU-bench）夜夜撸。
在策动生水平推理测试（GPQA Diamond）中，Claude 3.5 Sonnet 以 65.0% 的准确率拔得头筹，Claude 3.5 Haiku 则以 41.6% 的准确率则稍显失色。而 Gemini 1.5 Pro 的准确率为 59.1%，居于第二。在本科生水平学问测试（MMLUPro）中，Claude 3.5 Sonnet 再次以 78.0% 的准确率突出，而 Gemini 1.5 Pro 则以 75.8% 的准确率紧随后来。
在这次主打的代码编写才调测试（Code HumanEval）中，Claude 3.5 Sonnet 以 93.7% 的准确率获得了最好获利，GPT-4o 系列模子在这一测试中也展现了可以的性能，准确率为 90.2% 和 87.2%。
天然在数学问题搞定测试（MATH）中，Claude 3.5 系列稍显失色，Gemini 1.5 Pro 仍然碾压全场，但关于视觉问答测试（MMMU）和代理编码测试（SWE-bench Verified），Claude 3.5 Sonnet 和 Claude 3.5 Haiku 仍有着不俗的发扬。
而 TO B 的代理器具使用测试（TAU-bench），则告成联系到大模子的诈欺才调，这次主要测试了零卖和航空边界。Claude 3.5 Sonnet 在零卖和航空边界的准确率永别为 69.2% 和 46.0%，而 Claude 3.5 Haiku 在零卖和航空边界的准确率永别为 51.0% 和 22.8%。
需要夺见地是，OpenAI 的 o1 模子眷属由于其依赖于鄙俚的预响应计较时刻，与典型模子存在根柢互异，这使得性能相比变得贫苦，因此在本次评估中被排斥在外。
这可能不够具像化。
Anthropic 提供了一个演示，在 2 分钟的视频中，策动员给 Claude 建议了一个指示：
我的一又友要来旧金山，我念念未来早上和他一齐在金门大桥看日出。咱们将从太平洋高地起程。你能帮咱们找到一个绝佳的不雅赏处所，检察一下开车时刻和日出时刻，然后安排一个日期活动，让咱们有裕如的时刻到达那边吗？
Claude 的恢复率先是，"让我搜索谷歌寻找最好日出不雅赏处所"，并自行大开了 Google 开动搜索。
Claude 以用户的居住地为起点，在舆图中 check 了驾驶时刻，随后，Claude 不仅大开了一个新的网页阐述未来的日出时刻，还在日期中成立了行程提醒，并附上了 Notes，URL 和附件。
开辟者展示出 Claude 若何操控了我方的札记本电脑，丝滑地完成了一个任务。
Anthropic 暗意，"咱们并莫得制作特定器具来匡助 Claude 完成单个任务，而是教它通用的计较机手段——允许它使用为东说念主类预备的各式轨范器具和软件要道。咱们构建了一个 API，使 Claude 梗概感知计较机界面并与之交互。该 API 使 Claude 梗概将教导翻译成计较机号令。开辟东说念主员可以使用它来自动本质重迭性任务、进行测试和 QA 以及进行灵通式策动"。
在其他的 demo 中，开辟者还让 Claude 填写了一份来自蚂蚁竖立公司的供应商央求表，需要填写的数据分散在电脑的各个边际，Claude 跨诈欺进行了搜索，切换到 CRM 系统中，休养页面，查找填表所需的整个信息，然后提交了表格。
AI 操作电脑的才调代表了一种全新的东说念主工智能开辟轮番，国内开辟者也浮现出在该边界深切的勤恳。
10 月 23 日，在荣耀 MagicOS 9.0 发布会上，新升级的 YOYO 智能体也展现出 AI 手机端操作才调的肖似特质，不仅帮演示者提交了咖啡订单，还填写了博物馆场馆预约信息。
一部分禁锢者对此满怀期待，合计这意味着责任中好多不得不作念的繁琐事项，齐可以交由 AI 代劳了。
不外，天然 Claude 依然获得了一些获利，但咱们浅近使用电脑时的好多操作，如拖拽、缩放等，Claude 齐还无法作念到。
况且，它的操作仍然相对逐渐，且像东说念主类同样会出错。在一次演示中，Claude 不小心点击罢手了一个永劫刻运行的屏幕录制，导致整个摄像齐付诸东流。而在另一次编码演示中，Claude 则斯须"跑神"，开动兴味勃勃地浏览起黄石国度公园的像片。
r级书屋
但白玉无瑕夜夜撸，这并不妨碍咱们像莎士比亚同样，将 Claude 的新时候比作"夏令"。

夜夜撸 OpenAI最强竞对Claude再次出牌

热点资讯

相关资讯