Anthropic 发布了更强大的 Claude 3 AI，性能超越 GPT4！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 787 days ago, the information mentioned may be changed or developed.

昨天晚上，Anthropic 公司推出 Claude 3 系列模型，被视为迄今最快且最强大的聊天机器人，能总结大约 20 万个单字(约一到两本长篇小说)，使用者可上传照片、图表、文件等进行分析和解答，全面超越 GPT-4 ，大型语言模型(LLM) 的霸主一夕换人！

Anthropic 是一家人工智能初创公司，得到了亚马逊（以及其他公司）的支持，投资额达 40 亿美元。该公司是有效利他主义运动的松散一部分，这实际上意味着它试图以安全、负责任的方式开发人工智能技术，造福公众，而不仅仅是股东。

Claude 3 包括三个顶尖的模型，按能力递增排序：Claude 3 Haiku 、Claude 3 Sonnet 和 Claude 3 Opus 。

Anthropic 表示，Claude 3 系列模型在推理、数学、编码、多语言理解和视觉方面，都竖立了新的产业基准。

Claude 3 模型系列

Claude 3 绰号涵盖了三个新的 LLMs ，其中最有能力的是 Claude 3 Opus 。这是 Anthropic 的全新高级 AI 模型，仅适用于 Claude Pro 用户。根据该公司的基准测试，其研究生水平推理能力在测试时得分为 50.4%，而 GPT-4 的得分为 35.7%。

接着是 Claude 3 Sonnet ，如果您不想支付 Claude Pro 订阅费用，可以使用它。当然，它仍然被认为是非常有能力的，其研究生测试分数为 40.4%（再次与 GPT-4 的 35.7% 分数相比）。

最后是 Claude 3 Haiku ，这是目前尚未发布的第三个模型。就复杂性和大多数功能而言，它位于家族树的底部，但其设计目的是成为最快的版本并提供近乎即时的响应。

Claude3 与 GPT4 的比较

以下是 Claude 3 与多个模型的比较：

由此可见，Claude3 已经超越了 GPT4 ，成为当前最强大的模型！

极快的响应速度

Claude 3 可以支持实时客户交流、自动文本补全和数据提取等任务，这些任务要求响应迅速且即时。Haiku 模型是最快速度和高成本效益的，它能够在短短三秒内处理和解读 arXiv 上的信息密集研究论文（约 10k 个字符），包括论文中的图表和图形元素。我们预期 Haiku 在发布后将进一步优化性能。相比之下，Sonnet 在处理速度上比 Claude 2 和 Claude 2.1 快两倍，并展现出更高的智能水平。它特别适用于需要快速反应的场景，如知识查询或销售流程自动化。至于 Opus ，则在保持与 Claude 2 和 2.1 相似的处理速度的同时，提供了更高级别的智能。

超强的视觉能力

Anthropic 发表了一份长达 42 页的技术报告，以介绍自家这 3 款模型。Claude 3 系列模型能够支援即时使用者交流、自动完成和资料撷取等任务（需要立即且即时的回馈）。Anthropic 预计，在模型发布后，其效能还将得到进一步的最佳化。Claude 3 模型拥有与其他领先模型相当的复杂视觉能力。它们能够处理包括照片、图表、图形和技术图纸在内的各种视觉格式。

更精准的答案

Claude 使用了一套大型的复杂、事实性问题集，这些问题针对当前模型的已知弱点。他们将响应分类为正确答案、错误答案（或幻觉），以及不确定性的承认，即模型表示它不知道答案，而不是提供错误信息。与 Claude 2.1 相比，Opus 在这些具有挑战性的开放式问题上展示了两倍的准确度提升（或正确答案），同时还降低了错误答案的水平。

也就是说模型会告诉你他不懂，而不是乱说从而误导你。（深受 GPT4 的欺骗）

更长的记忆

Claude 提供了长达 200k 的上下文窗口。为了有效处理长篇的上下文提示，模型需要强大的回忆能力。"大海捞针"（ Needle In A Haystack ，NIAH ）评估衡量模型从大量数据中准确回忆信息的能力。我们通过使用 30 个随机针/问题对中的一个来增强这一基准测试的健壮性，并在多样化的众包文档库上进行测试。Claude 3 Opus 不仅实现了近乎完美的回忆能力，准确率超过 99%，而且在某些情况下，它甚至识别出了评估本身的局限性，通过识别“针”句似乎是人为插入到原始文本中的。