“全球最强编程模型”来了!Anthropic发布Claude 4,连干七小时性能稳定

zhq 2025-05-23 阅读:319 评论:0
  OpenAI的劲敌Anthropic发布Claud...

  OpenAI的劲敌Anthropic发布Claude 4系列模型,称Opus 4为“全球最佳编程模型”,对AI投资者而言标志着模型能力的新纪元,可能重塑软件开发行业格局。

  除了新模型,Anthropic还宣布,编程工具Claude Code正式上线,并提供新的功能供连接到其模型的开发者使用,包括将推理与网页搜索和其他工具相结合的能力。

  Anthropic的新发布加剧了与OpenAI、Google在顶级模型领域的竞争,为投资者提供了重新评估AI领域竞争格局的机会。

  Opus 4精于编码 Sonnet 4较3.7版明显提升

  美东时间5月22日周四,Anthropic在公司首届“Code with Claude”开发者大会上推出了Claude 4系列的两款全新模型:Claude Opus 4和Claude Sonnet 4。

  Anthropic将Claude Opus 4称为“公司迄今最强大的模型,也是全球最佳编程模型”,而Claude Sonnet 4 是Claude Sonnet 3.7版的重大升级,提供卓越的编码和推理能力,同时更精确地响应用户指令。

  Anthropic称,Opus 4在编码、研究、写作和科学发现方面突破了界限,而 Sonnet 4 作为 Sonnet 3.7 的即时升级,为日常用例带来了前沿性能。

  在SWE-bench软件工程任务基准测试中,Opus 4得到72.5%的准确度成绩,在Terminal-bench上达到43.2%。Sonnet 4则在SWE-bench上达到72.7%,相比得到62.3%成绩的Sonnet 3.7版本有显著提升。

  Opus 4和Sonnet 4都采用了混合模式设计,既可提供几乎即时的回应,也能进行更深入的推理思考、即扩张思维。

  在Anthropic的Pro、Max、Team 和 Enterprise Claude 套餐中包含了上述两种模型的能力,Sonnet 4模型也面向免费用户开放。新模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。

  定价与之前的Opus 和 Sonnet 模型一样:Opus 4 为每百万token输入和输出分别收费15美元和75 美元,Sonnet 4的百万token输入和输出分别收取3美元和15 美元。

  Anthropic产品负责人Scott White表示,此次发布标志着

“Claude从一个提供答案的工具转变为一个真正有能力的协作伙伴”。

  超长持续工作能力:AI代理的革命性突破

  Opus 4最引人注目的特点是其惊人的持续工作能力。据Anthropic介绍,该模型能够在需要专注努力和数千步骤的长时间任务中保持稳定表现,可以连续工作数小时。

  Anthropic称,日本电商巨头乐天(Rakuten)已验证了Opus 4的能力,在乐天要求严格的一项开源重构任务中,该模型独立运行了7小时,且这期间保持稳定的性能。

  这种持久的注意力和工作能力使Opus 4特别适合复杂的编码和问题解决场景。

  代码编辑平台Cursor称Opus 4为“编程领域的最新技术,在复杂代码库理解方面实现了飞跃”。编程平台Replit则表示,在跨多个文件的复杂更改方面,Opus 4取得“显著改进”。

  扩展思考与工具使用:AI的思维质变

  两款新模型都引入了“扩展思考与工具使用”功能(测试版),允许Claude在思考过程中使用网络搜索等工具,在推理和工具使用之间交替以改进回应。这些模型还能并行使用工具,更精确地遵循指令,并在开发者授予本地文件访问权限时展示显著改进的记忆能力。

  特别值得注意的是,Opus 4在记忆能力方面大幅超越了所有以前的模型。当开发者构建的应用程序提供Claude本地文件访问权限时,Opus 4能够创建和维护“记忆文件”来存储关键信息,这解锁了更好的长期任务意识、连贯性和代理任务性能。

  Claude Code正式上线:AI开发新时代

  在模型发布的同时,Anthropic宣布,在测试收到“广泛的积极反馈”后,Claude Code正式全面推出。现在通过GitHub Actions支持后台任务,并与VS Code和JetBrains原生集成,直接在开发者文件中显示编辑,实现无缝结对编程。

  Claude Code 由 Opus 4 和 Sonnet 4 提供支持,让Anthropic 的大语言模型(LLM)拥有更多功能,因为它可以编写代码来分析数据。用户甚至可能不知道 Claude 在为完成任务编写和调试代码,但它的编码能力将使模型在分析大量数据时能够运用思维。

  Scott White表示:“编码是一个快速增长、非常令人兴奋的市场。”

  White 任务,Claude Code 不仅适合那些希望为旗下软件工程师提供工具进而提高自身专业技能的公司,也适合那些可能不懂编程的人。

  他举例说,如果一位产品经理正在向团队推荐一个点子,他们就不必仅仅创建一份文档来解释相关概念,而是可以找到Claude,并请 Claude 创建这个点子的原型。

  AI巨头竞赛加剧:行业格局再洗牌

  据彭博社报道,这次发布来自于AI领域异常繁忙的一周,期间宣布了新的编码代理和与Elon Musk的Grok的合作伙伴关系,Google扩大了其AI支持的搜索功能,OpenAI宣布了65亿美元的交易收购由Jony Ive领导的AI硬件初创公司io。

  这表明Anthropic、Google和OpenAI之间的“最佳前沿模型”竞争正在升温,同时对这些公司能否将当前AI技术推向新高度的疑问依然存在。

  投资者视角:重新评估AI竞争格局

  对投资者而言,Claude 4系列的推出标志着AI能力的一个新纪元。特别是在编程领域,Anthropic声称已经取得了领先地位,这可能对软件开发行业产生深远影响。GitHub已表示Claude Sonnet 4将成为GitHub Copilot中新编码代理的基础模型,这进一步验证了其能力。

  随着AI竞争的加剧,投资者需要重新评估行业格局,尤其是Anthropic相对于OpenAI和Google等竞争对手的地位。Claude 4系列在编码、推理和代理任务方面的强大表现,可能为Anthropic赢得更多市场份额和企业客户提供了机会。

  风险提示及免责条款

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 遇见小面闯关港股:单店日均销售额下滑,屡因食品安全被点名

    遇见小面闯关港股:单店日均销售额下滑,屡因食品安全被点名
    记者|赵阳戈 一家“接地气”的公司将要亮相联交所。近日,广州遇见小面餐饮股份有限公司(以下简称遇见小面)披露招股说明书,拟登陆联交所,招银国际为独家保荐人。 来源:联交所遇见小面成立已11年,开店增至380家,2024年卖出了11亿元的营业额。盈利方面,虽说在2022年因疫情录得亏损,但2023年实现扭亏,2024年有逾6000万元的净利润。 据了解,遇见小面还将继续扩张,2025年、2026年及2027年,计划在中国内地、中国香港及海外分別新开设约...
  • “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加

    “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加
    据新华社报道,外交部发言人林剑5月15日在例行记者会上说,为进一步便利中外人员往来,中方决定扩大免签国家范围,自2025年6月1日起至2026年5月31日,对巴西、阿根廷、智利、秘鲁、乌拉圭持普通护照人员试行免签政策。上述5国持普通护照人员来华经商、旅游观光、探亲访友、交流访问、过境不超过30天,可免办签证入境。“免签圈”扩容将进一步促进中国入境旅游的利好发展。当天,携程数据显示,今年以来,该平台上入境游订单量比去年增长接近翻倍。新增的五国入境游潜力巨大,今年以来阿根廷入境游...
  • 长城基金梁福睿:解码创新药的DeepSeek时刻

    长城基金梁福睿:解码创新药的DeepSeek时刻
      今年以来,医药板块尤其是创新药领域迎来一波强劲复苏,但在近期市场调整中也出现了波动。不过,创新药板块的长期投资价值依然显著。长城医药产业精选基金经理梁福睿认为,类似于DeepSeek,未来市场会更加认知到中国创新药从追赶到超越的实力。   在“515”全国投资者保护宣传日来临之际,基金经理...
  • 外交部:国际社会广泛理解和支持中方不同意台参加世卫大会的决定

    外交部:国际社会广泛理解和支持中方不同意台参加世卫大会的决定
    5月15日,外交部发言人林剑主持例行记者会。有记者提问,据了解,第78届世界卫生大会将于5月19日开幕,台湾地区方面迄今没有收到与会邀请。中国政府对此有何评论?林剑表示,在中国台湾地区参与国际组包括世界卫生组织问题上,中方的立场是一贯明确的,即必须按照一个中国原则来处理,这也是联合国大会第2758号决议和世界卫生大会25.1号决议确认的根本原则。中国台湾地区在未经中央政府同意的前提下,没有任何根据理由或权利参加世卫大会。台民进党当局顽固坚持“台独”分裂立场,导致台湾地区参加世...
  • 美联储主席鲍威尔:美国可能进入更频繁、更持久的 “供应冲击” 时期

    美联储主席鲍威尔:美国可能进入更频繁、更持久的 “供应冲击” 时期
      美联储主席杰罗姆・鲍威尔周四表示,美国可能进入供应冲击更频繁、通胀更不稳定的时期,这需要央行采取更透明的沟通方式。   鲍威尔在启动对央行货币政策框架五年一次的评估时发表了上述言论。   “关键问题在于如何让公众更广泛地理解经济普遍面临的不确定性,” 鲍威尔在华盛顿的演讲中表示,并预测 “...
标签列表