Anthropic 发布强大AI模型Mythos:拐点信号还是安全挑战?

Anthropic 于近日公开了其新一代的AI模型 Claude Mythos Preview,这一模型不仅在性能上全面超越自家旗舰模型Opus 4.6,更重要的是其在网络安全领域展现出了强大的漏洞挖掘能力。这一发布标志着AI技术的一大进步,也引起了业内的高度关注。

Mythos 的革命性性能提升

根据官方数据,Mythos Preview 的各项编码跑分数据全面超越了 Claude Opus 4.6:

  • SWE-bench Verified:93.9% vs 80.8%,提升超过13个百分点
  • SWE-bench Pro:77.8% vs 53.4%,直接拉开24个点的差距
  • Terminal-Bench 2.0:82.0% vs 65.4%
  • SWE-bench Multimodal:59.0% vs 27.1%,几乎翻倍

特别是SWE-bench Pro这一项目,Mythos的能力达到了代际跨越的水平。其在理解复杂问题和解决能力上的表现,使其能够胜任许多人工难以完美实现的任务。

网络安全领域的“超级扫描器”

Mythos Preview 的一大亮点在于,它找出了许多之前从未被揭露的安全漏洞。例如:

  • FFmpeg 的H.264解码模块被发现了一个长达16年的漏洞,此前500万次自动化测试均未发现。
  • OpenBSD被发现一个27年的整数溢出漏洞,直接影响防火墙基础设施。

此外,Mythos 能精准发现包括操作系统、主流应用、甚至密码学库在内的大量“零日漏洞”,且其效率让人震惊。根据Anthropic的数据,Mythos在1000多个存储库中检测出595个高危崩溃点,其数量是上一代模型的3-4倍。

Project Glasswing:AI安全生态的多家公司联手

基于Mythos的强大能力,Anthropic 发起了一个名为 Project Glasswing 的计划。该计划的核心是通过AI强化网络安全,防范恶意攻击。包括AWS、Apple、Google、Microsoft、NVIDIA等12家重量级公司,都参与了这一项目。

这一行动不只是一种负责任的技术实践,更是对AI强大能力的有效利用。Anthropic 还投入了 1 亿美元的模型使用额度,并捐赠数百万美元支持开源安全项目。

不公开发布与商业拓展的平衡

尽管Mythos表现出如此强大的能力,但Anthropic 并未选择直接公开发布,主要原因包括:

  • 模型安全性未完全保障,可能导致滥用
  • 负责任AI的理念:优先解决关键基础设施的漏洞

同时,Mythos 的非公开状态并未影响其商业化潜力。Anthropic 已为API 定价,每百万输入和输出 token 的价格分别为25美元和125美元。

AI技术进步的拐点

Mythos Preview 的诞生标志着AI进入了一个新的阶段。其能力不再局限于编码优化,它正在向真实世界的复杂应用渗透。与此同时,这也提醒科技界:AI不仅是生产力工具,更可能成为双刃剑。

未来,如何进一步平衡开放与安全,成为整个行业的共同课题。

文章评论

登录后才能发布评论哦
立即登录/注册
消息提醒
Hello, world! This is a toast message.