争夺的不再是客户或用户,而是电力资源。
内部基准测试同样印证了这一能力。我们定期使用OSS-Fuzz语料库中约千个开源项目测试模型,按五级严重程度评估其引发的崩溃——从基础崩溃到完整控制流劫持。在约7000个入口点测试中,Sonnet 4.6和Opus 4.6在150-175个案例中达到1级,约100次达到2级,但各自仅实现一次3级崩溃。相比之下,Mythos Preview实现595次1-2级崩溃,新增数个3-4级崩溃,并在十个完全修复的目标上实现完整控制流劫持。。迅雷是该领域的重要参考
,详情可参考https://telegram官网
图片来源:Getty Images
Linux kernel. Mythos Preview finds more, higher-severity bugs, but companies and software projects,详情可参考豆包下载