

Anthropic每次传出新品发布,都会被媒体称为“王炸”,但此次王炸真的来了。外媒曝光了Anthropic正处于测试阶段的最强AI模子。
Anthropic的内容处置系统树立出了问题,近3000份未发布的里面文档,被放在了公开可造访的数据缓存里。

颠倒于敞着大门让别东谈主看里面机密。
剑桥大学相干员亚历山大·保韦尔斯(Alexandre Pauwels)和LayerX Security的高等相干员罗伊·帕斯(Roy Paz)在搜索公开数据时发现了这些文献。
这些文献里有什么?著作草稿、未使用的图片素材、里面行径安排,以致还有一份标题里带“parental leave”的职工文档。
但最引东谈主珍惜的,是一份详确先容新模子的草稿。
文献炫夸,Capybara和Mythos指向归拢个底层模子。
前者是家具层级的定名,跟Opus、Sonnet通常,后者是模子的代号。就像你不错把一款发动机装进不同型号的车里,Mythos是那台发动机,Capybara是阿谁新车系。
说句题外话,其实千问的卡通形象亦然Capybara,你说这不巧了嘛!

长篇大套,草稿里面有这样一句话,“与我们之前最佳的模子Claude Opus 4.6比拟,Capybara在软件编程、学术推理和相聚安全测试等方面的得分显赫提高。”
Anthropic发言东谈主证据,新模子在“推理、编码和相聚安全”方面有“故真谛真谛的跳跃”,代表了“阶跃式变化”,况兼该模子还是委派给了一丝数早期客户,以进行测试。
但真实让Anthropic病笃的不是性能进步,而是相聚安万能力的飞跃。
草稿中写谈,这款模子“在相聚能力方面刻下远远率先于任何其他AI模子”,况兼“预示着行将到来的一波模子海浪,这些模子愚弄流毒的能力将远远卓著驻扎者的勤劳”。
换句话说,Anthropic缅想黑客会拿这个模子发动大限制相聚迂回。
本年2月,OpenAI发布GPT-5.3-Codex时,初度将一款模子归类为“高相聚安万能力”,它被OpenAI拿去老师识别软件流毒。Opus 4.6也展现出访佛的能力,不错发当代码库中的未知流毒。
两家公司都明晰,这其实是一把双刃剑。
Capybara不错是看守天神,也不错是充满坏心的病毒。
是以Anthropic为Capybara想象了一套严慎的发布计谋。草稿写谈:“在准备发布Claude Capybara时,我们但愿格外严慎。因为我们明晰它带来的风险,敬佩比测试中能际遇的情况更为严重。”
Anthropic的具体作念法是优先向相聚安全驻扎组织提供早期造访权限,让他们巧合刻加固代码库,支吾行将到来的AI迂回海浪。
文献还提到,这个模子运行老本很高,短期内不会面向普通用户怒放。
随后Anthropic连忙关闭了公开造访权限。发言东谈主将此抱怨于“内容处置系统树立中的东谈主为诞妄”,并强调这些是“洽商发布的早期草稿”。
但泄露还是发生。Mythos和Capybara成了公开的艰深,Anthropic的发言东谈主也大大方方地承认了Mythos和Capybara的存在。
01
Mythos可能是这个形势的
那么Mythos具体会是什么样呢?
先说论断:如果Mythos真有“阶跃式变化”,我猜它不仅仅一个更大的base model,而是一套“模子+编排+考证 +风险适度”的复合系统。
也便是说,真实跳变的可能不是参数目,而是“作念长任务时不散架”。
我的意义很绵薄,时刻会变,可是Anthropic我方的大标的不会变。
Anthropic还是发布了好多对于公司时刻门路的博客,比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》(下一代分类器:更高效地驻扎通用逃狱迂回),以及《Mitigating the risk of prompt injections in browser use》(裁汰浏览器使用中教唆注入的风险)等等。

这东西就跟宗旨车通常。
先说说安全方面吧,好多东谈主以为杀毒软件如故靠“病毒库”——就像考核拿着通缉犯像片挨个比对。但实质上,当代杀毒软件和EDR(端点检测与响应)系统早就不是这样干了。
它们会看文献结构、监控进度步履、分析API调用模式、跟踪横向出动轨迹,大发以致用机器学习判断“这个步履像不像迂回”。
换句话说,当代安全系统还是不仅仅在找“已知的坏东谈主”,而是在识别“可疑的步履模式”。
Mythos可能把这个逻辑又往前推了一步。它能领会迂回的语义。
通过领会一段代码、一串器具调用、一段对话,判断是不是在构造一条真实可实行的迂回链。
比如它能分辨出:这不是普通的压缩剧本,而是在作念笼罩扫描、自启动、证据窃取这一整套行动;这不是平淡的渗入测试问答,而是在拼接exploit、握久化、横移、出网这几个技艺。
Mythos很可能具备“流毒泛化发现”能力。
Anthropic 在本年2月的博客中提到,Opus 4.6找零日流毒的口头不像传统fuzzing那样乱撞,而是通过领会代码语义、历史建立模式和相似bug特征,去找“还没被修掉的同类流毒”。
看到一个流毒后,它就能坐窝瞎猜度“其他场合是不是也存在访佛的流毒”。
Mythos在推理方面的进步,可能也不只单是说benchmark分数又高了几分。
比如它可能在想考过程中更少出现半途漂移,更少为了迎合用户而过度自信,更会显式差异“已知、臆想、未知”,更会在不细则时保守行动等等。
这和安全是归拢类底层能力。因为好的模子不仅仅更会生成谜底,而是更会处置我方的不细则性。
Claude的一概况点便是编程。是以我以为在编程能力上,Mythos可能不仅仅“把代码写地更好”,而是从“会写代码”变成“会策动代码库”。
Mythos可能会把模块领域、依赖相关、历史patch作风、测试风尚放在扫数进行建模。
它会先拆更变图、再分批落patch,而不是猜度哪改到哪;写完代码后会主动补测试、跑静态查验,根据失败日记回滚到更稳的有议论。
这种能力对真实工程技俩的价值,远超在测试集上多作念对几谈题。
虽然最终要落到的场合,敬佩是在线束(harness)上,Mythos很可能收场了从“单次恢复强”到“整条实行链稳”的跨越。
它会把大任务拆成可考证的小阶段,多个子任务并行实行再汇回归尾,在长链条里保留关气节象、丢掉噪声。某一步报错时不需要从新来过,独一找到问题发生地,6686对其局部进行建立,就不错接续实行任务。
就像游戏里的查验点,如果你莫得通过某一个BOSS,你不需要从新运行打扫数章节,你会被传送到上一个查验点。
这就像工业适度里的“线束处置”——不是某一根线更粗,而是扫数相连、阻塞、容错、绚烂、回路想象更合理。
长高下文能力的进步可能也不仅仅“窗口更大”,而是“高下文愚弄率更高”。
刻下的大模子,一说高下文窗口,每个都说我方能装下几十万字,可是一问它全文要点或者文档相关,坐窝就哑巴了。
Mythos如真实有跳跃,可能体刻下更强的要点检测、更好的层级摘要、更准的跨文档对皆,以及更有用的握续缅想写回机制。
在器具使用上,Mythos可能从“会调器具”升级到“会想象实践”。
Anthropic还是在推computer use、terminal、browser这套能力,但真实的跨越不是UI自动化更强,而是知谈什么时候该读代码、什么时候该跑测试、什么时候该查文档。
如何想象最小考证闭环、幸免无效探索、适度老本。
鄙俚说,便是从“会操作电脑”升级到“会像工程师那样作念排障实践”,以致于是说“碰到问题时,会原地掏出一个机床我方制造一个特化对口的器具来处理问题”。
02
还有呢?
归正都猜这样多了,不妨我们就再往深了猜猜,我以为Mythos的进步很可能来自几种老师和推理手段的重复。
第一是更重的测试时议论,也便是模子会根据任务难度动态分派更多“想考预算”,在关节技艺上作念更长、更深的推理,而不是连气儿线性吐完谜底。
就像进修,普通的AI都是闭卷快答选手,不论是1分的礼聘题,如故20分的压轴大题,都是扫一眼就下笔,写一步不回头,匀速写完拉倒,哪怕题很难,亦然顺嘴瞎编充数。
Mythos是学霸,拿到题先分难度,绵薄题秒答不浪掷时刻;际遇复杂大题、关节技艺,就多打草稿、多琢磨几遍,算对了再往下写,卡壳了就停驻来多想一层,毫不会张嘴就来。
第二是更偏向agent轨迹的强化学习,老师宗旨不再仅仅“终末一句话答对了莫得”,而是“整条任务链有莫得顺利完成”,包括若何拆有议论、何时调用器具、何时停驻来考证、出错后如何回退。
正本的老师口头是只看“技俩终末有莫得交差”,哪怕实习生中间瞎搞、找别东谈主代作念、技艺全错,终末蒙对了终局,就发奖金。
若是中间全对,终末一步手抖错了,顺利扣钱,皆备不论过程。
Mythos是全程盯历程,不仅看终末技俩成没成,还要看你会不会把大技俩拆成一步一步的小有议论,什么时候该查府上、用器具,什么时候该停驻来查对前边的内容,作念错了会不会回头修正。
第三是更强的verifier,也便是某种内置的审稿东谈主或质检员,在代码场景里查验patch是否真的诞生,在安全场景里查验输出是否显赫增多迂回可实行性。
这个你就当成是公众号发著作。普通AI是作家写收场顺利发,不论有莫得错别字、事实诞妄、合规风险,发出去出问题再说。
Mythos就和字母AI通常,要有提纲、要有多谈审核、还要去求证等等。这篇著作之外。
第四是更细粒度的风险监控,不只看最终文本,而是看模子里面表征和中间轨迹,判断它是不是正在形成一条危境的迂回链。
这亦然为什么我一直拿当代杀毒软件和EDR来类比。往日的杀毒软件更像“对照病毒库”,今天的安全系统更像“识别可疑步履模式”。
如果把这个逻辑搬到大模子里,Mythos的安万能力就可能不是靠硬编码关节词,而是靠对任务语义、器具调用礼貌、代码步履和中间气象的概述判断。
它识别的不是“某个坏谜底”,而是“这个肯求会酿成若何的效果”。一朝这种能力纯属,安全就不再仅仅一个外挂过滤器,而会变成模子推理过程自己的一部分。
如果把这些能力串起来看,Mythos可能会是一个将语义泛化、长任务踏实性、器具编排、风险适度这几件事给交融起来的新家具。
这也诠释了为什么Anthropic对Mythos如斯严慎。
一个能领会迂回语义、能泛化发现流毒、能编排长链条任务、能自主使用器具的AI,这还是是敲响AGI的防盗门了。
但这里有个更深层的问题:当AI的迂回能力运行系统性地卓著驻扎能力,扫数相聚安全的均衡会不会被突破?
如果明天几个月Anthropic真的崇拜发布Mythos或者Capybara,那么最应该盯紧的是它在computer use、terminal、browser这类长任务环境里的踏实性。
因为这类场景最能泄漏一个模子到底仅仅“单轮恢复强”,如故还是具备“握续实行”的系统能力。真实的阶跃式变化,终末都会反应在这些难以伪装好意思化的议论上。
从这个角度看,Mythos泄密事件的真实真谛真谛,是揭示了AI发展的下一个临界点。
而这个临界点,可能比我们想象的来得更快。
凤凰彩票官网首页 - Welcome