有人构建了一个开源的“理论神话”以逆向工程Anthropic最危险的人工智能

简要介绍

  • OpenMythos 是对克劳德 Mythos 架构的从零重建,仅基于公开研究论文和推测构建而成。
  • 克劳德 Mythos 是 Anthropic 最强大的模型,被锁在 Project Glasswing 中,因为它自主发现了271个 Firefox 漏洞和32步网络攻击。
  • 该仓库是理论框架——没有训练好的权重的代码。它反映了 Vidoc Security 的另一项努力,该公司使用现成模型复现了 Mythos 的漏洞发现。

如果 Anthropic 不愿展示其最危险的 AI 内部结构,GitHub 上的某个人会猜测。 一位名叫 Kye Gomez 的开发者发布了 OpenMythos,这是他对 Mythos 内部结构的开源重建。该仓库在发布几周内获得了超过1万颗 GitHub 星标,并附带一份详尽的“readme”文件,里面充满了方程、引用和一份礼貌的免责声明,说明它与 Anthropic 无关。 这只是推测。但它是结构化的推测,用代码表现出来。 这里是 Mythos 的简要介绍: Mythos 于三月底泄露到公众视野,当时 Anthropic 不小心发布了描述其为公司迄今为止最强模型的草稿材料——高于 Opus 的层级。随后的 Mythos 预览显示,它在网络安全方面异常出色,几乎无法发布。

 据 Anthropic 介绍,Mythos 在 Mozilla 测试中发现了271个漏洞。它成为第一个完成32步企业网络攻击模拟的 AI 模型。Anthropic 将其锁在 Project Glasswing 内,这是由大约40个合作伙伴组成的经过审查的联盟,包括微软、苹果、亚马逊和 NSA。 公众永远无法触及它。所以 Gomez 试图弄清楚它的工作原理。 OpenMythos 的核心猜测是 Mythos 是一种循环深度变换器——也称为循环变换器。标准模型堆叠数百个不同的层。循环模型则用较少的层多次运行,经过多次前向传播。

换句话说,权重相同,经过多次迭代。在任何令牌发出之前,在连续潜在空间中进行更深层次的思考。 该仓库认为,这可以解释 Mythos 的两个最奇特的特性:它能推理出其他模型无法破解的新问题,但其原始记忆能力不均。这是循环架构的指纹——偏重组合而非存储。 OpenMythos 引用 Parcae,一篇由加州大学圣地亚哥分校和 Together AI 于2026年4月发表的论文,解决了循环模型中的长期不稳定性问题——一个7.7亿参数的 Parcae 模型在质量上与13亿参数的固定深度变换器相当,并具有可预测的扩展规律,指导运行多少次循环。该仓库还借用了 DeepSeek 的多潜在注意力机制以压缩记忆,以及专家混合(Mixture-of-Experts)结构以处理跨领域的广度。 它没有权重,所以基本上是一种没有执行器的技术。 OpenMythos 是理论性的。代码定义了从10亿到1万亿参数的模型变体,但你必须自己训练——readme 文件指向一个在 FineWeb-Edu 上训练的30亿参数脚本,以及一个经过 Chinchilla 调整的300亿标记目标,这种计算成本在 H100 上可能高达数十万美元。还没有人完成训练。 那么,为什么这很重要? 因为这是一个月内第二次有人试图突破 Mythos 的壁垒。第一次是 Vidoc Security 的一项研究,他们用 GPT-5.4 和 Claude Opus 4.6 在开源代理中复现了 Mythos 的几个最令人担忧的漏洞发现。没有 Glasswing 访问权限,扫描成本低于30美元。角度不同,结论相同: Mythos 周围的护城河可能比宣传的更薄。 OpenMythos 和 Vidoc 的复现工作是不同的。Vidoc 复现了 Mythos 的输出——漏洞发现本身——使用的是现有模型。OpenMythos 则试图复现架构——产生这些输出的实际机器。一个观点是你不需要 Mythos 就能找到 Mythos 发现的漏洞;另一个观点是,最终你可能自己也能构建类似 Mythos 的模型。

Anthropic 几乎肯定不会公开分享 Gomez 的架构猜测,OpenMythos 中的多个设计选择也是明确的保留——readme 文件确保措辞模糊,让用户知道这只是一种方法。它反复提到“可能”、“怀疑”以及“几乎可以确定”。真正的 Mythos 可能根本不是循环变换器,或者它可能是 Gomez 还未逆向工程的细节版本。 OpenMythos 展示的事实是,研究文献中已经包含了大部分关键组成部分。循环变换器、专家混合、多潜在注意力、适应性计算时间、Parcae 的稳定性修复——这些都不是专有的。这个仓库更像是一个关于如何构建 Mythos 级模型的公开知识清单。 该仓库采用 MIT 许可证,已经有2700个分支。训练脚本也在等待拥有GPU集群和论文证明的人来使用。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论