Gate 新闻消息,4 月 29 日——AI 研究员 Aran Komatsuzaki 通过将 Rich Sutton 的奠基性论文《The Bitter Lesson》翻译成九种语言,并将其交由 OpenAI、Gemini、Qwen、DeepSeek、Kimi 和 Claude 的分词器进行处理,对六个主要 AI 模型的分词效率进行了对比分析。研究以在 OpenAI 上使用英文版本的分词数量作为基准 (1x),结果显示出显著差异:在 Claude 上处理相同内容需要的代币(tokens)为 1.65 倍,而在 OpenAI 上仅为 1.15 倍。印地语在 Claude 上的结果更为极端,较基准高出超过 3 倍。在所测试的六个模型中,Anthropic 的表现最低。
关键在于,当相同的中文文本在不同模型中进行处理——且都以同一个英文基准来衡量——结果出现了惊人的分歧:Kimi 消耗的代币仅为 0.81 倍 (,甚至比英文还少);Qwen 为 0.85 倍;而 Claude 需要 1.65 倍。这个差距揭示的是纯粹的分词效率问题,而非语言本身的问题。中文模型在处理中文时展现出更高的效率,这表明差异源于分词器的优化,而不是语言属性。
对用户而言,其实际影响相当可观:代币消耗的增加会直接推高 API 成本,延长模型响应延迟,并更快耗尽上下文窗口。分词效率取决于模型训练数据的语言构成——如果模型主要在英文数据上训练,那么对英文文本的压缩会更高效;而数据代表性较低的语言,则会被分割成更小、效率更低的片段。
Komatsuzaki 的结论强调了一个基础原则:市场规模决定分词效率。更大的市场往往带来更好的优化;而在市场中代表性不足的语言,将面临显著更高的代币成本。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
PayPal 揭开重组计划,将拆分为三个业务单位,并在 2027 年底前实现 $900M 年度节省
4 月 30 日,PayPal 宣布将进行全面的架构重组,拆分为三个独立的业务部门——消费者、小型企业和大型企业——旨在简化运营并加速人工智能的整合。公司预计此次重组将带来
GateNews34 分钟前
Kaisar Network 完成 $4 百万美元融资,用于去中心化 AI 计算 Layer 1
据 ChainCatcher 报道,Kaisar Network 这一去中心化 AI 计算 Layer 1 网络,截至目前已完成 $4 百万美元 融资,其中包括 100 万美元的战略 Pre-Seed 轮。投资者包括 Merov Capital、StoneBlock、WM Capital、Arche Fund、Q42 和 Unicorn Ventures。该网络
GateNews2小时前
OpenAI 首席财务官驳斥营收目标传闻,称公司在 5 月 1 日以最高水平执行
根据彭博社报道,OpenAI 首席财务官 Sarah Friar 于 5 月 1 日驳斥了关于公司未达成内部销售和用户目标的传闻。Friar 表示,该公司正在以最高水平执行其计划,并将产品需求描述为“垂直墙”。她指出,执行
GateNews2小时前
马斯克的顾问在法院披露 xAI 的 $974B 出价以获取 OpenAI 非营利资产,引发新一轮审查
根据 Jared Birchall 在 Musk 与 OpenAI 诉讼第 4 天的证词,xAI 对 OpenAI 非营利资产提出的 9740 亿美元报价旨在防止 Sam Altman 在 OpenAI 重组期间对这些资产估值过低。然而,法官 Yvonne Gonzalez Rogers 质疑 Birchall 如何能提出 9740 亿美元(后续内容未完整呈现)。
GateNews3小时前
马斯克承认在第 4 天的审判中 xAI 在使用 OpenAI 模型时采用了蒸馏技术
据 Beating 和 The Verge 报道,在 Musk 与 OpenAI 的审判第 4 天,OpenAI 的律师质疑 xAI 是否使用了蒸馏,借助 OpenAI 的技术来改进其模型。Musk 最初表示“几乎所有 AI 公司都会这样做”,但在被追问要给出直接答复时,他承认…
GateNews4小时前
66.3% 的美国高收入雇员在工作中使用 AI 工具,美联储调查显示
根据美联储一项调查,截至 5 月 1 日,年收入超过 20 万美元的美国雇员中,有 66.3% 在过去 12 个月在工作中使用过 AI 工具。在较低收入档中,使用率显著下降:年收入 10 万–20 万美元的为 51.6%,年收入 5 万–10 万美元的为 40.2%,
GateNews4小时前