Gate 新闻消息,4 月 29 日——AI 研究员 Aran Komatsuzaki 通过将 Rich Sutton 的开创性论文《The Bitter Lesson》翻译成九种语言,并在 OpenAI、Gemini、Qwen、DeepSeek、Kimi 和 Claude 的分词器上进行处理,对六个主要 AI 模型的分词效率进行了对比分析。以 OpenAI 上英文版本的分词数量作为基准 (1x),研究发现了显著差异:在 Claude 上处理相同内容时,中文所需分词数为 1.65x,而在 OpenAI 上仅为 1.15x。印地语在 Claude 上的结果更为极端,超过基准 3 倍以上。Anthropic 在这六个测试模型中排名最低。
关键在于,当相同的中文文本在不同模型中进行处理——且都以同一个英文基准进行测量时——结果出现了惊人的分歧:Kimi 仅消耗 0.81x 个分词 (甚至少于英文),Qwen 为 0.85x,而 Claude 需要 1.65x。这个差距揭示的是纯粹的分词效率问题,而不是语言本身的问题。中文模型在处理中文时表现出更高效率,这表明差异源于分词器的优化,而非语言本身。
对用户的实际影响十分重大:分词消耗的增加会直接推高 API 成本、延长模型响应延迟,并更快耗尽上下文窗口。分词效率取决于模型训练数据的语言构成——如果模型主要在英文上训练,它会更高效地压缩英文文本;而数据代表性较低的语言则会被分成更小、更不高效的片段。
Komatsuzaki 的结论强调了一个基础原则:市场规模决定分词效率。更大的市场会获得更好的优化,而代表性不足的语言面临显著更高的分词成本。
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
تتعاون شركة Claw Intelligence مع Block Sec Arena لتعزيز أمن سلسلة BNB Chain
بحسب الإعلان الرسمي لشركة Block Sec Arena في 30 أبريل، أعلنت Claw Intelligence، وهي منصة Web3 مدعومة بالذكاء الاصطناعي ومبنية على BNB Chain، عن شراكة استراتيجية مع Block Sec Arena لدمج بنية تحتية متقدمة للأمن السيبراني داخل نظامها البيئي. تهدف الشراكة إلى تعزيز p
GateNewsمنذ 4 س
شركة NTT تعلن مبادرة AI x OWN، وتخطط لثلاثة أضعاف سعة توليد الطاقة في اليابان إلى 1 جيجاواط بحلول 2033
في 27 أبريل، أعلن رئيس NTT أكيرا شيماشيدا مبادرة AI x OWN، وهي جهود الشركة لإعادة تصميم بنية الإنترنت لاستخدام الذكاء الاصطناعي في الوقت الفعلي. وتخطط NTT لرفع سعتها المحلية من الطاقة الكهربائية إلى ثلاثة أضعاف من نحو 300 ميغاواط اليوم إلى حوالي 1 جيغاواط بحلول السنة المالية 2033، حيث عملاق الاتصالات
GateNewsمنذ 5 س
منصة الذكاء الاصطناعي Certifyde تُكمل جولة تمويل بذري بقيمة 2 مليون دولار في 1 مايو، بدعم من الرئيس التنفيذي لشركة Ripple براد غارلينغهاوس
بحسب TechfundingNews، أكملت منصة تطبيقات الذكاء الاصطناعي Certifyde جولة تمويل بذري بقيمة 2 مليون دولار في 1 مايو. ومن بين المستثمرين K5 Global وFlamingo Capital، إضافةً إلى مستثمرين ملائكة من بينهم المؤسس المشارك لشركة Honey جورج روان، والرئيس التنفيذي لشركة Ripple براد غارلينغهاوس، والمؤسس المشارك لشركة Nutra رولاند
GateNewsمنذ 6 س
نائب وزير الدفاع الأمريكي لشؤون التكنولوجيا في البنتاغون: لا تزال Anthropic مدرجة في القائمة السوداء، مع استثناءات خاصة لـ Mythos
صرّح كبير مسؤولي التكنولوجيا في وزارة الدفاع الأمريكية (Pentagon technology chief) في 1 مايو أمام الكونغرس قائلاً: «تظل Anthropic على القائمة السوداء، لكن Mythos Preview موضوع آخر»، مانحاً اعترافاً رسمياً بأن وزارة الدفاع تتعامل على نحو مختلف مع العلامة التجارية الرئيسية لـ Anthropic ونموذجها الجديد Mythos. يتوافق هذا الموقف مع ما كشفته Axios في 19 أبريل بأن وكالة الأمن القومي (NSA) كانت قد استخدمت فعلياً Mythos لإيجاد تكيّف/استجابة، كما أنه يرسّخ رسمياً التوجه نحو سياسة «قناة استثناء Mythos»، وهو ما يعني أيضاً أن وزارة الدفاع كانت قد جادلت في المحكمة بأن استخدام أدوات Anthropic قد يهدد الأمن القومي، بما يتناقض داخلياً من زاوية الحجج القانونية مع الممارسات الفعلية الحالية.
Anthropic vs Pentagon
ChainNewsAbmediaمنذ 7 س
تغلق 137 Ventures $700M في صناديق جديدة، لتصل الأصول الخاضعة للإدارة إلى 15 مليار دولار
وفقاً لـ ChainCatcher، أكمل 137 Ventures، وهو مستثمر مبكر في SpaceX، مؤخراً جمع تمويل لصندوقين جديدين بإجمالي يتجاوز 700 مليون دولار، ما يرفع أصوله الخاضعة للإدارة إلى أكثر من 15 مليار دولار. سيساند رأس المال الجديد الاستثمارات في وكلاء الذكاء الاصطناعي والروبوتات ودفع الصواريخ.
GateNewsمنذ 7 س
يترتّب ارتفاع ريديت بنسبة 16% مع توقعات قوية للربع الثاني؛ يواجه آبل نقصاً في أجهزة ماك مع تفوق الطلب على الذكاء الاصطناعي على الإمدادات
ارتفع سهم Reddit بنسبة 16% قبل افتتاح السوق يوم الجمعة، بعد أن أصدرت الشركة توقعات إيرادات للربع القادم أعلى من المتوقع. ونمت الزيارات النشطة اليومية بنسبة 17% إلى 126.8 مليون، بينما قفز متوسط الإيراد لكل مستخدم على مستوى العالم بنسبة 44%، مدفوعاً بقدرات الذكاء الاصطناعي التي تعمل على
GateNewsمنذ 7 س