Gate News сообщение, 29 апреля — исследователь ИИ Аран Комацузаки провел сравнительный анализ эффективности токенизации на шести основных ИИ-моделях, переведя основополагающую работу Рича Саттона “The Bitter Lesson” на девять языков и пропустив их через токенизаторы OpenAI, Gemini, Qwen, DeepSeek, Kimi и Claude. Используя количество токенов английской версии в OpenAI в качестве базового уровня (1x), исследование выявило существенные различия: обработка того же контента на китайском требовала 1,65x токенов у Claude по сравнению лишь с 1,15x у OpenAI. На Claude хинди показал еще более экстремальный результат, превысив базовый уровень более чем в 3 раза. Anthropic оказался самым низким среди шести протестированных моделей.

Критически важно, что когда идентичный китайский текст обрабатывали на разных моделях — все они сравнивались с одним и тем же английским базовым уровнем — результаты разошлись драматически: Kimi потреблял лишь 0,81x токенов (даже меньше, чем английский), Qwen — 0,85x, тогда как Claude требовалось 1,65x. Этот разрыв указывает на чистую проблему эффективности токенизации, а не на врожденную языковую проблему. Китайские модели продемонстрировали более высокую эффективность при обработке китайского, что позволяет предположить, что разница связана с оптимизацией токенизатора, а не с самим языком.

Практические последствия для пользователей существенны: повышенное потребление токенов напрямую увеличивает API-расходы, удлиняет задержку ответов моделей и быстрее исчерпывает контекстные окна. Эффективность токенизации зависит от лингвистического состава тренировочных данных модели — модели, обученные преимущественно на английском, сжимают английский текст более эффективно, а языки с меньшей представленностью токенизируются в более мелкие, менее эффективные фрагменты.

Вывод Комацузаки подчеркивает фундаментальный принцип: размер рынка определяет эффективность токенизации. Более крупные рынки получают лучшую оптимизацию, тогда как языки, недостаточно представленные, сталкиваются со значительно более высокими затратами на токены.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Маск признаёт, что xAI использовала дистилляцию на моделях OpenAI во время судебного дня 4

Новости индустрии ИИ

По данным Beating и The Verge, на 4-й день судебного разбирательства между Маском и OpenAI адвокаты OpenAI выясняли, использовала ли xAI дистилляцию, чтобы улучшать свои модели с применением технологий OpenAI. Изначально Маск заявил, что «почти все компании в сфере ИИ делают это», но когда его попросили ответить прямо, он признал …acknow

GateNews5м назад

66,3% сотрудников в США с высокой заработной платой используют инструменты ИИ на работе, показывает опрос Федеральной резервной системы

Новости индустрии ИИ

Согласно опросу Федеральной резервной системы, 66,3% сотрудников в США, зарабатывающих свыше $200 000 в год, использовали инструменты ИИ на работе в течение последних 12 месяцев по состоянию на 1 мая. Среди групп с более низкими доходами показатели использования заметно снижаются: 51,6% для тех, кто зарабатывает $100 000–$200 000, 40,2% для тех, кто зарабатывает $50 000–$100 000,

GateNews24м назад

xAI запускает API Grok 4.3 с окном контекста 1 млн токенов и ценой $1,25 за миллион входных токенов

Новости индустрии ИИ

По данным BlockBeats, xAI запустила API Grok 4.3 1 мая. Новая модель поддерживает окно контекста в 1 миллион токенов и предлагает текстовый ввод/вывод, мультимодальные возможности и функции вызова инструментов. API Grok 4.3 стоит 1,25 доллара за 1 миллион входных

GateNews36м назад

Крупнейшие технологические компании США планируют потратить $700B на инфраструктуру ИИ в 2026 году, что намного превзойдёт $105B Китая

Новости индустрии ИИ

Согласно South China Morning Post, американские техгиганты планируют потратить на AI-инфраструктуру в этом году более 700 миллиардов долларов, что намного превышает расходы китайских конкурентов. Google, Microsoft, Meta и Amazon обеспечивают большую часть этой суммы, при этом Morgan Stanley оценил, что китайские облачные провайдеры потратят около $105 млрд

GateNews42м назад

Huawei ожидает, что выручка от AI-чипов в 2026 году достигнет 12 миллиардов долларов, что на 60% больше, чем в 2025 году

Новости индустрии ИИ

Reuters: Huawei ожидает, что выручка от ИИ-чипов в 2026 году достигнет примерно 12 миллиардов долларов, что как минимум на 60% больше, чем 7,5 миллиарда долларов в 2025 году. Большая часть заказов в этом году приходится на процессор Ascend 950PR, который вышел на массовое производство в марте. Компания планирует запустить ан

GateNews1ч назад

Nvidia инвестирует в шведский AI-юридический стартап Legora, Джуд Лоу стал глобальным амбассадором бренда

Новости индустрии ИИ

Nvidia провела расширительное инвестиционное раундирование Series D в Legora на 50 миллионов долларов, доведя общий объём привлечённых средств Legora до 600 миллионов долларов и оценку до 5,6 миллиарда долларов; в раунде участвуют Atlassian, Adams Street Partners и Insight Partners. Legora фокусируется на AI-юртехе, предоставляя такие инструменты, как автоматизированная проверка, анализ контрактов и юридические исследования; ARR превышает 100 миллионов долларов, а число сотрудников выросло с 40 до 400. Jude Law стал глобальным лицом бренда, а рекламный слоган — Law just got more attractive.

ChainNewsAbmedia1ч назад

комментарий

0/400

Нет комментариев