Gate News сообщение, 29 апреля — исследователь ИИ Аран Комацузаки провел сравнительный анализ эффективности токенизации на шести основных ИИ-моделях, переведя основополагающую работу Рича Саттона “The Bitter Lesson” на девять языков и пропустив их через токенизаторы OpenAI, Gemini, Qwen, DeepSeek, Kimi и Claude. Используя количество токенов английской версии в OpenAI в качестве базового уровня (1x), исследование выявило существенные различия: обработка того же контента на китайском требовала 1,65x токенов у Claude по сравнению лишь с 1,15x у OpenAI. На Claude хинди показал еще более экстремальный результат, превысив базовый уровень более чем в 3 раза. Anthropic оказался самым низким среди шести протестированных моделей.
Критически важно, что когда идентичный китайский текст обрабатывали на разных моделях — все они сравнивались с одним и тем же английским базовым уровнем — результаты разошлись драматически: Kimi потреблял лишь 0,81x токенов (даже меньше, чем английский), Qwen — 0,85x, тогда как Claude требовалось 1,65x. Этот разрыв указывает на чистую проблему эффективности токенизации, а не на врожденную языковую проблему. Китайские модели продемонстрировали более высокую эффективность при обработке китайского, что позволяет предположить, что разница связана с оптимизацией токенизатора, а не с самим языком.
Практические последствия для пользователей существенны: повышенное потребление токенов напрямую увеличивает API-расходы, удлиняет задержку ответов моделей и быстрее исчерпывает контекстные окна. Эффективность токенизации зависит от лингвистического состава тренировочных данных модели — модели, обученные преимущественно на английском, сжимают английский текст более эффективно, а языки с меньшей представленностью токенизируются в более мелкие, менее эффективные фрагменты.
Вывод Комацузаки подчеркивает фундаментальный принцип: размер рынка определяет эффективность токенизации. Более крупные рынки получают лучшую оптимизацию, тогда как языки, недостаточно представленные, сталкиваются со значительно более высокими затратами на токены.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Kaisar Network завершила $4 миллион в финансировании для децентрализованного уровня 1 вычислений для ИИ
По данным ChainCatcher, Kaisar Network — децентрализованная сеть Layer 1 для вычислений ИИ — завершила сбор средств в размере $4 млн на текущий момент, включая $1 млн в стратегическом раунде Pre-Seed. Среди инвесторов: Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 и Unicorn Ventures. Сеть
GateNews57м назад
Финансовый директор OpenAI опровергает слухи о целевых показателях выручки, заявив, что компания работает на самом высоком уровне 1 мая
По данным Bloomberg, финансовый директор OpenAI Сара Фрайар опровергла слухи от 1 мая о том, что компания не достигла внутренних показателей по продажам и целевых показателей по пользователям. Фрайар заявила, что фирма реализует свои планы на самом высоком уровне, охарактеризовав спрос на продукты как «вертикальную стену». Она отметила, что выполнение
GateNews1ч назад
Советник Илона Маска раскрывает $974B -заявку xAI на активы некоммерческой структуры OpenAI в суде, усиливая новые вопросы
Согласно показаниям Джареда Бирчелла на 4-й день судебного процесса Маска против OpenAI, предложение xAI на 974 миллиарда долларов за активы OpenAI как некоммерческой организации было направлено на то, чтобы не позволить Сэму Альтману занижать стоимость активов во время реструктуризации OpenAI. Однако судья Йвонн Гонсалес Роджерс спросила, как Бирчалл мог представить сумму в 974 миллиарда долларов
GateNews2ч назад
Маск признаёт, что xAI использовала дистилляцию на моделях OpenAI во время судебного дня 4
По данным Beating и The Verge, на 4-й день судебного разбирательства между Маском и OpenAI адвокаты OpenAI выясняли, использовала ли xAI дистилляцию, чтобы улучшать свои модели с применением технологий OpenAI. Изначально Маск заявил, что «почти все компании в сфере ИИ делают это», но когда его попросили ответить прямо, он признал …acknow
GateNews2ч назад
66,3% сотрудников в США с высокой заработной платой используют инструменты ИИ на работе, показывает опрос Федеральной резервной системы
Согласно опросу Федеральной резервной системы, 66,3% сотрудников в США, зарабатывающих свыше $200 000 в год, использовали инструменты ИИ на работе в течение последних 12 месяцев по состоянию на 1 мая. Среди групп с более низкими доходами показатели использования заметно снижаются: 51,6% для тех, кто зарабатывает $100 000–$200 000, 40,2% для тех, кто зарабатывает $50 000–$100 000,
GateNews3ч назад
xAI запускает API Grok 4.3 с окном контекста 1 млн токенов и ценой $1,25 за миллион входных токенов
По данным BlockBeats, xAI запустила API Grok 4.3 1 мая. Новая модель поддерживает окно контекста в 1 миллион токенов и предлагает текстовый ввод/вывод, мультимодальные возможности и функции вызова инструментов. API Grok 4.3 стоит 1,25 доллара за 1 миллион входных
GateNews3ч назад