O custo de tokenização do idioma chinês do Claude é 65% maior do que o do inglês; a OpenAI é apenas 15% maior

Mensagem do Gate News, 29 de abril — a pesquisadora de IA Aran Komatsuzaki realizou uma análise comparativa da eficiência de tokenização em seis dos principais modelos de IA traduzindo o artigo seminal de Rich Sutton “The Bitter Lesson” para nove idiomas e processando-os por meio dos tokenizadores da OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude. Usando a contagem de tokens da versão em inglês na OpenAI como base (1x), o estudo revelou disparidades significativas: processar o mesmo conteúdo em chinês exigiu 1,65x tokens no Claude, em comparação com apenas 1,15x na OpenAI. O hindi mostrou um resultado ainda mais extremo no Claude, excedendo a base em mais de 3x. A Anthropic ficou na última posição entre os seis modelos testados.

Ponto crítico: quando o mesmo texto em chinês foi processado em diferentes modelos—todos medidos contra a mesma base em inglês—os resultados divergem dramaticamente: a Kimi consumiu apenas 0,81x tokens (menos do que o inglês), o Qwen 0,85x, enquanto o Claude exigiu 1,65x. Essa diferença revela um problema puro de eficiência de tokenização, não uma questão inerente de idioma. Os modelos de chinês demonstraram eficiência superior no processamento do chinês, sugerindo que a disparidade decorre da otimização do tokenizador e não do idioma em si.

As implicações práticas para os usuários são substanciais: o aumento do consumo de tokens eleva diretamente os custos da API, amplia a latência de resposta dos modelos e esgota as janelas de contexto com mais rapidez. A eficiência de tokenização depende da composição linguística dos dados de treinamento de um modelo—modelos treinados predominantemente em inglês comprimem o texto em inglês de forma mais eficiente, enquanto idiomas com menor representação em dados são tokenizados em fragmentos menores e menos eficientes.

A conclusão de Komatsuzaki ressalta um princípio fundamental: o tamanho do mercado determina a eficiência de tokenização. Mercados maiores recebem melhor otimização, enquanto idiomas com menor representação enfrentam custos de token significativamente mais altos.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

O presidente do Federal Reserve, Barr, diz que reguladores devem considerar como regular novas tecnologias de IA como o Mythos em 2 de maio

De acordo com a BlockBeats, em 2 de maio, o regulador bancário do Federal Reserve, Michael Barr, afirmou que os reguladores precisam considerar como melhor regulamentar novas tecnologias como o Mythos, da Anthropic. Barr observou que, embora essas capacidades possam ajudar as empresas a identificar e enfrentar

GateNewsAgora mesmo

Claw Intelligence faz parceria com a Block Sec Arena para fortalecer a segurança da BNB Chain

De acordo com o anúncio oficial da Block Sec Arena em 30 de abril, a Claw Intelligence, uma plataforma Web3 orientada por IA construída na BNB Chain, anunciou uma parceria estratégica com a Block Sec Arena para integrar infraestrutura avançada de cibersegurança ao seu ecossistema. A colaboração tem como objetivo fortalecer o p

GateNews9h atrás

NTT anuncia iniciativa de IA x OWN e planeja triplicar a capacidade de energia do Japão para 1 GW até 2033

Em 27 de abril, o presidente da NTT, Akira Shimada, anunciou a iniciativa AI x OWN, o esforço da empresa para redesenhar a infraestrutura da internet para uso de IA em tempo real. A NTT planeja triplicar sua capacidade de energia doméstica de aproximadamente 300 MW hoje para cerca de 1 gigawatt até o ano fiscal de 2033, à medida que a gigante de telecomunicações

GateNews11h atrás

A plataforma de IA Certifyde conclui uma rodada seed de US$ 2 milhões em 1º de maio, com apoio do CEO da Ripple, Brad Garlinghouse

De acordo com a TechfundingNews, a plataforma de aplicação de IA Certifyde concluiu uma rodada de seed funding de US$ 2 milhões em 1º de maio. Os investidores incluem a K5 Global, a Flamingo Capital e investidores-anjo, incluindo o cofundador da Honey George Ruan, o CEO da Ripple Brad Garlinghouse e o cofundador da Nutra Roland

GateNews11h atrás

Diretor de tecnologia do Pentágono: a Anthropic ainda está na lista negra, tratamento de exceção para a Mythos

O chefe de tecnologia do Departamento de Defesa dos EUA (Pentagon technology chief) declarou no dia 1º de maio ao Congresso que “a Anthropic ainda está na lista negra, mas o Mythos Preview é outra questão”, reconhecendo formalmente que o Departamento de Defesa trata de forma diferente a marca principal da Anthropic e seu novo modelo, Mythos. Essa fala se alinha com a revelação da Axios em 19 de abril de que a NSA (Agência de Segurança Nacional) já passou a usar o Mythos para estabelecer ressonância — e também consolida oficialmente a tendência de política em torno de um “canal de exceção para o Mythos”. Ao mesmo tempo, isso significa que o Departamento de Defesa já havia sustentado em tribunal que o uso de ferramentas da Anthropic colocaria a segurança nacional em risco, criando uma contradição interna nos argumentos legais em relação à prática atual. Anthropic vs Pentagon

ChainNewsAbmedia12h atrás

137 Ventures encerra $700M em novos fundos, AUM atinge US$ 15 bilhões

De acordo com a ChainCatcher, a 137 Ventures, investidora inicial na SpaceX, concluiu recentemente a captação de recursos para dois novos fundos, somando mais de US$ 700 milhões, elevando seus ativos sob gestão para mais de US$ 15 bilhões. O novo capital vai apoiar investimentos em agentes de IA, robótica e propulsão espacial

GateNews12h atrás
Comentário
0/400
Sem comentários