O custo da tokenização do idioma chinês do Claude é 65% mais alto do que o do inglês; a OpenAI apenas 15% mais

Mensagem do Gate News, 29 de abril — a investigadora de IA Aran Komatsuzaki realizou uma análise comparativa da eficiência de tokenização em seis dos principais modelos de IA, traduzindo o artigo seminal de Rich Sutton “The Bitter Lesson” para nove línguas e processando-o através dos tokenizadores da OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude. Usando a contagem de tokens da versão em inglês na OpenAI como base (1x), o estudo revelou disparidades significativas: ao processar o mesmo conteúdo em chinês, eram necessários 1.65x tokens no Claude, em comparação com apenas 1.15x na OpenAI. O hindi apresentou um resultado ainda mais extremo no Claude, superando a base em mais de 3x. A Anthropic ficou em último lugar entre os seis modelos testados.

De forma crucial, quando o mesmo texto chinês foi processado em diferentes modelos — todos medidos em relação à mesma base em inglês — os resultados divergiram dramaticamente: o Kimi consumiu apenas 0.81x tokens (até menos do que o inglês), o Qwen 0.85x, enquanto o Claude exigiu 1.65x. Esta diferença revela um problema puro de eficiência de tokenização, e não uma questão inerente ao idioma. Os modelos de chinês demonstraram maior eficiência ao processar chinês, sugerindo que a disparidade decorre da otimização do tokenizador e não do próprio idioma.

As implicações práticas para os utilizadores são substanciais: o aumento do consumo de tokens eleva diretamente os custos da API, aumenta a latência de resposta do modelo e esgota mais rapidamente as janelas de contexto. A eficiência de tokenização depende da composição linguística dos dados de treino de um modelo — modelos treinados predominantemente em inglês comprimem o texto em inglês com maior eficiência, enquanto idiomas com menor representação nos dados são tokenizados em fragmentos menores e menos eficientes.

A conclusão de Komatsuzaki sublinha um princípio fundamental: o tamanho do mercado determina a eficiência de tokenização. Mercados maiores recebem melhor otimização, enquanto os idiomas sub-representados enfrentam custos de tokens significativamente mais elevados.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A PayPal revela uma reorganização em três unidades, com o objetivo de alcançar $900M em poupanças anuais até ao final de 2027

Em 30 de abril, a PayPal anunciou uma reorganização estrutural abrangente em três unidades de negócio distintas — Consumer, Small Business e Enterprise — com o objetivo de simplificar as operações e acelerar a integração de inteligência artificial. A empresa estima que a reestruturação irá entregar

GateNews32m atrás

A Kaisar Network conclui $4 milhões de financiamento para a camada 1 descentralizada de computação de IA

De acordo com a ChainCatcher, a Kaisar Network, uma rede descentralizada de computação de IA na Layer 1, concluiu $4 milhões em financiamento até à data, incluindo 1 milhão de dólares numa ronda estratégica de Pre-Seed. Os investidores incluem Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 e Unicorn Ventures. A rede

GateNews2h atrás

O CFO da OpenAI desmente rumores sobre metas de receitas e diz que a empresa está a executar no nível mais alto em 1 de Maio

Segundo a Bloomberg, a diretora financeira (CFO) da OpenAI, Sarah Friar, desmentiu rumores a 1 de maio de que a empresa teria falhado as metas internas de vendas e de utilizadores. Friar afirmou que a empresa está a executar os seus planos no mais alto nível, descrevendo a procura pelos produtos como uma «parede vertical». Referiu que a execução

GateNews2h atrás

O assessor de Musk revela a licitação $974B da xAI por ativos sem fins lucrativos da OpenAI em tribunal, suscitando nova análise

De acordo com o testemunho de Jared Birchall no 4.º dia do processo de Musk contra a OpenAI, a proposta de xAI no valor de 974 mil milhões de dólares pelos activos sem fins lucrativos da OpenAI tinha como objectivo impedir que Sam Altman subvalorizasse os activos durante a reestruturação da OpenAI. No entanto, a juíza Yvonne Gonzalez Rogers questionou como é que Birchall poderia apresentar uma proposta de 974 mil milhões de dólares

GateNews3h atrás

Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4.º dia do julgamento

Segundo a Beating e a The Verge, no 4.º dia do julgamento entre Musk e a OpenAI, os advogados da OpenAI questionaram se a xAI tinha usado destilação para melhorar os seus modelos com tecnologia da OpenAI. Musk afirmou inicialmente que «quase todas as empresas de IA fazem isto», mas quando lhe pediram uma resposta direta, reconheceu

GateNews4h atrás

66,3% dos trabalhadores americanos com rendimentos elevados utilizam ferramentas de IA no trabalho, mostra um inquérito da Reserva Federal

De acordo com um inquérito da Reserva Federal, 66,3% dos trabalhadores nos EUA com rendimentos superiores a 200.000 USD anuais já utilizaram ferramentas de IA no trabalho nos últimos 12 meses, à data de 1 de maio. Entre os escalões de rendimentos mais baixos, as taxas de utilização diminuem significativamente: 51,6% para os que auferem entre 100.000 USD e 200.000 USD, 40,2% para os que ganham entre 50.000 USD e 100.000 USD,

GateNews4h atrás
Comentar
0/400
Nenhum comentário