Pesan Gate News, 29 April — Peneliti AI Aran Komatsuzaki melakukan analisis perbandingan efisiensi tokenisasi di enam model AI besar dengan menerjemahkan karya perintis Rich Sutton “The Bitter Lesson” ke sembilan bahasa dan memprosesnya melalui tokenizer OpenAI, Gemini, Qwen, DeepSeek, Kimi, dan Claude. Dengan menjadikan jumlah token versi bahasa Inggris di OpenAI sebagai baseline (1x), studi tersebut mengungkap perbedaan yang signifikan: memproses konten yang sama dalam bahasa Tiongkok memerlukan 1.65x token pada Claude, dibandingkan hanya 1.15x pada OpenAI. Bahasa Hindi menunjukkan hasil yang lebih ekstrem pada Claude, melebihi baseline lebih dari 3x. Anthropic menempati peringkat terendah di antara enam model yang diuji.
Yang paling kritis, ketika teks Tiongkok yang identik diproses di berbagai model—semuanya diukur terhadap baseline bahasa Inggris yang sama—hasilnya justru berbeda secara dramatis: Kimi hanya mengonsumsi 0.81x token (bahkan lebih sedikit dari bahasa Inggris), Qwen 0.85x, sedangkan Claude memerlukan 1.65x. Kesenjangan ini mengungkap masalah murni efisiensi tokenisasi, bukan masalah bahasa yang melekat. Model-model bahasa Tiongkok menunjukkan efisiensi yang lebih baik dalam memproses bahasa Tiongkok, yang mengisyaratkan bahwa perbedaan tersebut berasal dari optimisasi tokenizer, bukan dari bahasa itu sendiri.
Implikasi praktis bagi pengguna sangat besar: konsumsi token yang meningkat secara langsung menaikkan biaya API, memperpanjang latensi respons model, dan menghabiskan jendela konteks lebih cepat. Efisiensi tokenisasi bergantung pada komposisi linguistik dari data pelatihan suatu model—model yang dilatih terutama pada bahasa Inggris mengompresi teks bahasa Inggris lebih efisien, sementara bahasa dengan representasi data yang lebih rendah ditokenisasi menjadi fragmen-fragmen yang lebih kecil dan kurang efisien.
Kesimpulan Komatsuzaki menegaskan sebuah prinsip mendasar: ukuran pasar menentukan efisiensi tokenisasi. Pasar yang lebih besar menerima optimisasi yang lebih baik, sementara bahasa yang kurang terwakili menghadapi biaya token yang jauh lebih tinggi.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Claw Intelligence Bermitra dengan Block Sec Arena untuk Memperkuat Keamanan BNB Chain
Menurut pengumuman resmi Block Sec Arena pada 30 April, Claw Intelligence, platform Web3 berbasis AI yang dibangun di BNB Chain, telah mengumumkan kemitraan strategis dengan Block Sec Arena untuk mengintegrasikan infrastruktur keamanan siber canggih ke dalam ekosistemnya. Kolaborasi ini bertujuan untuk memperkuat p
GateNews4jam yang lalu
NTT Mengumumkan Inisiatif AI x OWN, Berencana Melipatgandakan Tiga Kali Kapasitas Daya Jepang Menjadi 1 GW pada 2033
Pada 27 April, Presiden NTT Akira Shimada mengumumkan inisiatif AI x OWN, upaya perusahaan untuk merombak infrastruktur internet agar dapat digunakan oleh AI secara real-time. NTT berencana untuk melipat tiga kapasitas daya domestiknya dari sekitar 300 MW saat ini menjadi sekitar 1 gigawatt pada tahun fiskal 2033, saat perusahaan telekomunikasi raksasa tersebut
GateNews5jam yang lalu
Platform AI Certifyde Menyelesaikan Putaran Seed senilai 2 juta dolar pada 1 Mei, Didukung oleh CEO Ripple Brad Garlinghouse
Menurut TechfundingNews, platform aplikasi AI Certifyde menyelesaikan putaran pendanaan seed senilai 2 juta dolar AS pada 1 Mei. Para investor termasuk K5 Global, Flamingo Capital, serta investor angel termasuk Honey co-founder George Ruan, Ripple CEO Brad Garlinghouse, dan Nutra co-founder Roland
GateNews6jam yang lalu
Komando Teknologi Pentagon: Anthropic masih masuk daftar hitam, penanganan pengecualian untuk Mythos
Kepala teknologi Kementerian Pertahanan AS (Pentagon technology chief) pada 1 Mei menyampaikan kepada Kongres bahwa, “Anthropic masih berada di daftar hitam, tetapi Mythos Preview adalah isu lain”, sehingga secara resmi mengakui adanya perlakuan berbeda oleh Pentagon terhadap merek utama Anthropic dan model barunya Mythos. Pernyataan ini sejalan dengan temuan Axios pada 19 April bahwa NSA (National Security Agency) sudah benar-benar memakai Mythos untuk menciptakan keterkaitan, sekaligus secara resmi mengukuhkan arah kebijakan “saluran pengecualian Mythos”—yang juga berarti Pentagon sebelumnya pernah berargumen di pengadilan bahwa penggunaan alat Anthropic akan mengancam keamanan nasional, sehingga menimbulkan kontradiksi internal secara argumentasi hukum dengan praktik aktual saat ini.
Anthropic vs Pentagon
ChainNewsAbmedia7jam yang lalu
137 Ventures Menutup $700M dalam Dana Baru, AUM Mencapai $15B
Menurut ChainCatcher, 137 Ventures, investor awal di SpaceX, baru-baru ini menyelesaikan penggalangan dana untuk dua dana baru senilai lebih dari 700 juta dolar AS, sehingga aset kelolanya kini melebihi 15 miliar dolar AS. Modal baru ini akan mendukung investasi pada agen AI, robotika, dan pendorong ruang angkasa
GateNews7jam yang lalu
Reddit Melonjak 16% di Tengah Prospek Kuartal II yang Kuat; Apple Menghadapi Kekurangan Mac karena Permintaan AI Melebihi Pasokan
Saham Reddit naik 16% sebelum pasar dibuka pada Jumat setelah perusahaan mengeluarkan panduan pendapatan untuk kuartal mendatang yang lebih tinggi dari perkiraan. Pengunjung aktif harian tumbuh 17% menjadi 126,8 juta, sementara pendapatan rata-rata per pengguna secara global melonjak 44%, didorong oleh AI-powered
GateNews7jam yang lalu