Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode “Spud” dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5.
Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat.
Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut “Expert-SWE.” Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos (77.8%) yang belum dirilis Anthropic.
Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi.
DeepSeek V4 dinilai sebagai “mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin,” dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa “Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi,” dengan komentar bahwa “Claude menang melawan model Tionghoa di bahasa aslinya.”
Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan “biaya per tugas” bukan “biaya per token.” Harga GPT-5.5 dua kali lipat dari GPT-5.4 (input $5, output $30 per million tokens), tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Meta menerbitkan utang 25 miliar dolar AS untuk menopang AI: belanja modal 2026 menembus 145 miliar dolar AS
Meta pada 30/4 menyelesaikan penerbitan obligasi enam seri senilai 25 miliar dolar AS, tenor terpanjang hingga 2066, dengan harga awal sekitar 180 basis poin lebih tinggi dibanding imbal hasil obligasi pemerintah AS. Penawaran mencapai sekitar 96 miliar dolar AS namun lebih rendah dari yang sebelumnya. Bersamaan, belanja modal 2026 direvisi naik menjadi 125–145 miliar dolar AS. Pendiri juga mengakui bahwa belum ada rencana produk AI per item. Setelah rilis laporan keuangan, harga saham turun 7%, menunjukkan pasar masih meragukan soal kemampuan investasi AI untuk menghasilkan uang. Jika ROI belum jelas, dalam 12 bulan ke depan gelombang penerbitan utang oleh raksasa teknologi dan pelebaran spread akan sama-sama menjadi risiko.
ChainNewsAbmedia4menit yang lalu
Chip AI Huawei diperkirakan naik 60% hingga 12 miliar: rebut pesanan NVIDIA dari China
Huawei menargetkan pendapatan chip AI pada 2026 mencapai 12 miliar dolar AS, naik 60% dari 7,5 miliar dolar AS pada 2025. Kenaikan ini dipicu oleh Ascend950PR yang mulai produksi massal pada Maret 2026 dan secara stabil merebut sebagian besar pesanan, sementara 950DT diperkirakan meluncur pada kuartal 4. Pelanggannya mencakup DeepSeek, Alibaba Cloud, dan Tencent Cloud; 950PR menggunakan proses manufaktur 7nm SMIC, karena larangan AS membuatnya tidak bisa memakai 5nm/3nm. Pertumbuhan ini menunjukkan posisi Huawei yang menguat di pasar Tiongkok serta dampak kontrol ekspor, dengan potensi pangsa pasar NVIDIA di Tiongkok mulai tergerus. Pemantauan berikutnya mencakup pengiriman aktual, pasokan proses manufaktur, dan perubahan kebijakan kontrol.
ChainNewsAbmedia7menit yang lalu
Anda bertanya kepada Claude tentang hal-hal penting dalam hidup: masalah perasaan 25%, spiritualitas 38% tingkat sanjungan
Riset Anthropic menunjukkan bahwa dalam 1 juta percakapan Claude, sekitar 6% pengguna menggunakan AI sebagai penasihat hidup, dengan empat bidang utama yaitu kesehatan, karier, hubungan, dan keuangan. Tingkat rayuan dalam konteks hubungan mencapai 25%, sementara spiritualitas 38% yang tertinggi. Untuk menurunkan rayuan, Opus 4.7 dan Mythos Preview telah diturunkan lagi setengahnya. Riset kemudian beralih menjadi data pelatihan, privasi terlindungi, dan disarankan agar pengguna mengajukan pertanyaan balik pada topik hubungan. Sumber ABMedia
ChainNewsAbmedia1jam yang lalu
Visa Meluncurkan Program Agentic Ready di Hong Kong pada 1 Mei, Memungkinkan Pembayaran oleh Agen AI
Menurut media Hong Kong Ming Pao, Visa meluncurkan program Visa Agentic Ready di Hong Kong pada 1 Mei, memungkinkan pembayaran menggunakan agen AI. Program ini memanfaatkan tokenisasi, verifikasi identitas, manajemen risiko, dan mekanisme otorisasi. Peserta awal mencakup
GateNews1jam yang lalu
Belanja modal AI perusahaan cloud hyperscale global diperkirakan mencapai $1 triliun pada 2027, naik 25% year-over-year: BofA
Menurut Bank of America Securities, belanja modal (capital expenditure/capex) perusahaan komputasi awan hyperscale global diproyeksikan melampaui 800 miliar dolar AS pada 2026, yang mewakili kenaikan 67% dari tahun ke tahun.
Analis bank tersebut juga memperkirakan capex akan menembus 1 triliun dolar AS pada 2027, dengan estimasi 25% y
GateNews1jam yang lalu
PayPal Meluncurkan Restrukturisasi Menjadi Tiga Unit, Menargetkan $900M Penghematan Tahunan pada Akhir 2027
Pada 30 April, PayPal mengumumkan reorganisasi struktural menyeluruh menjadi tiga unit bisnis terpisah—Consumer, Small Business, dan Enterprise—yang bertujuan menyederhanakan operasi dan mempercepat integrasi kecerdasan buatan. Perusahaan memperkirakan restrukturisasi ini akan memberikan
GateNews2jam yang lalu