Insinyur OpenAI Clive Chan Menantang Rekomendasi Perangkat Keras V4, Mengutip Kesalahan dan Ketidakjelasan Dibanding V3

Kabar Gerbang, 24 April — Insinyur OpenAI Clive Chan telah mengajukan keberatan terperinci terhadap bab rekomendasi perangkat keras dalam laporan teknis V4, menyebutnya “mencengangkan: biasa saja dan rawan kesalahan” dibandingkan versi V3 yang terkenal. Panduan perangkat keras V3, yang mencakup sesi Tanya Jawab yang menjadi topik diskusi paling populer di konferensi akademik ISCA, menawarkan rekomendasi spesifik yang selaras dengan standar interkoneksi industri. V4, sebaliknya, jauh lebih kabur.

Chan secara sistematis menantang tiga rekomendasi utama. Terkait konsumsi daya, laporan tersebut menyarankan bahwa optimasi perangkat lunak memungkinkan chip menjalankan komputasi, penyimpanan, dan komunikasi pada kapasitas penuh secara bersamaan, serta merekomendasikan agar produsen chip menyisakan margin daya tambahan. Chan berpendapat ini kontraproduktif: total daya chip dibatasi oleh keterbatasan proses fisik, sehingga menyisakan lebih banyak margin daya hanya menurunkan frekuensi operasi, yang pada akhirnya mengurangi kinerja komputasi. Mengenai transfer data GPU-ke-GPU, laporan tersebut menganjurkan model pull—di mana GPU secara aktif mengambil data—dibandingkan model push, dengan alasan tingginya overhead notifikasi pada operasi push. Chan membantah hal itu, dengan mengatakan bahwa pull sebenarnya lebih lambat dan bahwa kemampuan adaptor jaringan yang ditingkatkan akan lebih disukai. Namun, keduanya mungkin membahas lapisan yang berbeda dari masalah ini: laporan membahas overhead mekanisme notifikasi, sedangkan Chan merujuk pada latensi transmisi itu sendiri.

Untuk fungsi aktivasi, laporan tersebut merekomendasikan mengganti SwiGLU dengan fungsi yang lebih sederhana untuk mengurangi beban komputasi. Chan tidak melihat manfaat apa pun dari hal tersebut, dengan mencatat bahwa Sonic MoE sudah menunjukkan kinerja optimal menggunakan SwiGLU. Chan menduga DeepSeek mungkin “secara sengaja melemahkan bagian ini.”

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Forefront Tech Menyelesaikan $100M Penetapan Harga IPO, Pencatatan Nasdaq di Bawah Kode FTHAU

Menurut ChainCatcher, perusahaan special purpose acquisition Forefront Tech menyelesaikan penetapan harga IPO senilai 100 juta dolar AS pada 30 April dan akan mencatatkan saham di Nasdaq dengan kode saham FTHAU. Perusahaan berencana menggunakan dana hasil penawaran untuk mengejar peluang merger dan akuisisi di blockchain, fintech, kecerdasan buatan

GateNews49menit yang lalu

Anthropic Claude Code Membebankan Pengguna Uang $200,98 karena Bug Penagihan, Awalnya Menolak Pengembalian Dana Sebelum Kompensasi Penuh

Menurut pemantauan Beating, sebuah bug penagihan pada layanan Claude Code milik Anthropic menyebabkan pelanggan Max 20x kelebihan biaya sebesar $200,98 untuk biaya penggunaan tambahan, padahal hanya menggunakan 13% kuota bulanan mereka. Bug tersebut dipicu ketika riwayat commit repositori git milik pengguna berisi huruf kapital

GateNews1jam yang lalu

DeepSeek Memperkenalkan Metode Visual Primitives untuk Meningkatkan Penalaran Multimodal pada 30 April

Menurut laporan teknis DeepSeek, pada 30 April, perusahaan memperkenalkan Visual Primitives, sebuah metode yang menyematkan unit visual dasar seperti titik dan kotak pembatas ke dalam rantai penalaran untuk mengatasi masalah Reference Gap pada tugas multimodal. Metode ini mengurangi konsumsi token gambar

GateNews1jam yang lalu

NVIDIA Rilis Bobot Model Utama Cosmos-Reason2-32B, Perluas Jendela Konteks hingga 256K Token

Menurut Beating, NVIDIA telah merilis bobot untuk Cosmos-Reason2-32B, versi unggulan dari model visi-bahasa penalaran AI fisiknya (VLM) yang dirancang untuk membantu robot dan sistem mengemudi otonom memahami prinsip spasial, temporal, dan fisik. Model dengan 32 miliar parameter,

GateNews1jam yang lalu

OpenAI Ungkap Mengapa Codex Dilarang Membahas “Goblin”: Hadiah Kepribadian Kutu Buku Tidak Terkendali

OpenAI di blog resmi menjelaskan Codex dilarang membahas makhluk seperti goblin, bersumber dari preferensi sinyal hadiah terhadap makhluk dalam pelatihan kepribadian tipe kutu buku, yang menyebabkan kontaminasi lintas kepribadian dan RLHF yang menyesatkan. Insiden ini terungkap setelah Barron Roth membocorkan instruksi sistem, lalu OpenAI menerapkan dua strategi: pengkodean keras jangka pendek dan pembersihan sinyal hadiah jangka panjang. Peristiwa ini memberi peringatan tentang kerapuhan desain hadiah, dan menuntut audit pasca-pelatihan yang lebih rinci.

ChainNewsAbmedia2jam yang lalu

Alibaba Open-Source Modul Interpretabilitas Qwen-Scope Qwen Mencakup 7 Model pada 30 April

Menurut PANews, pada 30 April, Alibaba’s Qwen mengumumkan open-source Qwen-Scope, sebuah modul interpretabilitas yang dilatih pada model seri Qwen3 dan Qwen3.5. Rilis ini mencakup 7 model bahasa besar dalam varian dense dan mixture-of-experts, dengan 14 set sparse autoencoder

GateNews3jam yang lalu
Komentar
0/400
Tidak ada komentar