Hasil pencarian untuk "MOE"
2026-04-28
03:21

Data Pelatihan DeepSeek V4 Berlipat Ganda Jadi 33T, Memicu Ketidakstabilan yang Menunda Rilis

Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui "tantangan ketidakstabilan yang signifikan" selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts MoE; mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut. DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi menambahkan overhead sekitar 20%, serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui "prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai." Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan "menjelaskan keterlambatannya." Ia menggambarkan dua solusi tersebut sebagai "perban sementara" sambil mengakui transparansi teknis DeepSeek.
Lainnya
01:51

Meituan Open Source LongCat-Next: Pemahaman Visual, Generasi, dan Suara Terpadu dengan 3B Parameter

Tim Longcat Meituan yang bersumber terbuka LongCat-Next adalah model multimodal berbasis arsitektur MoE yang mengintegrasikan lima kemampuan: pemahaman teks, pemahaman visual, generasi gambar, dan suara. Desain inti DiNA mencapai pemrosesan tugas terpadu melalui token diskrit, sementara aspek visual menggunakan dNaViT yang membuat kinerja generasi gambar menonjol. Dibandingkan dengan model serupa, kinerja benchmark LongCat-Next terdepan di berbagai metrik, menunjukkan keunggulannya di bidang pemahaman dan generasi multimodal.
Lainnya
06:27

Cursor merilis Laporan Teknis Composer 2, Skor Model Fondasi Meningkat 70%

Cursor merilis laporan teknis Composer 2 pada 25 Maret, mengungkapkan skema pelatihan model Kimi K2.5, yang mengadopsi arsitektur MoE dengan parameter mencapai 1,04 triliun. Pelatihan dibagi menjadi dua tahap, menggunakan simulasi skenario nyata untuk pembelajaran penguatan, akhirnya mencapai skor 61,3 pada tolok ukur CursorBench, peningkatan 70%, dan biaya inferensi lebih rendah dari API model besar lainnya.
Lainnya
02:27

Meituan merilis model pembuktian teorema dengan parameter 560B secara open source, dengan tingkat keberhasilan 97,1% dalam 72 kali inferensi, menyegarkan posisi SOTA open source

Tim LongCat Meituan telah membuka sumber LongCat-Flash-Prover pada 21 Maret, sebuah model MoE dengan 560 miliar parameter yang berfokus pada pembuktian teorema formal Lean4. Model ini dibagi menjadi tiga kemampuan: formalisasi otomatis, pembuatan sketsa, dan pembuktian lengkap, yang menggabungkan alat penalaran dengan kompiler Lean4 untuk verifikasi waktu nyata. Pelatihan menggunakan Hybrid-Experts Iteration Framework dan algoritma HisPO untuk mencegah kecurangan reward. Pengujian tolok ukur menunjukkan bahwa model ini memecahkan rekor model bobot sumber terbuka dalam formalisasi otomatis dan pembuktian teorema.
Lainnya