News | Gate.com

2026-04-28

16:30

NVIDIA Meluncurkan Model Multimodal Nemotron 3 Nano Omni dengan Peningkatan Throughput 9x

Kabar Gerbang, 28 April — NVIDIA telah merilis Nemotron 3 Nano Omni, sebuah model multimodal open-source yang menampilkan arsitektur mixture-of-experts 30B-A3B (MoE) dengan dukungan jendela konteks 256K. Model ini menyatukan pemrosesan input video, audio, gambar, dan teks dalam satu kerangka. Dibandingkan

Lainnya

03:21

Data Pelatihan DeepSeek V4 Berlipat Ganda Jadi 33T, Memicu Ketidakstabilan yang Menunda Rilis

Berita Industri AI

Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui "tantangan ketidakstabilan yang signifikan" selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts MoE; mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut. DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi menambahkan overhead sekitar 20%, serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui "prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai." Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan "menjelaskan keterlambatannya." Ia menggambarkan dua solusi tersebut sebagai "perban sementara" sambil mengakui transparansi teknis DeepSeek.

Lainnya

03:04

DeepSeek Merilis Seri Model Open-Source V4 dengan 1,6T Parameter dan Lisensi MIT

Berita Industri AI

Pesan Gate News, 24 April — DeepSeek telah merilis seri model open-source V4 di bawah Lisensi MIT, dengan bobot kini tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model (MoE) mixture-of-experts: V4-Pro dengan total parameter 1,6 triliun dan 49 miliar yang diaktifkan per to

Lainnya

13:41

Lab Qwen dari Alibaba Membuka Model Qwen3.6-35B-A3B dengan Arsitektur Sparse MoE

Berita Industri AI

Lab Qwen dari Alibaba telah merilis Qwen3.6-35B-A3B, sebuah model bahasa besar open-source dengan arsitektur sparse mixture-of-experts, yang memiliki 35 miliar parameter dan kemampuan pemrograman berorientasi agen untuk integrasi dengan asisten coding pihak ketiga.

Lainnya

01:51

Meituan Open Source LongCat-Next: Pemahaman Visual, Generasi, dan Suara Terpadu dengan 3B Parameter

Tim Longcat Meituan yang bersumber terbuka LongCat-Next adalah model multimodal berbasis arsitektur MoE yang mengintegrasikan lima kemampuan: pemahaman teks, pemahaman visual, generasi gambar, dan suara. Desain inti DiNA mencapai pemrosesan tugas terpadu melalui token diskrit, sementara aspek visual menggunakan dNaViT yang membuat kinerja generasi gambar menonjol. Dibandingkan dengan model serupa, kinerja benchmark LongCat-Next terdepan di berbagai metrik, menunjukkan keunggulannya di bidang pemahaman dan generasi multimodal.

Lainnya

06:36

Cursor merilis laporan teknis Composer2: Lingkungan RL sepenuhnya mensimulasikan skenario pengguna nyata, skor model dasar meningkat 70%

Cursor merilis laporan teknis Composer 2, yang menjelaskan solusi pelatihan lengkap untuk arsitektur Kimi K2.5 MoE-nya, termasuk pelatihan dua tahap dan tolok ukur proprietary CursorBench. Setelah pelatihan, kinerja Composer 2 meningkat secara signifikan dan mengungguli model-model terdepan lainnya dalam hal biaya inferensi.

Lainnya

06:27

Cursor merilis Laporan Teknis Composer 2, Skor Model Fondasi Meningkat 70%

Perkembangan Proyek

Cursor merilis laporan teknis Composer 2 pada 25 Maret, mengungkapkan skema pelatihan model Kimi K2.5, yang mengadopsi arsitektur MoE dengan parameter mencapai 1,04 triliun. Pelatihan dibagi menjadi dua tahap, menggunakan simulasi skenario nyata untuk pembelajaran penguatan, akhirnya mencapai skor 61,3 pada tolok ukur CursorBench, peningkatan 70%, dan biaya inferensi lebih rendah dari API model besar lainnya.

Lainnya

02:27

Meituan merilis model pembuktian teorema dengan parameter 560B secara open source, dengan tingkat keberhasilan 97,1% dalam 72 kali inferensi, menyegarkan posisi SOTA open source

Tim LongCat Meituan telah membuka sumber LongCat-Flash-Prover pada 21 Maret, sebuah model MoE dengan 560 miliar parameter yang berfokus pada pembuktian teorema formal Lean4. Model ini dibagi menjadi tiga kemampuan: formalisasi otomatis, pembuatan sketsa, dan pembuktian lengkap, yang menggabungkan alat penalaran dengan kompiler Lean4 untuk verifikasi waktu nyata. Pelatihan menggunakan Hybrid-Experts Iteration Framework dan algoritma HisPO untuk mencegah kecurangan reward. Pengujian tolok ukur menunjukkan bahwa model ini memecahkan rekor model bobot sumber terbuka dalam formalisasi otomatis dan pembuktian teorema.

Lainnya

06:55

Mistral AI meluncurkan Leanstral: Agent kode open-source Lean 4 pertama yang dapat secara otomatis menghasilkan bukti formal

Perkembangan Proyek

Mistral AI merilis agen kode sumber terbuka Leanstral, dirancang khusus untuk verifikasi formal Lean 4, mampu menghasilkan kode dan bukti yang dapat diverifikasi secara otomatis. Model ini menggunakan arsitektur MoE yang jarang, mengungguli model-model terkemuka lainnya, dan menyediakan unduhan gratis serta panggilan API.

Lainnya