Pesan Berita Gate, 23 April — Peneliti Google, termasuk He Kaiming dan Xie Saining, menerbitkan sebuah makalah yang memperkenalkan Vision Banana, model pemahaman visi serbaguna yang dibuat melalui fine-tuning instruksi ringan dari model pembuatan gambar Nano Banana Pro (Gemini 3 Pro Image) milik perusahaan. Inovasi utamanya menyatukan output dari semua tugas visi sebagai gambar RGB, sehingga memungkinkan segmentasi, estimasi kedalaman, dan prediksi normal permukaan melalui pembuatan gambar tanpa arsitektur atau fungsi rugi yang spesifik tugas.

Dalam semantic segmentation, Vision Banana mengungguli model khusus SAM 3 sebesar 4,7 poin persentase pada Cityscapes; dalam referring expression segmentation, ia melampaui SAM 3 Agent. Namun, ia tertinggal di belakang SAM 3 untuk instance segmentation. Untuk tugas 3D, estimasi kedalaman metrik mencapai akurasi rata-rata 0,929 di empat kumpulan data standar, melampaui Depth Anything V3 sebesar 0,918, dengan hanya data sintetis tanpa informasi kedalaman nyata atau parameter kamera saat inferensi. Estimasi normal permukaan mencapai hasil state-of-the-art pada tiga benchmark indoor.

Fine-tuning melibatkan data tugas visi yang minimal dicampurkan ke pelatihan pembuatan gambar asli, sambil mempertahankan kemampuan generasi model—kinerjanya menyamai Nano Banana Pro yang asli dalam uji kualitas generasi. Makalah tersebut mengusulkan bahwa pretraining pembuatan gambar dalam visi sejajar dengan pretraining pembuatan teks dalam bahasa: model mempelajari representasi internal yang dibutuhkan untuk pemahaman gambar selama proses generasi, sementara fine-tuning instruksi hanya melepaskan kemampuan ini.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Musk Mengakui xAI Menggunakan Distilasi pada Model OpenAI Selama Hari ke-4 Persidangan

Berita Industri AI

Menurut Beating dan The Verge, pada Hari ke-4 persidangan antara Musk dan OpenAI, pengacara OpenAI mempertanyakan apakah xAI telah menggunakan distilasi untuk meningkatkan modelnya dengan teknologi OpenAI. Musk awalnya menyatakan bahwa "hampir semua perusahaan AI melakukan ini," tetapi ketika didesak untuk jawaban langsung, mengakui

GateNews2menit yang lalu

66,3% Karyawan AS Berpenghasilan Tinggi Menggunakan Alat AI di Tempat Kerja, Menurut Survei Federal Reserve

Berita Industri AI

Menurut survei Federal Reserve, 66,3% karyawan AS yang berpenghasilan lebih dari $200.000 per tahun telah menggunakan alat AI di tempat kerja dalam 12 bulan terakhir per 1 Mei. Pada kelompok berpenghasilan lebih rendah, tingkat penggunaannya turun secara signifikan: 51,6% untuk mereka yang berpenghasilan $100.000–$200.000, 40,2% untuk mereka yang berpenghasilan $50.000–$100.000,

GateNews21menit yang lalu

xAI Meluncurkan API Grok 4.3 dengan Jendela Konteks Token 1 juta pada $1,25 per Juta Token Input

Berita Industri AI

Menurut BlockBeats, xAI meluncurkan API Grok 4.3 pada 1 Mei. Model baru ini mendukung jendela konteks 1 juta token dan menawarkan kemampuan input/output teks, fitur multimodal, serta kemampuan pemanggilan alat. API Grok 4.3 dibanderol $1,25 per 1 juta input

GateNews33menit yang lalu

Raksasa Teknologi AS Siap Menggelontorkan $700B untuk Infrastruktur AI pada 2026, Jauh Melampaui China yang bernilai $105B

Berita Industri AI

Menurut South China Morning Post, raksasa teknologi AS diperkirakan akan menghabiskan lebih dari $700 miliar untuk infrastruktur AI tahun ini, jauh melampaui rekan-rekan mereka di Tiongkok. Google, Microsoft, Meta, dan Amazon menyumbang sebagian besar dari total tersebut, sementara Morgan Stanley memperkirakan penyedia cloud Tiongkok akan menghabiskan sekitar $105 miliar

GateNews39menit yang lalu

Huawei Memperkirakan Pendapatan Chip AI 2026 Mencapai 12 Miliar Dolar AS, Naik 60% Dari 2025

Berita Industri AI

Menurut Reuters, Huawei memperkirakan pendapatan chip AI tahun 2026 mencapai sekitar $12 miliar, yang setidaknya mewakili kenaikan 60% dari $7,5 miliar pada 2025. Sebagian besar pesanan tahun ini ditujukan untuk prosesor Ascend 950PR, yang mulai produksi massal pada bulan Maret. Perusahaan berencana meluncurkan sebuah

GateNews1jam yang lalu

NVIDIA berinvestasi pada startup legaltech AI asal Swedia, Legora, dengan Jude Law sebagai duta merek global

Berita Industri AI

Nvidia melakukan investasi tambahan putaran Series D sebesar 50 juta dolar AS untuk Legora, sehingga total penghimpunan dana Legora mencapai 600 juta dolar AS dan valuasi 5,6 miliar dolar AS, dengan partisipasi Atlassian, Adams Street Partners, dan Insight Partners. Legora berfokus pada legal tech berbasis AI, menyediakan alat otomatisasi peninjauan, analisis kontrak, dan riset hukum. ARR lebih dari 100 juta dolar AS, jumlah karyawan meningkat dari 40 menjadi 400. Jude Law menjadi duta merek global, dengan slogan iklan Law just got more attractive.

ChainNewsAbmedia1jam yang lalu

Komentar

0/400

Tidak ada komentar