Meituan відкрила вихідний код LongCat-Next: 3B параметрів для уніфікованого візуального розуміння, генерації та мовлення

BlockBeatNews

Згідно з моніторингом 1M AI News, команда Meituan Longmao відкрила вихідний код LongCat-Next — нативну мультимодальну модель на основі архітектури MoE з активованими параметрами 3B, яка об’єднала п’ять можливостей у рамках єдиного автогрекового підходу: розуміння тексту, візуальне сприйняття, генерація зображень, розуміння мови та синтез мови. Модель та відповідний токенізатор відкриті за ліцензією MIT, а ваги вже доступні на HuggingFace.

Основна концепція LongCat-Next — це парадигма DiNA (дискретне нативне автогрекове навчання): шляхом створення парних токенізаторів і декодерів для кожного модальності, перетворюючи візуальні та аудіосигнали у дискретні токени, що поділяють спільний простір вбудовування з текстом, — всі завдання виконуються за допомогою єдиного прогнозування наступного токена. Ключовий компонент візуальної частини — dNaViT (дискретний нативний роздільний Vision Transformer), який перетворює зображення у «візуальні слова», підтримує динамічний токенізатор і декодування, зберігаючи високий рівень якості генерації зображень навіть при стисненні у 28 разів, особливо в частині рендерингу тексту.

У порівнянні з моделями з аналогічною кількістю активованих параметрів (A3B), основні показники LongCat-Next такі:

  1. Розуміння зображень: MMMU-Pro 60.3 (Qwen3-Omni 57.0, GPT5-minimal 62.7), MathVista 83.1 (Qwen3-Omni 75.9, GPT5-minimal 50.9), MathVision 64.7 (найвищий серед усіх порівняних моделей), DocVQA 94.2
  2. Генерація зображень: GenEval 84.44, LongText-EN 93.15 (FLUX.1-dev 60.70, Emu-3.5 97.60)
  3. Програмування: SWE-Bench 43.0 (Kimi-Linear-48B 32.8, Qwen3-Next-80B 37.6)
  4. Використання агентських інструментів: Tau2-Retail 73.68 (Qwen3-Next 57.3), Tau2-Telecom 62.06 (Qwen3-Next 13.2)

У порівнянні з моделями, що об’єднують розуміння та генерацію у єдину архітектуру, LongCat-Next досягає балу MMMU 70.6, що перевищує друге місце NEO-unify (68.9), значно випереджаючи BAGEL (55.3) та Ovis-U1 (51.1). Показники SWE-Bench 43.0 і результати тестування інструментів Tau2 також підтверджують, що ця мультимодальна уніфікована архітектура не жертвує можливостями чистого тексту та агентських функцій.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів