Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема PyTorch, CUDA, Rust і C++. Після ретельної фільтрації для оцінювання в бенчмарку було збережено 30 завдань.

V4-Pro-Max досягла 67% частки успішних проходжень коду, суттєво випередивши Sonnet 4.5 із 47% та наблизившись до Opus 4.5 із 70%. Однак вона поступається Opus 4.5 Thinking (73%) та Opus 4.6 Thinking (80%), тоді як значно перевищує Haiku 4.5 із 13%.

У внутрішньому опитуванні за участю 85 респондентів усі учасники повідомили, що щоденні робочі процеси для агентного програмування використовують V4-Pro. 52% підтримали V4-Pro як свій основний модельний вибір для кодування за замовчуванням, 39% схилялися до схвалення, і менш ніж 9% висловили незгоду. Повідомлені проблеми включали низькорівневі помилки, неправильне тлумачення неоднозначних запитів і інколи надмірно обдуману поведінку.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

04-24 03:21

Дані для тренування DeepSeek V4 збільшилися до 33T: нестабільність спровокувала затримку релізу

04-24 03:04

DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

04-24 01:46

OpenAI запускає GPT-5.5, створену для агентних завдань і складних робочих процесів

04-23 20:42

Злом безпеки Vercel розширився до сотень користувачів; AI-розробники наражені на більший ризик

04-23 02:02

Google запускає окремі AI-чіпи для навчання та виведення, підвищуючи продуктивність у 2,8 раза

Поглиблений аналіз