V4-Pro досягає 67% частки успішних проходжень коду в внутрішньому dogfooding-тесті, наближаючись до продуктивності Opus 4.5

Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема PyTorch, CUDA, Rust і C++. Після ретельної фільтрації для оцінювання в бенчмарку було збережено 30 завдань.

V4-Pro-Max досягла 67% частки успішних проходжень коду, суттєво випередивши Sonnet 4.5 із 47% та наблизившись до Opus 4.5 із 70%. Однак вона поступається Opus 4.5 Thinking (73%) та Opus 4.6 Thinking (80%), тоді як значно перевищує Haiku 4.5 із 13%.

У внутрішньому опитуванні за участю 85 респондентів усі учасники повідомили, що щоденні робочі процеси для агентного програмування використовують V4-Pro. 52% підтримали V4-Pro як свій основний модельний вибір для кодування за замовчуванням, 39% схилялися до схвалення, і менш ніж 9% висловили незгоду. Повідомлені проблеми включали низькорівневі помилки, неправильне тлумачення неоднозначних запитів і інколи надмірно обдуману поведінку.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Claw Intelligence співпрацює з Block Sec Arena, щоб посилити безпеку BNB Chain

Згідно з офіційним оголошенням Block Sec Arena від 30 квітня Claw Intelligence — платформа Web3, що працює на основі ШІ та побудована на BNB Chain, — оголосила про стратегічне партнерство з Block Sec Arena для інтеграції передової кібербезпекової інфраструктури в її екосистему. Співпраця має на меті посилити p

GateNews6год тому

NTT оголошує ініціативу AI x OWN, планує збільшити енергетичні потужності Японії втричі до 1 ГВт до 2033 року

27 квітня президент NTT Акіра Сімада оголосив про ініціативу AI x OWN — зусилля компанії з перебудови інтернет-інфраструктури для використання ШІ в реальному часі. NTT планує збільшити свою внутрішню енергетичну потужність утричі — приблизно з 300 МВт сьогодні до близько 1 гігавата до фінансового 2033 року, оскільки телеком-гігант

GateNews7год тому

AI-платформа Certifyde завершила раунд seed на 2 мільйона доларів 1 травня, підтриманий генеральним директором Ripple Бредом Гарлінгхаусом

Згідно з TechfundingNews, платформа для AI-застосунків Certifyde завершила раунд seed на 2 мільйони доларів 1 травня. Інвестори включають K5 Global, Flamingo Capital та бізнес-ангелів, зокрема співзасновника Honey Джорджа Руана, CEO Ripple Бреда Гарлінгхауса й співзасновника Nutra Роланда

GateNews8год тому

Технічний керівник Пентагону: Anthropic досі в чорному списку, виняток для Mythos

Керівник технологій Пентагону (Pentagon technology chief) 1 травня повідомив Конгресу: «Anthropic досі перебуває в чорному списку, але Mythos Preview — це інше питання», офіційно визнавши, що Міністерство оборони по-іншому ставиться до основного бренду Anthropic і до його нової моделі Mythos. Ця заява перегукується з тим, що 19 квітня Axios розкрив: NSA (Агентство національної безпеки) фактично використовує Mythos, і тим самим остаточно закріплює політичний курс на «винятковий канал для Mythos». Водночас це також означає, що Пентагон раніше в суді стверджував: використання інструментів Anthropic загрожує національній безпеці, тоді як нинішні практичні дії створюють внутрішню суперечність у юридичній аргументації. Anthropic vs Pentagon

ChainNewsAbmedia9год тому

137 Ventures закриває $700M для нових фондів, AUM досягає $15B

За даними ChainCatcher, 137 Ventures, ранній інвестор у SpaceX, нещодавно завершила залучення коштів для двох нових фондів на загальну суму понад $700 мільйонів, довівши свої активи під управлінням до понад $15 мільярдів. Новий капітал підтримуватиме інвестиції в AI-агентів, робототехніку та космічну силову установку

GateNews9год тому

Reddit зростає на 16% на сильних прогнозах щодо 2 кварталу; Apple стикається з дефіцитом Mac через те, що попит на ШІ випереджає пропозицію

Акції Reddit зросли на 16% до відкриття ринку в п’ятницю після того, як компанія опублікувала прогноз щодо виручки на наступний квартал, вищий за очікування. Щоденна кількість активних відвідувачів збільшилася на 17% до 126,8 мільйона, тоді як середня виручка на одного користувача у всьому світі підскочила на 44%, завдяки ШІ-інструментам

GateNews9год тому
Прокоментувати
0/400
Немає коментарів