Сообщение Gate News, 24 апреля — V4 публично раскрыла внутренние данные догфудинга для своей модели V4-Pro. Компания собрала примерно 200 реальных инженерных задач от более чем 50 инженеров, охватив разработку функций, исправление ошибок, рефакторинг и диагностику в различных технологических стеках, включая PyTorch, CUDA, Rust и C++. После тщательной фильтрации для оценки бенчмарка было сохранено 30 задач.
V4-Pro-Max достиг 67% процента успешного прохождения кода, существенно превзойдя Sonnet 4.5 с 47% и приблизившись к Opus 4.5 с 70%. Однако он уступает Opus 4.5 Thinking (73%) и Opus 4.6 Thinking (80%), при этом значительно опережая Haiku 4.5 на 13%.
Во внутреннем опросе с 85 респондентами все участники сообщили, что используют V4-Pro для агентного кодинга в ежедневных рабочих процессах. 52% поддержали V4-Pro как свою модель первичного кодинга по умолчанию, 39% склонялись к одобрению, и менее 9% выразили неодобрение. Сообщенные проблемы включали низкоуровневые ошибки, неверное толкование неоднозначных запросов и иногда чрезмерное обдумывание поведения.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
66,3% сотрудников в США с высокой заработной платой используют инструменты ИИ на работе, показывает опрос Федеральной резервной системы
Согласно опросу Федеральной резервной системы, 66,3% сотрудников в США, зарабатывающих свыше $200 000 в год, использовали инструменты ИИ на работе в течение последних 12 месяцев по состоянию на 1 мая. Среди групп с более низкими доходами показатели использования заметно снижаются: 51,6% для тех, кто зарабатывает $100 000–$200 000, 40,2% для тех, кто зарабатывает $50 000–$100 000,
GateNews18м назад
xAI запускает API Grok 4.3 с окном контекста 1 млн токенов и ценой $1,25 за миллион входных токенов
По данным BlockBeats, xAI запустила API Grok 4.3 1 мая. Новая модель поддерживает окно контекста в 1 миллион токенов и предлагает текстовый ввод/вывод, мультимодальные возможности и функции вызова инструментов. API Grok 4.3 стоит 1,25 доллара за 1 миллион входных
GateNews30м назад
Крупнейшие технологические компании США планируют потратить $700B на инфраструктуру ИИ в 2026 году, что намного превзойдёт $105B Китая
Согласно South China Morning Post, американские техгиганты планируют потратить на AI-инфраструктуру в этом году более 700 миллиардов долларов, что намного превышает расходы китайских конкурентов. Google, Microsoft, Meta и Amazon обеспечивают большую часть этой суммы, при этом Morgan Stanley оценил, что китайские облачные провайдеры потратят около $105 млрд
GateNews36м назад
Huawei ожидает, что выручка от AI-чипов в 2026 году достигнет 12 миллиардов долларов, что на 60% больше, чем в 2025 году
Reuters: Huawei ожидает, что выручка от ИИ-чипов в 2026 году достигнет примерно 12 миллиардов долларов, что как минимум на 60% больше, чем 7,5 миллиарда долларов в 2025 году. Большая часть заказов в этом году приходится на процессор Ascend 950PR, который вышел на массовое производство в марте. Компания планирует запустить ан
GateNews1ч назад
Nvidia инвестирует в шведский AI-юридический стартап Legora, Джуд Лоу стал глобальным амбассадором бренда
Nvidia провела расширительное инвестиционное раундирование Series D в Legora на 50 миллионов долларов, доведя общий объём привлечённых средств Legora до 600 миллионов долларов и оценку до 5,6 миллиарда долларов; в раунде участвуют Atlassian, Adams Street Partners и Insight Partners. Legora фокусируется на AI-юртехе, предоставляя такие инструменты, как автоматизированная проверка, анализ контрактов и юридические исследования; ARR превышает 100 миллионов долларов, а число сотрудников выросло с 40 до 400. Jude Law стал глобальным лицом бренда, а рекламный слоган — Law just got more attractive.
ChainNewsAbmedia1ч назад
Anthropic открывает бета-версию безопасности Claude для корпоративных пользователей 1 мая
Согласно BlockBeats, 1 мая Anthropic объявила, что Claude Security — инструмент для защиты кода — открыла публичное бета-тестирование для пользователей Claude Enterprise. Инструмент сканирует репозитории кода на наличие уязвимостей безопасности, выполняет вторичную проверку для снижения числа ложных срабатываний и автоматически g
GateNews1ч назад