Повідомлення Gate News, 24 квітня — інженер OpenAI Клайв Чан висунув детальні заперечення до розділу з рекомендаціями щодо апаратного забезпечення у технічному звіті V4, назвавши його “дивовижно посереднім і таким, що схильний до помилок” порівняно з відомою версією V3. Апаратні рекомендації V3, які включали сесії Q&A, що стали найпопулярнішою темою для обговорення на академічній конференції ISCA, пропонували конкретні рекомендації, узгоджені з галузевими стандартами інтерконекту. Натомість V4 є значно більш невизначеним.
Чан системно оскаржив три ключові рекомендації. Щодо споживання електроенергії, у звіті стверджується, що оптимізація програмного забезпечення дозволяє чипам одночасно працювати на повну потужність для обчислень, зберігання та зв’язку, і рекомендується виробникам чипів залишати додатковий запас потужності. Чан вважає це контрпродуктивним: загальна потужність чипа обмежена фізичними обмеженнями процесу, тож резервування більшого запасу потужності лише знижує робочу частоту, зрештою зменшуючи обчислювальну продуктивність. Щодо передавання даних між GPU, у звіті пропонується модель pull — коли GPU активно отримують дані — замість моделі push, посилаючись на високу накладну вартість сповіщень у операціях push. Чан заперечує це, стверджуючи, що pull насправді повільніший і що були б кращими покращені можливості мережевих адаптерів. Однак вони можуть обговорювати різні рівні проблеми: звіт говорить про накладні витрати механізму сповіщень, тоді як Чан має на увазі саму затримку передавання.
Щодо функцій активації, у звіті рекомендується замінити SwiGLU на простіші функції, щоб зменшити обчислювальне навантаження. Чан не бачить у цьому жодної користі, зазначаючи, що Sonic MoE вже продемонстрував оптимальну продуктивність із використанням SwiGLU. Чан припускає, що DeepSeek може мати “навмисно ослабив цей розділ.”
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
Forefront Tech завершує $100M -ціну IPO, щоб вийти на Nasdaq
Згідно з ChainCatcher, Forefront Tech Holdings Acquisition Corp завершила цінування IPO на суму 100 мільйонів доларів 30 квітня, щоб розміститися на Nasdaq під тикером FTHAU. Кошти буде використано для вивчення можливостей злиття та поглинання в блокчейні, штучному інтелекті, фінтеху та інших
GateNews27хв. тому
Колишній топменеджер Meta залучає кошти для AI-стартапу Flourish із оцінкою $2,5 мільярда
За даними Bloomberg, Томас Редардон, колишній виконавчий директор Meta, який керував роботою над Meta Neural Band, збирає кошти для Flourish — нового AI-стартапу, що фокусується на системах low-power AI. Lux Capital і Google Ventures погодилися стати ключовими інвесторами, а вже були внесені зобов’язання на суму $500 мільйонів за оцінкою $2,5
GateNews30хв. тому
Вартість GPU Nvidia Blackwell подвоюється, але витрати на інференс у перерахунку на токен падають у 35 разів порівняно з Hopper
Згідно з останнім блоговим аналізом Nvidia, GPU Blackwell коштують майже вдвічі дорожче за годину, ніж покоління Hopper, але забезпечують у 35 разів нижчі витрати на інференс на один токен. Використовуючи DeepSeek-R1 як тестову модель, Blackwell (GB300 NVL72) здається в оренду за $2,65 за GPU на годину проти $1,41 для Hopper, але один GPU
GateNews1год тому
OpenAI відстежує «ґоблінську» проблему до винагородного сигналу нердьової особистості та спостерігає сплеск згадок «ґобліна» на 175% у GPT-5,1
За даними OpenAI, компанія визначила першопричину проблеми «гоблін», яка переслідувала моделі GPT починаючи з GPT-5.1. Сигнал винагороди, який використовували для підсилення риси «Nerdy», заохочував результати з посиланнями на фантастичних істот, причому 76,2% навчального набору даних демонстрували
GateNews1год тому
Parallel Web Systems залучає $100M раунд B на оцінку в $2B , який очолює Sequoia
За даними TechCrunch, Parallel Web Systems — стартап у сфері ШІ, заснований колишнім CEO Twitter Парагом Агарвалом — залучив $100 мільйонів у раунді серії B, який очолила Sequoia, оцінивши компанію в $2 мільярда. Раунд збільшує загальне фінансування компанії до $230 мільйонів — через п’ять місяців після її раунду серії A на $100 мільйонів. Parallel
GateNews1год тому
Вечерня подія з нагоди 8-ї річниці BitMart для користувачів із Тайваню: впровадження AI-автоматизованої торгівлі та локалізованих сервісів
BitMart розмістила біржовий вечір з нагоди 8-ї річниці в готелі Taipei Grand Mayfull у Тайбеї: понад 150 гостей відвідали захід, де вшанували розвиток за вісім років і оголосили про локалізацію та AI-стратегії автоматизованої торгівлі. BitMart Skill у поєднанні з Blave дає змогу користувачам без програмування здійснювати AI-автоматизовану торгівлю та отримувати миттєві аналітичні інсайти в режимі реального часу. Глобальна база користувачів перевищила 13 мільйонів, кількість доступних проєктів — понад 4 800, а обсяг торгів сягнув понад 1 трильйона доларів США. На вечері були живий Дідь Мороз і щедрі подарунки, що демонструє рішучість глибоко працювати з Тайванем.
ChainNewsAbmedia1год тому