Технологічні гіганти масово роблять ставки на власні чипи, і війна за AI-чипи дедалі швидше зміщується в бік інференсу (виведення).

Генеративний ШІ стрімко поширюється, докорінно змінюючи конкурентний ландшафт у всій напівпровідниковій галузі. Ключове поле битви на ринку ШІ-чипів здійснює структурний зсув — від етапу тренування моделей до етапу інференсу: ця трансформація стосується не лише пріоритетів у дизайні чипів, а й глибоко вплине на логіку інвестицій в інфраструктуру, бізнес-моделі та довгострокові траєкторії напівпровідникового ланцюга постачання.

Чіткі сигнали зростання потреби в інференсі вже очевидні. Поява вірусних сценаріїв на кшталт генерації зображень у стилі Гіблі змусила GPU-ресурси OpenAI працювати на межі повного насичення. Генеральний директор OpenAI Сем Альтман публічно заявив, що не бачив такого швидкого зростання обсягів використання, тому GPT-4.5 довелося випускати поетапно: спочатку лише для платних користувачів. Такі ж обмеження в обчислювальних потужностях відчувають і провідні AI-компанії на кшталт Meta. Водночас OpenAI розробляє власні AI-чипи: ціль — вийти на серійне виробництво приблизно до 2026 року, щоб зменшити залежність від NVIDIA; а її разом із Microsoft суперпроєкт «Ворота» (Stargate) суперцентрів, за повідомленнями, передбачає інвестиції обсягом до 500B доларів.

Ці тенденції свідчать, що AI-інференс стає однією із стратегічних опор нарівні з центрами обробки даних, хмарною інфраструктурою та напівпровідниками. Для інвесторів це означає: Зміщується центр ваги вартості інвестицій в AI-обчислювальні потужності: чіпи для тренування — це одноразові капітальні витрати, тоді як чіпи для інференсу відповідають моделі постійного «споживання» доходу — ШІ перетворюється з технічного інструмента на обчислювальний двигун із оплатою за обсягом.

Тренування та інференс: дві принципово різні потреби в обчислювальних потужностях

Щоб зрозуміти цю структурну трансформацію, потрібно спершу чітко розрізнити сутнісні відмінності тренування та інференсу в навантаженнях.

Етап тренування ґрунтується на архітектурі Transformer, яку Google опублікувала у 2017 році. Він вимагає виконання прямого та зворотного поширення на величезних масивах даних, постійного оновлення ваг моделі; процес охоплює надмасштабні матричні обчислення, обчислення градієнтів та оновлення параметрів. Зазвичай це потребує розподілених обчислень протягом тижнів або навіть місяців на кластерах із багатьма GPU чи TPU. Тому тренувальні чипи мають бути розраховані на високощільні обчислювальні ядра, великомасштабну високошвидкісну пам’ять із високою пропускною здатністю (наприклад HBM) та можливості горизонтального масштабування кількох чипів.

Етап інференсу за структурою є більш лаконічним: потрібне лише пряме поширення, без оновлення градієнтів або зворотного поширення. Наявна обчислювальна потужність зазвичай на порядок нижча, ніж під час тренування. Однак справжній виклик для інференсу полягає в трьох обмеженнях: низька затримка (користувачі очікують миттєву відповідь), висока пропускна здатність (провайдери мають обробляти мільйони паралельних запитів) і низька вартість (одинична вартість кожного запиту безпосередньо впливає на комерційну здійсненність). Ці вимоги прямо суперечать логіці тренувального етапу — «без обліку затримки» та «прагнення до максимальної продуктивності» — і, відповідно, визначають, що в архітектурному дизайні інференсні чипи мають іти шляхом диференціації: пріоритет енергоефективності, оптимізація передачі даних, максимізація використання ієрархій пам’яті та пропускної здатності, а також спільна оптимізація апаратної та програмної частин.

Провідні хмарні постачальники та стартапи прискорюють розгортання інференсних чипів

Саме через різницю в наведених вище архітектурних вимогах дедалі більше компаній обирають уникати прямої конкуренції з NVIDIA на ринку тренувальних GPU і натомість створювати спеціалізовані чипи, оптимізовані під інференс.

Щодо гіпермасштабних хмарних провайдерів: Google представила TPU (тренування) та Edge TPU (інференс на периферії), Amazon розгортає Inferentia та Trainium, Meta розробляє MTIA (Meta Training and Inference Accelerator). Стартапний сегмент також активний: Groq, Tenstorrent, Cerebras, SambaNova та інші компанії прагнуть до диференціаційного прориву в таких вимірах, як архітектура потоків даних, розподіл площі на чипі, енергоефективність, моделі доступу до пам’яті та дизайн обчислювальних ядер; мета — обійти універсальні GPU за ефективністю інференсу та структурою витрат.

Формування цього конкурентного ландшафту тісно пов’язане з еволюцією сценаріїв застосування AI. Оскільки AI переходить від простих запитань-відповідей до еволюції систем агентів (Agentic AI) — здатних планувати задачі, виконувати робочі процеси, викликати інструменти й навіть замінювати частину ручної праці — потреба в інференсі не лише стабільно зростатиме, а й прискорено розширюватиметься. Вимоги агентних систем до низької затримки, високої пропускної здатності пам’яті та безперервної обчислювальної потужності ще більше підвищуватимуть стратегічну цінність інференсних спеціалізованих чипів.

NVIDIA: перехід від лідера епохи тренування до формувача правил епохи інференсу

Перед обличчям цієї структурної трансформації NVIDIA не реагує пасивно — вона активно розширює своє позиціонування на ринку інференсу.

Ключовою ціллю останньої архітектури Blackwell є підвищення пропускної здатності паралельно зі зниженням вартості генерації кожного токена. Ця логіка створює позитивний «взаємообумовлювальний виток»: зниження вартості → зростання використання → розширення попиту → збільшення масштабів інфраструктури, що в підсумку стимулює експоненціальне зростання економіки AI. На системному рівні NVIDIA за допомогою великомасштабних тісно інтегрованих GPU-кластерів на кшталт NVL72 формує архітектуру «AI-заводів» (AI factory), здатну обробляти довші вікна контексту, складніші інференсні задачі та багатокрокові AI-робочі процеси, просуваючи еволюцію AI-інфраструктури в бік централізації, високої щільності та системно-орієнтованого керування.

Втім, реальна «моат» NVIDIA полягає не лише в апаратному забезпеченні. Від CUDA до TensorRT-LLM та програмного стеку з оптимізаціями інференсу NVIDIA фактично трансформується із постачальника чипів у постачальника всезамкнутої AI-інфраструктури. Хмарні провайдери на кшталт Microsoft, Oracle, CoreWeave продовжують рухатися в бік цієї архітектури, ще більше підсилюючи ефект високих витрат на перемикання в її екосистемі та стандартизації в галузі. Клієнти купують уже не лише GPU, а повний набір платформи «AI-заводів».

Попри це, інтенсивність конкуренції на ринку інференсу помітно зростає. Інференсні чипи більше не є другорядним варіантом по відношенню до тренувальних GPU — вони дедалі частіше стають основним рушієм обчислювальних потужностей для AI-хмарних сервісів, периферійних пристроїв, вбудованих систем та застосувань у реальному часі. Під впливом одночасних драйверів — еволюції апаратного забезпечення та розширення сценаріїв застосування — головна постановка проблеми в конкуренції AI-чипів змінюється кардинально: від «хто може тренувати найбільші моделі» до «хто може запускати моделі з найвищою ефективністю в масштабованих сценаріях».

Структурна трансформація переформатовує конкурентний ландшафт напівпровідникової індустрії

Цей перехід від тренування до інференсу виходить за межі самих дизайн-чипів: він глибоко проникає у три виміри — архітектуру AI-систем, стратегії бізнесового розгортання та структуру ланцюга постачання.

На рівні бізнес-моделей логіка економіки AI зазнає фундаментальної перебудови. Тренування відповідає капітальним витратам, інференс — безперервному доходу: обчислювальні потужності все більше безпосередньо прив’язуються до виручки через технічні показники, а GPU перетворюються з апаратного пристрою на машину для генерації токенів. Така зміна парадигми означає, що масштаб і ефективність інференсної інфраструктури безпосередньо визначатимуть прибутковість AI-компаній і їхні конкурентні бар’єри.

У ланцюгах постачання зростання «післятренувальної» епохи — включно із широким застосуванням технологій на кшталт fine-tuning, LoRA, адаптерів — а також методів посилення інференсу, таких як динамічна корекція підказок і кооперація між кількома моделями, значно підвищує залежність від інференсних обчислювальних потужностей і стимулює швидке розширення попиту на різнопланові інференсні апаратні рішення: NPU, ASIC, FPGA тощо.

Для інвесторів ця структурна трансформація підказує чіткий ринковий сигнал: центр ваги вартості інвестицій в AI-інфраструктуру зміщується із тренувального боку на інференсний. Компанії, які зможуть одночасно досягати переваг у трьох вимірах — ефективність інференсу, контроль витрат і масштабоване розгортання — займуть ініціативу в наступному етапі конкуренції за AI-обчислювальні потужності.

Попередження про ризики та застереження щодо відповідальності

        На ринку є ризики, інвестиції потребують обережності. Ця стаття не є індивідуальною інвестиційною порадою і не враховує особливі інвестиційні цілі, фінансовий стан або потреби окремих користувачів. Користувачам слід розглянути, чи відповідають будь-які думки, погляди або висновки в цій статті їхній конкретній ситуації. Відповідальність за інвестиції, зроблені на цій основі, несе інвестор.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити