HBM مقابل GDDR: كيف تتجاوز ذاكرة النطاق الترددي العالي "حاجز الذاكرة" في تدريب واستدلال الذكاء الاصطناعي

الأسواق
تم التحديث: 06/10/2026 05:33

في سباق الذكاء الاصطناعي الذي يعتمد على تريليونات من المعاملات، قد تكون قوة الحوسبة للمعالجات الرسومية (GPU) في دائرة الضوء، لكن هناك مكونًا أكثر خفاءً أصبح بهدوء نقطة استراتيجية في الصناعة، وهو ذاكرة النطاق الترددي العالي (HBM). إذا شبهنا المعالج الرسومي بمحرك فائق القوة يحتوي على آلاف الأسطوانات، فإن HBM هي نظام الوقود الذي يضمن تدفق البيانات باستمرار. مهما بلغت قوة المحرك، سيظل في وضع الخمول إذا لم يكن تدفق الوقود كافيًا.

هناك إجماع متزايد في الصناعة: لم يعد عنق الزجاجة في قوة الحوسبة للذكاء الاصطناعي مقتصرًا على وحدات المعالجة نفسها، بل أصبح يكمن بشكل متزايد في كفاءة نقل البيانات. تظهر البيانات أن حركة البيانات في البنى التقليدية للحوسبة قد تمثل ما بين %60 إلى %80 من إجمالي استهلاك الطاقة في النظام. وفي سيناريوهات الاستدلال، قد تصل معدلات خمول المعالجات الرسومية إلى %99. العامل المحدد الرئيسي هنا هو عرض نطاق الذاكرة.

بفضل تقنيات التكديس ثلاثي الأبعاد (3D stacking) والتوصيل عبر السيليكون (TSV)، تحقق HBM عرض نطاق وسعة طاقة أعلى بكثير لكل وحدة مساحة مقارنة بالذواكر التقليدية، مما جعلها ميزة قياسية في مسرعات الذكاء الاصطناعي من شركات مثل NVIDIA وAMD وGoogle وغيرها من عمالقة الصناعة.

المبادئ التقنية: كيف تعيد HBM تشكيل قناة البيانات بين المعالج الرسومي والذاكرة

من "حلبة سباق مسطحة" إلى "مصعد رأسي"

ليست HBM وسيط تخزين جديد، بل هي مجموعة من مواصفات الواجهات والتغليف التي تحدد "كيفية ربط شرائح DRAM بعرض نطاق فائق". يتكون المكدس التقني الأساسي لها من ثلاث طبقات:

التكديس ثلاثي الأبعاد (3D Stacking) — تُكدس عدة طبقات من شرائح DRAM عموديًا (التكوينات السائدة حاليًا تتراوح بين 8 إلى 12 طبقة، مع تقدم HBM4 إلى 16 طبقة)، مما يضاعف كثافة التخزين وعدد القنوات المتوازية ضمن نفس المساحة الفيزيائية.

التوصيل عبر السيليكون (TSV) — تُحفر ثقوب ميكروسكوبية بقطر يتراوح بين 5-10 ميكرون داخل كل طبقة DRAM وتملأ بمادة موصلة لإنشاء قنوات رأسية، مما يتيح عشرات الآلاف من الوصلات بين الطبقات. هذا يختلف جذريًا عن الأسلاك التقليدية على لوحات الدوائر المطبوعة (PCB)، حيث تقاس أطوال التوصيلات بالسنتيمترات أو الأمتار، بينما تُضغط مسافات نقل الإشارات في TSV إلى مقياس الميكرون، ما يقلل بشكل كبير من تلاشي الإشارة والزمن المستغرق.

الوسيط السيليكوني (Silicon Interposer) — تتصل مكدسات HBM بوسيط سيليكوني عبر نقاط لحام ميكروسكوبية، والذي يربطها بعد ذلك بشرائح المعالج الرسومي أو المركزي عبر مسافات قصيرة جدًا، مشكلًا وحدة تغليف متكاملة. يستخدم هذا الهيكل تقنيات تغليف متقدمة من نوع 2.5D مثل CoWoS لتحقيق تكامل عالي الكثافة.

يكمن الابتكار الجوهري في هذه البنية في عرض الحافلة (bus width). عادةً ما يوفر مكدس HBM واحد حافلة بعرض 1024 بت، بينما يمكن لـ HBM3E أن تصل إلى 2048 بت. على سبيل المثال، توفر شريحة HBM3E الأحدث من SK hynix سعة 24GB وعرض نطاق يتجاوز 1TB/s. بالمقابل، تقدم حلول GDDR التقليدية 32 بت فقط لكل شريحة (أو 384 بت في التكوينات متعددة الشرائح)، ما يؤدي إلى فروقات هائلة في قدرات نقل البيانات.

تعتمد فلسفة تصميم HBM على مبدأ "عريض وبطيء" — إذ تحقق إجمالي عرض النطاق من خلال قنوات متوازية ضخمة، كل منها يعمل بتردد منخفض نسبيًا، ما يمنحها كفاءة طاقة أفضل بكثير من التصاميم عالية التردد. أما GDDR، فتعتمد على منطق "ضيق وسريع" — حيث تستخلص عرض النطاق من قنوات قليلة عبر رفع تردد التشغيل. هذان النهجان يناسبان سيناريوهات تطبيق مختلفة تمامًا: تسعى HBM لتحقيق أقصى إنتاجية، بينما توازن GDDR بين الإنتاجية والتكلفة.

HBM مقابل GDDR6: معركة "العريض والبطيء" مقابل "الضيق والسريع"

كل من HBM وGDDR6 ينتميان إلى عائلة ذواكر DRAM، ويعملان كقنوات وصول للبيانات في المعالجات الرسومية، لكنهما يختلفان جذريًا في الأهداف التصميمية وخصائص الأداء وهيكل التكلفة.

عرض النطاق: توفر HBM3E ما يصل إلى 1.2TB/s لكل مكدس، مع توقع أن تتجاوز HBM4 الجيل القادم 2.0TB/s. بينما تصل GDDR6X إلى حوالي 1TB/s لكل بطاقة، وهو ما يقترب بالفعل من الحدود الفيزيائية في المنتجات الرائدة. ومع ذلك، تتفوق HBM بشكل ملحوظ في كفاءة الطاقة لكل وحدة عرض نطاق، ما ينعكس مباشرة في ميزة تكلفة تشغيلية قابلة للقياس في مراكز بيانات الذكاء الاصطناعي واسعة النطاق.

الطاقة والزمن: بفضل المسارات الرأسية فائقة القصر في TSV، تستهلك HBM طاقة أقل بحوالي %30 مقارنة بـ GDDR5. أما من حيث الزمن، تعتمد GDDR على توصيلات PCB للتواصل مع المعالج الرسومي، ما يؤدي عادة إلى تأخيرات في نطاق الميكروثانية؛ بينما تُغلف HBM مباشرة بجوار شريحة المعالج الرسومي، ما يقلص التأخير إلى نطاق النانوثانية. من الجدير بالذكر أن زمن الوصول العشوائي في HBM أعلى قليلًا من GDDR في سيناريوهات الإنتاجية القصوى، لكن في الوصول المتوازي واسع النطاق — وهو النمط السائد في تدريب واستدلال الذكاء الاصطناعي — يكون عرض النطاق هو عنق الزجاجة الحاسم.

التكلفة: هذا هو العيب الأوضح في HBM. تظهر بيانات الصناعة أن تكلفة HBM تتجاوز $25 لكل GB، بينما تتراوح تكلفة GDDR6 بين $5 و$8 لكل GB فقط. وقد تمثل HBM ما بين %60 إلى %80 من إجمالي تكلفة المعالج الرسومي الفاخر. في الواقع، تقدم GDDR6 أداءً أفضل من حيث التكلفة لكل وحدة عرض نطاق — فعندما لا تكون الحاجة إلى أقصى عرض نطاق مطلقة، تكون GDDR6 الخيار الأكثر فعالية من حيث التكلفة.

خلاصة القول، إن الاختيار بين HBM وGDDR هو في جوهره مقايضة بين حدود الأداء وقيود التكلفة. تعتبر HBM ضرورية في السيناريوهات التي "يجب فيها تحقيق حد أدنى معين من عرض النطاق لتشغيل النظام" — مثل الاستدلال على النماذج ذات التريليونات من المعاملات. دون هذا العرض، لن يعمل النظام بفعالية. أما GDDR6، فهي تخدم السيناريوهات التي يكون فيها "الأداء المقبول بأقل تكلفة" هو الأولوية، مثل نشر النماذج الصغيرة والمتوسطة (7B-13B معاملات).

ليسا بديلين لبعضهما البعض، بل مساران تقنيان متوازيان لاحتياجات مختلفة. ومع ذلك، في تدريب الذكاء الاصطناعي والاستدلال واسع النطاق، تدفع مزايا HBM تدريجيًا GDDR خارج الساحة الأساسية.

معضلة "جدار الذاكرة": لماذا يزداد الطلب على HBM بشكل أسي مع تضخم نماذج الذكاء الاصطناعي

لفهم النمو المتسارع في الطلب على HBM، يجب أن نعود إلى عنق الزجاجة الأساسي في حوسبة الذكاء الاصطناعي — "جدار الذاكرة".

الفجوة المتزايدة بين نمو الحوسبة وعرض النطاق

على مدى الثلاثين عامًا الماضية، تضاعف أداء المعالجات كل 18-24 شهرًا وفقًا لقانون مور، لكن عرض النطاق الخاص بالذاكرة تأخر عن الركب. تظهر الأبحاث حول الذكاء الاصطناعي وجدار الذاكرة أن قدرة الحوسبة للنماذج تنمو بمعدل 3 أضعاف كل عامين، بينما يزداد عرض النطاق للذاكرة بحوالي 1.6 مرة فقط، ويقل عرض النطاق للوصلات حتى عن ذلك. هذا يعني أن كل ترقية في الحوسبة تقلل من قيمة قدرة نقل الذاكرة.

تتجلى هذه المفارقة بشكل خاص في الاستدلال. يعتمد التدريب على ضرب المصفوفات (GEMM) بكثافة حوسبة عالية — حيث تتجاوز الكثافة الحسابية 100+ FLOPs/byte. أما الاستدلال، فيعتمد على ضرب المصفوفة بالمتجه (GEMV)، وغالبًا ما تكون الكثافة الحسابية فيه أقل من 2 FLOPs/byte. وكلما انخفضت الكثافة الحسابية، زاد اعتماد أداء النظام على عرض النطاق للذاكرة بدلاً من قوة الحوسبة — وهذا هو تأثير "جدار النطاق".

"عبء النقل" في استدلال النماذج الكبيرة

العملية الأساسية لاستدلال النماذج الكبيرة هي: مع كل رمز يتم توليده، يجب تحميل جميع معاملات النموذج من الذاكرة إلى نواة الحوسبة. خذ نموذج Llama 3 70B كمثال: عند دقة FP16، يبلغ حجم الأوزان حوالي 140GB. يتطلب توليد كل رمز نقل جميع الـ140GB من المعاملات. لضمان تجربة سلسة بسرعة توليد 30 رمزًا في الثانية، يجب أن يدعم عرض النطاق بين HBM ونواة الحوسبة نحو 4.2TB من النقل في الثانية.

هذا الطلب يدفع بالفعل حدود العتاد السائد حاليًا. توفر بطاقة NVIDIA H100 SXM5 عرض نطاق HBM يبلغ 3.35TB/s. بمعنى آخر، حتى مسرع الذكاء الاصطناعي الأعلى أداءً يكاد يكون كافيًا فقط لنموذج بعدد معاملات 70B. ومع توسع النماذج إلى مئات المليارات والتريليونات وما بعدها، سيزداد عرض النطاق المطلوب خطيًا — أو حتى أسيًا.

قيدان أساسيان: السعة وعرض النطاق

السعة التخزينية عامل حاسم آخر. إذا تجاوز حجم معاملات النموذج سعة HBM في معالج رسومي واحد، يجب تقسيم النموذج عبر عدة معالجات للعمل بشكل متوازٍ — وهي طريقة تُعرف بالتوازي التنسوري (tensor parallelism). لكن هذا التقسيم يخلق عنق زجاجة جديدًا: الحاجة إلى التواصل المتكرر للنتائج الوسيطة بين المعالجات، ما قد يقلل من الكفاءة الإجمالية.

لذا، تكمن قيمة HBM في بُعدين: يحدد عرض النطاق سرعة الاستدلال على البطاقة الواحدة وأدنى زمن استجابة، بينما تحدد السعة ما إذا كان النموذج سيتناسب مع بطاقة واحدة، وعدد البطاقات المطلوبة، وتكلفة التواصل بين البطاقات.

اتجاه الصناعة واضح: تتحول HBM من "خيار فاخر" إلى "تجهيز قياسي" في قوة حوسبة الذكاء الاصطناعي. تظهر بيانات TrendForce أن الطلب على HBM سينمو بأكثر من %130 سنويًا في 2025، وسيواصل الارتفاع بأكثر من %70 في 2026. لقد انتقلت HBM من دور ثانوي في معالجة الرسوميات إلى مكون أساسي لا غنى عنه في سلسلة حوسبة الذكاء الاصطناعي.

الأثر على مستوى الصناعة: من الخيارات التقنية إلى اختلال التوازن بين العرض والطلب في السوق

توسع السوق

ينمو سوق HBM بوتيرة تتجاوز التوقعات المبكرة لمعظم المؤسسات. تشير بيانات SEMI China إلى أن سوق HBM سينمو بنسبة %58 ليصل إلى $54.6 مليار بحلول 2026، أي ما يقارب %40 من إجمالي سوق DRAM. وتقدر Micron أن السوق الكلي القابل للخدمة (TAM) لـ HBM سينمو بمعدل سنوي مركب يقارب %40، من $35 مليار في 2025 إلى $100 مليار في 2028 — متجاوزًا حجم سوق DRAM بالكامل في 2024.

قيود صارمة في العرض

لكن الطلب المتزايد يصطدم بقيود صارمة في الطاقة الإنتاجية. تظهر بيانات SEMI أنه رغم أن Samsung وSK hynix وMicron قد حولوا %70 من الطاقة الإنتاجية الجديدة/القابلة للتعديل نحو إنتاج HBM، إلا أن العجز الإجمالي في الطاقة الإنتاجية لـ HBM لا يزال عند مستوى %50-%60.

ينبع عنق الزجاجة من الحواجز التقنية العالية لتصنيع HBM. يتطلب الإنتاج تقنيات معالجة DRAM متقدمة (وصلت الشركات الرائدة الآن إلى عقدة 1β نانومتر)، بالإضافة إلى تقنيات حفر TSV، ولحام النقاط الميكروسكوبية، وتغليف على مستوى الرقاقة، وغيرها من تقنيات التغليف المتقدمة. من المتوقع أن تتوسع طاقة تغليف CoWoS لدى TSMC — المنصة الأساسية لدمج HBM والمعالجات الرسومية — إلى أكثر من 125,000 رقاقة شهريًا بحلول نهاية 2026، بزيادة تقارب %79 سنويًا، لكنها لا تزال أقل من الطلبات المقدمة من NVIDIA وAMD وBroadcom وغيرها.

مخاطر سلسلة التوريد وانتقال الأسعار

يظهر نقص الطاقة الإنتاجية مباشرة في الأسعار. ارتفعت أسعار HBM3E بنسبة %5-%10 خلال 2025. والأهم من ذلك، مع تحويل الشركات الثلاث الكبرى للطاقة الإنتاجية نحو HBM، ينخفض عرض ذواكر DDR الاستهلاكية، مع توقع استمرار ارتفاع الأسعار حتى نهاية 2026. يؤثر نقص HBM على قطاع الذاكرة الأوسع عبر تقليص الطاقة الإنتاجية المتاحة.

في يونيو 2026، أكد Jensen Huang أن SK hynix وSamsung وMicron اجتازوا جميعًا اختبارات الاعتماد وبدؤوا الإنتاج الكمي لشرائح HBM4، مع تصدر Samsung الصناعة ببدء الإنتاج الكمي في فبراير 2026. ومع ذلك، حتى مع توسع الشركات الثلاث في آن واحد، سيظل العجز بين العرض والطلب على HBM عند حوالي %50 خلال 2025-2026. ويظل تحقيق التوازن بين العرض والطلب في الأمد القصير أمرًا صعبًا. وتخلق وتيرة التوسع في المراحل الأولى، وعنق الزجاجة في طاقة التغليف، والطلب المتسارع من حوسبة الذكاء الاصطناعي في المراحل اللاحقة مشهدًا ديناميكيًا لكنه يظل مشدودًا بين العرض والطلب.

الخلاصة

من الابتكار التكنولوجي الجذري، إلى الاعتماد الصارم في سيناريوهات حوسبة الذكاء الاصطناعي، إلى اختلال التوازن بين العرض والطلب عبر سلسلة الصناعة بأكملها، تطورت HBM من فرع في تقنيات الذاكرة إلى ساحة المعركة الأساسية في منافسة بنى الذكاء الاصطناعي التحتية.

تكمن أهمية HBM في تدريب واستدلال الذكاء الاصطناعي في مبدأ حوسبي أساسي: بمجرد أن يتجاوز حجم معاملات النموذج حدًا معينًا، يصبح عرض النطاق ليس مجرد "تحسين"، بل "عامل تمكين" — دون هذا الحد، لن يعمل النظام بفعالية. قد تتمتع GDDR6 بميزة التكلفة، لكن بنيتها الضيقة وعالية التردد لا يمكنها مجاراة سقف عرض النطاق وكفاءة الطاقة المطلوبة لنماذج التريليونات من المعاملات. هذا الاختلاف البنيوي يعني أن HBM وGDDR ليسا مجرد متنافسين، بل حلول متكاملة لمتطلبات مختلفة في نواة حوسبة الذكاء الاصطناعي.

وبالنظر إلى المستقبل، فإن استمرار الإنتاج الكمي لـ HBM4 (مع توقع أن يتجاوز عرض النطاق لكل مكدس 2TB/s)، ونضوج تكديس 16 طبقة، وتقنيات التغليف الجديدة مثل الربط الهجين، ستدفع جميعها سقف أداء HBM إلى الأعلى. ومع ذلك، من الجدير بالذكر أن شركات مثل Huawei تستكشف تحسينات خوارزمية لتقليل الاعتماد على HBM، وهناك بدائل مثل SRAM وهياكل الحوسبة داخل الذاكرة تتقدم بالتوازي. ما إذا كانت HBM ستتمكن من الحفاظ على صدارتها عبر دورات التطوير التقني، وما إذا كان بالإمكان تخفيف عنق الزجاجة في العرض في دورات التوسع المستقبلية، سيبقى من أهم المتغيرات التي يجب مراقبتها في صناعة حوسبة الذكاء الاصطناعي خلال السنوات القادمة.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
أَعجِب المحتوى