سرعة مضاعفة بمقدار 17 مرة دون الحاجة لتغيير الطبقة الأساسية CUDA، تصميم Nous هذا هو حقًا طريق مختصر لاستنتاج النصوص الطويلة، وتفاصيل العودة إلى الانتباه الكامل في نهاية التدريب مستقرة جدًا.

شاهد النسخة الأصلية
MeNews
نحن نفتح مصدر Lighthouse Attention: وحدة B200 واحدة تسرع من 512K بمقدار 17 مرة
AIMPACT تقول إن Nous Research أطلقت آلية التدريب المسبق ذات السياق الطويل المفتوحة المصدر، وهي "Lighthouse Attention". معالجة بطاقة واحدة B200 لملف نصي بحجم 512 ألف كلمة أسرع بحوالي 17 مرة، وبتنفيذ نهاية إلى نهاية عند 98 ألف كلمة زادت السرعة بمعدل 1.4 إلى 1.7 مرة. تعتمد الآلية على تصفية أولية ثم تقييم دقيق، حيث يتم تصفية المقاطع الأساسية من خلال ملخصات متعددة المستويات وتجميعها في نص قصير، ثم يتم معالجتها بواسطة FlashAttention؛ وتتم عملية التصفية خارج نواة المعالجة، مما يلغي الحاجة إلى تعديل الكود الأساسي أو أهداف تدريب إضافية. ولتجنب فقدان قدرة القراءة الحرفية بسبب قفز النموذج، يتم أثناء التدريب إكمال معظم العمليات باستخدام وضع التسريع، ثم يتم العودة مؤقتًا إلى الانتباه الكامل في النهاية. في تجربة تشمل 5.3 مليار معلمة و500 مليار رمز، انخفض الوقت بشكل ملحوظ، وكانت الأداء النهائي مماثلاً أو متفوقًا على الأساسيات التقليدية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت