Gate News消息,4月24日——DeepSeek的V4技术报告显示,V4-Flash和V4-Pro分别在32T和33T tokens上进行了预训练,相当于用于V3的约15T tokens的两倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,并且由于Mixture-of-Experts (MoE)层中的异常,loss多次反复出现尖峰;路由机制本身会加剧这些异常,而简单的回滚无法解决该问题。
DeepSeek目前已在实际训练中应用两项解决方案:先行路由(Anticipatory Routing),将路由索引计算与主干网络更新解耦,并且仅在检测到loss尖峰时自动触发 (adding approximately 20% overhead);以及SwiGLU钳制(SwiGLU Clamping),通过将激活值直接钳制到固定范围内来抑制异常。该报告称这两种方法都有效,但也承认“底层原理仍未被充分理解”。
Susan Zhang,谷歌DeepMind研究员,曾在Meta AI和OpenAI工作,她评论称,由于训练数据翻倍触发的不稳定性“解释了延迟”。她将这两项解决方案描述为“补丁”,同时也承认DeepSeek的技术透明度。
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
تتعاون شركة Claw Intelligence مع Block Sec Arena لتعزيز أمن سلسلة BNB Chain
بحسب الإعلان الرسمي لشركة Block Sec Arena في 30 أبريل، أعلنت Claw Intelligence، وهي منصة Web3 مدعومة بالذكاء الاصطناعي ومبنية على BNB Chain، عن شراكة استراتيجية مع Block Sec Arena لدمج بنية تحتية متقدمة للأمن السيبراني داخل نظامها البيئي. تهدف الشراكة إلى تعزيز p
GateNewsمنذ 6 س
شركة NTT تعلن مبادرة AI x OWN، وتخطط لثلاثة أضعاف سعة توليد الطاقة في اليابان إلى 1 جيجاواط بحلول 2033
في 27 أبريل، أعلن رئيس NTT أكيرا شيماشيدا مبادرة AI x OWN، وهي جهود الشركة لإعادة تصميم بنية الإنترنت لاستخدام الذكاء الاصطناعي في الوقت الفعلي. وتخطط NTT لرفع سعتها المحلية من الطاقة الكهربائية إلى ثلاثة أضعاف من نحو 300 ميغاواط اليوم إلى حوالي 1 جيغاواط بحلول السنة المالية 2033، حيث عملاق الاتصالات
GateNewsمنذ 8 س
منصة الذكاء الاصطناعي Certifyde تُكمل جولة تمويل بذري بقيمة 2 مليون دولار في 1 مايو، بدعم من الرئيس التنفيذي لشركة Ripple براد غارلينغهاوس
بحسب TechfundingNews، أكملت منصة تطبيقات الذكاء الاصطناعي Certifyde جولة تمويل بذري بقيمة 2 مليون دولار في 1 مايو. ومن بين المستثمرين K5 Global وFlamingo Capital، إضافةً إلى مستثمرين ملائكة من بينهم المؤسس المشارك لشركة Honey جورج روان، والرئيس التنفيذي لشركة Ripple براد غارلينغهاوس، والمؤسس المشارك لشركة Nutra رولاند
GateNewsمنذ 8 س
نائب وزير الدفاع الأمريكي لشؤون التكنولوجيا في البنتاغون: لا تزال Anthropic مدرجة في القائمة السوداء، مع استثناءات خاصة لـ Mythos
صرّح كبير مسؤولي التكنولوجيا في وزارة الدفاع الأمريكية (Pentagon technology chief) في 1 مايو أمام الكونغرس قائلاً: «تظل Anthropic على القائمة السوداء، لكن Mythos Preview موضوع آخر»، مانحاً اعترافاً رسمياً بأن وزارة الدفاع تتعامل على نحو مختلف مع العلامة التجارية الرئيسية لـ Anthropic ونموذجها الجديد Mythos. يتوافق هذا الموقف مع ما كشفته Axios في 19 أبريل بأن وكالة الأمن القومي (NSA) كانت قد استخدمت فعلياً Mythos لإيجاد تكيّف/استجابة، كما أنه يرسّخ رسمياً التوجه نحو سياسة «قناة استثناء Mythos»، وهو ما يعني أيضاً أن وزارة الدفاع كانت قد جادلت في المحكمة بأن استخدام أدوات Anthropic قد يهدد الأمن القومي، بما يتناقض داخلياً من زاوية الحجج القانونية مع الممارسات الفعلية الحالية.
Anthropic vs Pentagon
ChainNewsAbmediaمنذ 9 س
تغلق 137 Ventures $700M في صناديق جديدة، لتصل الأصول الخاضعة للإدارة إلى 15 مليار دولار
وفقاً لـ ChainCatcher، أكمل 137 Ventures، وهو مستثمر مبكر في SpaceX، مؤخراً جمع تمويل لصندوقين جديدين بإجمالي يتجاوز 700 مليون دولار، ما يرفع أصوله الخاضعة للإدارة إلى أكثر من 15 مليار دولار. سيساند رأس المال الجديد الاستثمارات في وكلاء الذكاء الاصطناعي والروبوتات ودفع الصواريخ.
GateNewsمنذ 9 س
يترتّب ارتفاع ريديت بنسبة 16% مع توقعات قوية للربع الثاني؛ يواجه آبل نقصاً في أجهزة ماك مع تفوق الطلب على الذكاء الاصطناعي على الإمدادات
ارتفع سهم Reddit بنسبة 16% قبل افتتاح السوق يوم الجمعة، بعد أن أصدرت الشركة توقعات إيرادات للربع القادم أعلى من المتوقع. ونمت الزيارات النشطة اليومية بنسبة 17% إلى 126.8 مليون، بينما قفز متوسط الإيراد لكل مستخدم على مستوى العالم بنسبة 44%، مدفوعاً بقدرات الذكاء الاصطناعي التي تعمل على
GateNewsمنذ 9 س