OpenAI 工程师 Clive Chan 挑战 V4 硬件建议,称其相较 V3 存在错误与模糊之处

Gate News 消息,4 月 24 日——OpenAI 工程师 Clive Chan 就 V4 技术报告中的硬件建议章节提出了详细反对意见,称其相较备受赞誉的 V3 版本“出人意料地平庸且容易出错”。V3 的硬件指导包含 Q&A 会议,该会议成为 ISCA 学术会议上最受欢迎的讨论话题,并提供了与行业互连标准相匹配的具体建议。相比之下,V4 则要模糊得多。

Chan 系统性地质疑了三项关键建议。在功耗方面,报告认为通过软件优化,芯片可以同时在满负荷下运行计算、存储和通信,并建议芯片制造商预留额外的功率余量。Chan 认为这会适得其反:芯片的总功率受到物理工艺限制,因此预留更多的功率余量只会降低运行频率,最终减少计算性能。关于 GPU 到 GPU 的数据传输,报告主张采用拉取模型——由 GPU 主动获取数据——而非推送模型,并以推送操作中较高的通知开销为由。Chan对此提出异议,认为拉取实际上更慢,反而应当优先提升网络适配器能力。然而,两者可能在讨论问题的不同层面:报告关注的是通知机制带来的开销,而 Chan 指的是传输延迟本身。

关于激活函数,报告建议用更简单的函数替换 SwiGLU,以降低计算负担。Chan 认为这没有任何价值,指出 Sonic MoE 已经通过使用 SwiGLU 展示了最佳性能。Chan 怀疑 DeepSeek 可能“故意削弱了这一部分。”

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

Forefront Tech تَستكمل تسعير $100M للاكتتاب العام (IPO)، وتُدرَج في ناسداك تحت الرمز FTHAU

وفقاً لـ ChainCatcher، أكملت شركة الاستحواذ ذات الأغراض الخاصة Forefront Tech تسعير طرحها العام الأولي بقيمة 100 مليون دولار في 30 أبريل، وستدرج في ناسداك تحت رمز التداول FTHAU. وتخطط الشركة لاستخدام العائدات لمتابعة فرص الاندماج والاستحواذ في مجال البلوك تشين، والتمويل التقني، والذكاء الاصطناعي في

GateNewsمنذ 46 د

تم تحصيل رسوم إضافية بقيمة 200.98 دولار من مستخدم من خلال كود Anthropic Claude بسبب خلل في الفوترة، وبعد رفض طلب استرداد المبلغ في البداية تم التعويض بالكامل

وفقاً لمراقبة أجرتها Beating، أدى خلل في الفوترة في خدمة Claude Code التابعة لشركة Anthropic إلى فرض رسوم إضافية على أحد مشتركي Max 20x بقيمة 200.98 دولار أمريكي، عن استخدام زائد، رغم أن هذا المستخدم كان يستخدم 13% فقط من حصته الشهرية. تم تشغيل الخلل عندما احتوت سجلات تاريخ الالتزامات (commits) في مستودع git الخاص بالمستخدم على الأحرف الكبيرة

GateNewsمنذ 1 س

قدّم DeepSeek منهج «البدائيات البصرية» لتعزيز الاستدلال متعدد الوسائط في 30 أبريل

حسب التقرير التقني لشركة DeepSeek، في 30 أبريل، قدمت الشركة «Visual Primitives»، وهي طريقة تُضمّن وحدات بصرية أساسية مثل النقاط ومربعات الإحاطة داخل سلاسل الاستدلال لمعالجة مشكلة الفجوة المرجعية في المهام متعددة الوسائط. تقلّل هذه الطريقة استهلاك رموز الصور

GateNewsمنذ 1 س

أعلنت NVIDIA إصدار أوزان نموذجها الرائد Cosmos-Reason2-32B وتوسيع نافذة السياق إلى 256K رمزاً

وفقاً لموقع Beating، أصدرت NVIDIA الأوزان الخاصة بـ Cosmos-Reason2-32B، وهي النسخة الرائدة من نموذج الرؤية-اللغة الموجّه بالاستدلال للذكاء الاصطناعي (VLM) المخصص لمساعدة الروبوتات وأنظمة القيادة الذاتية على فهم المبادئ المكانية والزمانية والفيزيائية. نموذج المعلمات البالغ عددها 32 ملياراً،

GateNewsمنذ 1 س

يُظهر OpenAI سبب حظر Codex الحديث عن «الـغوبلن»: السيطرة تفلت على مكافآت شخصية «الـنيرد»

أوضحت OpenAI في مدونتها الرسمية أن “Codex” يُحظر فيه الحديث عن كائنات مثل “غوبلن”، وذلك نابع من إشارة مكافأة مفضلة للكائنات في تدريب نمط شخصية “محبّي الكتب” داخل شخصيات الاختبار، ما أدى إلى تلوث عبر أنماط الشخصية وتضليل في RLHF. انطلقت الحادثة عندما كشف Barron Roth عن توجيهات النظام، ثم اتخذت OpenAI استراتيجيتين: ترميز صلب قصير الأجل وإزالة إشارات المكافأة على المدى الطويل. ويُعدّ هذا تحذيراً من هشاشة تصميم إشارات المكافأة، فيما يتعين أن تصبح عمليات التدقيق بعد التدريب أكثر دقة.

ChainNewsAbmediaمنذ 2 س

قامت شركة Alibaba بفتح مصدر وحدة Qwen-Scope لتفسير النماذج، تغطي 7 نماذج في 30 أبريل

وبحسب PANews، في 30 أبريل، أعلنت Qwen التابعة لشركة Alibaba عن إتاحة مصدر مفتوح لوحدة Qwen-Scope للتفسير، التي تم تدريبها على نماذج سلسلة Qwen3 وQwen3.5. يغطي الإصدار 7 نماذج لغوية كبيرة عبر نسخ كثيفة ونسخ من نماذج الخبراء المختلطين، مع 14 مجموعة من مفككات التشفير التلقائي المتناثرة

GateNewsمنذ 3 س
تعليق
0/400
لا توجد تعليقات