Mensaje de Gate News, 24 de abril — El ingeniero de OpenAI, Clive Chan, ha presentado objeciones detalladas al capítulo de recomendaciones de hardware en el informe técnico V4, calificándolo de “sorprendentemente mediocre y propenso a errores” en comparación con la versión V3 aclamada. La guía de hardware de V3, que incluía sesiones de Q&A que se convirtieron en el tema de discusión más popular en la conferencia académica ISCA, ofreció recomendaciones específicas alineadas con los estándares de interconexión de la industria. En cambio, V4 es mucho más vaga.
Chan cuestionó sistemáticamente tres recomendaciones clave. Sobre el consumo de energía, el informe sugiere que la optimización del software permite que los chips ejecuten cómputo, almacenamiento y comunicación al mismo tiempo al máximo, y recomienda que los fabricantes de chips reserven margen adicional de potencia. Chan sostiene que esto es contraproducente: la potencia total del chip está limitada por restricciones físicas del proceso, así que reservar más margen de potencia solo reduce la frecuencia de operación, disminuyendo en última instancia el rendimiento computacional. En cuanto a la transferencia de datos de GPU a GPU, el informe aboga por un modelo pull—en el que las GPU obtienen activamente los datos—en lugar de un modelo push, citando la alta sobrecarga de notificaciones en las operaciones push. Chan lo refuta, argumentando que en realidad el pull es más lento y que sería preferible mejorar las capacidades de los adaptadores de red. Sin embargo, ambos podrían estar hablando de capas diferentes del problema: el informe aborda la sobrecarga del mecanismo de notificación, mientras que Chan se refiere a la latencia de transmisión en sí.
Sobre las funciones de activación, el informe recomienda reemplazar SwiGLU por funciones más simples para reducir la carga computacional. Chan no ve mérito en ello, señalando que Sonic MoE ya ha demostrado un rendimiento óptimo usando SwiGLU. Chan sospecha que DeepSeek pudo haber “debilitado deliberadamente esta sección.”
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
La Casa Blanca elabora un borrador de memorando de política de IA que ordena a las agencias de EE. UU. usar múltiples proveedores de IA el 30 de abril
De acuerdo con fuentes citadas por PANews el 30 de abril, funcionarios de la Casa Blanca están redactando un memorando amplio de política de inteligencia artificial que instruye a las agencias del gobierno de EE. UU. a adoptar múltiples proveedores de servicios de IA y a evitar depender de un solo proveedor. El memorando también exige que todas las empresas de IA contratadas
GateNewsHace44m
La Administración de Ciberespacio de China lanza una campaña de 4 meses para frenar el caos de las aplicaciones de IA el 30 de abril
Según CCTV News, la Administración del Ciberespacio de China lanzó el 30 de abril una campaña nacional de cuatro meses para abordar el caos en las aplicaciones de IA. La iniciativa, desplegada en dos fases, apunta a problemas como registros de modelos faltantes, capacidades insuficientes de seguridad y revisión de plataformas,
GateNewsHace55m
Forefront Tech completa la fijación de precios de su $100M IPO, cotiza en Nasdaq bajo el código FTHAU
Según ChainCatcher, la empresa de adquisición con fines específicos Forefront Tech completó una fijación de precio de su IPO por 100 millones de dólares el 30 de abril y cotizará en Nasdaq bajo el símbolo bursátil FTHAU. La empresa planea usar los ingresos para buscar oportunidades de fusiones y adquisiciones en blockchain, fintech, inteligencia artificial en
GateNewshace2h
El código de Anthropic Claude sobregiró al usuario 200,98 USD debido a un error de facturación; inicialmente se le negó el reembolso antes de la compensación total
Según el monitoreo de Beating, un error de facturación en el servicio Claude Code de Anthropic provocó que un suscriptor Max 20x fuera sobrecargado con 200,98 USD en cargos adicionales por uso, mientras solo utilizaba el 13% de su cuota mensual. El error se activó cuando el historial de commits de un repositorio git de un usuario contenía las mayúsculas
GateNewshace2h
DeepSeek presenta el método de primitivas visuales para mejorar el razonamiento multimodal el 30 de abril
Según el informe técnico de DeepSeek, el 30 de abril la empresa presentó Visual Primitives, un método que incrusta unidades visuales básicas como puntos y cajas delimitadoras en cadenas de razonamiento para abordar el problema de la brecha de referencia en tareas multimodales. El método reduce el consumo de tokens de imagen
GateNewshace3h
NVIDIA lanza los pesos del modelo insignia Cosmos-Reason2-32B y amplía la ventana de contexto a 256K tokens
Según Beating, NVIDIA ha lanzado los pesos de Cosmos-Reason2-32B, la versión insignia de su modelo de visión y lenguaje (VLM) de razonamiento físico para IA, diseñado para ayudar a robots y sistemas de conducción autónoma a comprender principios espaciales, temporales y físicos. El modelo de 32 mil millones de parámetros,
GateNewshace3h