Mensaje de Gate News, 22 de abril: el estudiante de doctorado de Princeton, Yifan Zhang, divulgó en X las especificaciones técnicas completas de DeepSeek V4, después de un adelanto el 19 de abril. V4 cuenta con 1.6 billones de parámetros totales y una variante liviana, V4-Lite, con 285 mil millones de parámetros.
El modelo emplea el mecanismo de atención DSA2, que combina la (DeepSeek Sparse Attention) previa de DeepSeek del V3.2 y la (Native Sparse Attention) NSA con embeddings de cabeza de 512 dimensiones, junto con (Sparse Multi-Query Attention)MQA( y )Sliding Window Attention(SWA). La capa MoE (Mixture of Experts) contiene 384 expertos con 6 activados por cada pase hacia adelante, utilizando el Fused MoE Mega-Kernel. Las conexiones residuales emplean la arquitectura Hyper-Connections.
Los detalles de entrenamiento revelados por primera vez incluyen el uso del optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), una ventana de contexto de preentrenamiento de 32K tokens y GRPO Group Relative Policy Optimization con corrección de divergencia KL durante el aprendizaje por refuerzo. La ventana de contexto final se extiende hasta 1 millón de tokens. El modelo es solo texto.
Zhang no está empleado por DeepSeek, y la empresa no ha comentado oficialmente la información divulgada.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
El Comité de Asuntos Exteriores de la Cámara de Representantes de EE. UU. se reúne con gigantes tecnológicos sobre los controles de exportación de IA después de que se apruebe la Ley MATCH con 36-8
Según Beating, los miembros de la Comisión de Asuntos Exteriores de la Cámara de Representantes de EE. UU. viajarán a Silicon Valley la próxima semana para reunirse con representantes de Google, Anthropic, Meta, Tesla, Intel, Applied Materials y Nvidia con el fin de analizar la inteligencia artificial y los controles de exportación. Una mesa redonda del sector es
GateNewsHace41m
OpenAI lanza Codex Pets, un compañero virtual impulsado por IA con generación personalizada
Beating afirma que OpenAI ha añadido una nueva función de “Codex Pets” a la aplicación de escritorio de Codex, que permite a los usuarios generar e interactuar con un compañero virtual animado. Los usuarios pueden activar una mascota escribiendo /pet en el editor. La función funciona como un indicador del estado del agente, mostrando un
GateNewsHace45m
Evaluación de AISI: las capacidades de ciberataque de GPT-5.5 están a la par con Anthropic Mythos
AISI publicó en mayo la evaluación de las capacidades de ciberataque de GPT-5.5: dificultad Expert 71,4%, Mythos Preview 68,6%; la diferencia está dentro del margen de error, así que están empatados. GPT-5.5 se convirtió en el segundo sistema, después de Mythos, capaz de completar automáticamente la invasión empresarial de 32 pasos de «The Last Ones». También se descubrió un universal jailbreak, que se puede desarrollar en unas 6 horas y que permite eludir el filtrado de consultas maliciosas. En el futuro, se observará el calendario de la próxima ronda de evaluación y las actualizaciones de OpenAI sobre esto.
ChainNewsAbmediahace2h
El Pentágono firma contratos de despliegue de redes militares confidenciales con 7 grandes empresas de IA: Anthropic sigue quedando fuera
El Departamento de Defensa de EE. UU. anunció en mayo que firmó contratos militares de red confidenciales con 7 empresas, como SpaceX, OpenAI, Google, NVIDIA, Reflection, Microsoft y Amazon Web Services, y además añadió Oracle para convertirse en la octava. El contrato permite ejecutar modelos en el nivel máximo de confidencialidad Impact Level 6/7. Los tres principales casos de uso son la integración de datos, la toma de decisiones de operaciones y la percepción de la situación en el campo de batalla, con un énfasis en diversificar el riesgo y evitar el bloqueo por parte del proveedor. Anthropic fue incluido en una lista negra por negarse a aceptar salvaguardas de seguridad para el personal militar y no recibió la firma. AMD no fue incluida directamente; los GPU los proporcionan NVIDIA y otras. A continuación, se observará si Anthropic cede, y cuál será el papel de los nuevos seleccionados como Reflection.
ChainNewsAbmediahace2h
Cerebras apunta al $4B IPO, valorada en ~$40B
El fabricante de chips de IA Cerebras Systems, con sede en Sunnyvale, California, busca hasta 4 mil millones de dólares en una OPV que podría valorar a la empresa en aproximadamente 40 mil millones de dólares, según Bloomberg. La comercialización formal podría comenzar tan pronto como el 4 de mayo, con bancos recibiendo más de 10 mil millones de dólares en indicaciones de
CryptoFrontierhace2h
Las empresas chinas de IA consideran desmantelar las estructuras de “red-chip” tras la suspensión de la adquisición de Manus por parte de Meta
Según Beating, la Comisión Nacional de Desarrollo y Reforma de China detuvo la adquisición de 2 mil millones de dólares de Meta de la empresa de agentes de IA Manus, lo que llevó a la Comisión Reguladora de Valores de China a endurecer la aprobación para las cotizaciones iniciales (IPO) en Hong Kong de las empresas red-chip (empresas chinas que mantienen activos nacionales th
GateNewshace3h