El 18 de abril, varias fuentes de capital de riesgo confirmaron que DeepSeek ha comenzado su primera ronda de recaudación externa, según (Pail News), de acuerdo con The Paper. La empresa apunta a una valoración que supere $10 mil millones y planea recaudar al menos $300 millones para reforzar sus reservas de capital en medio del aumento de costos en la competencia de IA, según informes que citan fuentes informadas.
DeepSeek anteriormente ganó reconocimiento en la industria por rechazar el enfoque en la comercialización, apoyándose en el fundador Liang Wenfeng y en el respaldo de Phantasm Capital. La empresa contaba con sólidas capacidades técnicas en los sectores de trading cuantitativo y finanzas inteligentes, y fue una de las primeras compañías de modelos grandes de China en operar un clúster GPU de 10.000 tarjetas.
A pesar de la prominencia de DeepSeek tras su éxito viral durante el Año Nuevo Chino del año pasado, la empresa ha experimentado pérdidas significativas de talento. Según informes de (Pail News), varios investigadores principales se han ido desde el año pasado, principalmente jóvenes científicos de la generación “post-95”:
Investigador del modelo multimodal: El 12 de abril, la empresa de conducción autónoma YuanRong Autonomous Driving confirmó públicamente que Ruan Cong, un colaborador clave del modelo multimodal de DeepSeek, se ha unido como Científico Jefe y realizará su primera aparición pública en el Beijing Auto Show.
Autor de LLM de primera generación: Wang Bingxuan, autor principal del primer modelo de lenguaje grande de DeepSeek, anunció recientemente que se incorporó a Tencent.
Autor de la serie OCR: Wei Haoran, autor principal de la serie DeepSeek-OCR, se fue alrededor del Año Nuevo Chino de este año, pero no ha divulgado públicamente su nuevo empleador.
Investigador del algoritmo GRPO: El 16 de abril, se informó que Guo Daya, ex investigador principal de DeepSeek, se había incorporado a ByteDance con un salario reportado de cientos de millones de yuanes. Según divulgaciones relacionadas, Guo Daya se unió a la organización Seed de ByteDance, responsable de la investigación y desarrollo de modelos grandes, como uno de los líderes de dirección de (intelligent agent) en el nivel L8. Guo Daya se identifica como un contribuidor importante del algoritmo GRPO, que es central para la metodología de entrenamiento de razonamiento de DeepSeek-R1. El mismo día, el vicepresidente del Grupo ByteDance, Li Liang, respondió que el informe era inexacto y que la empresa no ha contratado recientemente empleados con niveles salariales anuales cercanos a los cientos de millones de yuanes. Sin embargo, de acuerdo con múltiples fuentes confirmadas por (Pail News), Guo Daya efectivamente se ha unido a ByteDance.
Investigador de aprendizaje profundo: El 12 de noviembre, la ex investigadora principal de DeepSeek Luo Fuli anunció públicamente que se incorporó a Xiaomi MiMo, indicando en una publicación en redes sociales: “La inteligencia eventualmente pasará del lenguaje al mundo físico. Estoy en Xiaomi MiMo, trabajando con un grupo de investigadores creativos, talentosos y genuinamente apasionados para construir este futuro y perseguir el AGI que imaginamos”. Según información pública, Luo Fuli se graduó del programa de Ciencia de la Computación de la Beijing Normal University y completó un máster en lingüística computacional en la Peking University. Después de su máster, se unió a la academia Alibaba DAMO como investigadora de un laboratorio de inteligencia de máquinas que desarrollaba el modelo de pre-entrenamiento multilingüe VECO y promovía el trabajo de código abierto AliceMind. En 2022, Luo Fuli se unió a Phantasm Quantitative (DeepSeek, la empresa matriz de ), para trabajos de aprendizaje profundo; más tarde, se desempeñó como investigadora de aprendizaje profundo de DeepSeek y participó en el desarrollo e investigación de modelos, incluidos DeepSeek-V2.
Con base en la información anterior, DeepSeek ha experimentado pérdidas de talento clave en múltiples dominios, incluidos modelos fundacionales de lenguaje grande (LLM), agentes inteligentes Agent, reconocimiento óptico de caracteres OCR y tecnologías multimodales.
Según fuentes de la industria, los niveles de salario y compensación de DeepSeek están en el tramo medio de la industria, no son los más altos. Sin embargo, los cazatalentos están acelerando actualmente el robo de talento desde el equipo de DeepSeek con salarios 2-3 veces más altos y opciones de equidad, acelerando las pérdidas de personal.
El 8 de abril, se observaron nuevas actualizaciones de la interfaz en DeepSeek: el cuadro de entrada ahora muestra opciones de “Quick Mode” y “Expert Mode”. Según la visualización de la página web, Quick Mode está diseñado para conversaciones diarias con respuestas inmediatas y admite reconocimiento de texto desde imágenes y archivos, mientras que Expert Mode sobresale en problemas complejos. Esto marca la primera introducción de DeepSeek de modos por capas en su página web oficial.
Estas actualizaciones han reavivado las especulaciones sobre el lanzamiento de V4 de DeepSeek. Con base en informes de medios externos e información de redes sociales y múltiples fuentes, se espera que DeepSeek lance formalmente V4 en abril. Según expectativas externas, si este lanzamiento de V4 pretende replicar el fenómeno del Año Nuevo Chino del año pasado, sin duda enfrentará desafíos mayores, y las pérdidas de personal afectarán inevitablemente el lanzamiento de V4.