Mensaje de Gate News, 23 de abril — investigadores de Google, incluidos He Kaiming y Xie Saining, publicaron un artículo que presenta Vision Banana, un modelo general de comprensión visual creado mediante un ajuste fino ligero de instrucciones del modelo de generación de imágenes Nano Banana Pro (Gemini 3 Pro Image) de la empresa. La innovación clave unifica las salidas de todas las tareas de visión como imágenes RGB, lo que permite segmentación, estimación de profundidad y predicción de normales de superficie mediante generación de imágenes sin arquitecturas ni funciones de pérdida específicas de cada tarea.
En segmentación semántica, Vision Banana superó al modelo especializado SAM 3 en 4.7 puntos porcentuales en Cityscapes; en segmentación por expresiones referenciales, superó a SAM 3 Agent. Sin embargo, quedó por detrás de SAM 3 en la segmentación de instancias. Para tareas 3D, la estimación métrica de profundidad logró una precisión media de 0.929 en cuatro conjuntos de datos estándar, superando el 0.918 de Depth Anything V3, usando solo datos sintéticos sin información real de profundidad ni parámetros de cámara durante la inferencia. La estimación de normales de superficie logró resultados de vanguardia en tres benchmarks del interior.
El ajuste fino implicó un conjunto mínimo de datos de tareas de visión mezclado en el entrenamiento original de generación de imágenes, preservando las capacidades de generación del modelo: el rendimiento coincidió con el Nano Banana Pro original en pruebas de calidad de generación. El artículo propone que el preentrenamiento de generación de imágenes en visión es análogo al preentrenamiento de generación de texto en lenguaje: los modelos aprenden las representaciones internas necesarias para la comprensión de imágenes durante la generación, y el ajuste fino de instrucciones solo libera esta capacidad.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Claw Intelligence se asocia con Block Sec Arena para reforzar la seguridad de BNB Chain
Según el anuncio oficial de Block Sec Arena del 30 de abril, Claw Intelligence, una plataforma Web3 impulsada por IA construida sobre BNB Chain, ha anunciado una asociación estratégica con Block Sec Arena para integrar infraestructura avanzada de ciberseguridad en su ecosistema. La colaboración tiene como objetivo fortalecer p
GateNewshace7h
NTT anuncia la iniciativa AI x OWN y planea triplicar la capacidad de energía en Japón a 1 GW para 2033
El 27 de abril, el presidente de NTT, Akira Shimada, anunció la iniciativa AI x OWN, el esfuerzo de la empresa por rediseñar la infraestructura de internet para el uso de IA en tiempo real. NTT planea triplicar su capacidad de energía nacional, de aproximadamente 300 MW hoy a alrededor de 1 gigavatio para el año fiscal 2033, ya que el gigante de la telecomunicación
GateNewshace8h
La plataforma de IA Certifyde completa una ronda semilla de 2 millones de dólares el 1 de mayo, respaldada por el CEO de Ripple, Brad Garlinghouse
Según TechfundingNews, la plataforma de aplicaciones de IA Certifyde completó una ronda de financiación semilla de 2 millones de dólares el 1 de mayo. Los inversores incluyen K5 Global, Flamingo Capital y inversores ángel, incluidos el cofundador de Honey, George Ruan, el CEO de Ripple, Brad Garlinghouse, y el cofundador de Nutra, Roland
GateNewshace9h
Subsecretario de tecnología del Pentágono: Anthropic sigue en la lista negra, excepciones para Mythos
El 1 de mayo, el máximo responsable de tecnología del Departamento de Defensa de Estados Unidos (Pentagon technology chief) declaró ante el Congreso: «Anthropic sigue en la lista negra, pero Mythos Preview es otro tema», reconociendo oficialmente que el Departamento de Defensa trata de manera diferente la marca principal Anthropic y su nuevo modelo, Mythos. Esta postura coincide con lo revelado por Axios el 19 de abril, que indicó que la NSA (Agencia de Seguridad Nacional) ya ha utilizado Mythos en la práctica, y también consolida formalmente la orientación de política hacia un «canal de excepción para Mythos». Al mismo tiempo, implica una contradicción interna a nivel de argumentación legal: el Departamento de Defensa había sostenido en los tribunales que usar herramientas de Anthropic amenazaría la seguridad nacional, en contraste con las prácticas actuales.
Anthropic vs Pentagon
ChainNewsAbmediahace10h
137 Ventures cierra $700M en nuevos fondos; AUM alcanza 15.000 millones de USD
Según ChainCatcher, 137 Ventures, un inversor inicial en SpaceX, recientemente completó la recaudación de fondos para dos nuevos fondos con un total de más de 700 millones de dólares, elevando sus activos bajo gestión a más de 15 mil millones de dólares. El nuevo capital se destinará a inversiones en agentes de IA, robótica y propulsión espacial
GateNewshace10h
Reddit se dispara un 16% con una sólida perspectiva para el 2T; Apple enfrenta un déficit de Mac mientras la demanda de IA supera el suministro
Las acciones de Reddit subieron un 16% antes de la apertura del mercado el viernes después de que la empresa emitiera una guía de ingresos para el próximo trimestre superior a la esperada. Los visitantes activos diarios crecieron un 17% hasta 126,8 millones, mientras que los ingresos medios por usuario a nivel mundial aumentaron un 44%, impulsados por la IA,
GateNewshace10h