封面新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其用于网络搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。
RL 阶段使用 GRPO 算法,来自两类数据源:一是由内部种子查询构建的专有多跳可验证问答数据集,这些查询需要 2–4 跳推理,并采用多解算器验证;二是基于评分标准的通用对话数据,它将部署需求转换为客观可核查的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准要求均满足))偏好分数才会计入,避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,这些值超过了同一组中正确答案的基线水平。
评估显示,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现了同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 高出 5.7 个百分点,较 Claude Sonnet 4.6 高出 4.7 个百分点。在适度预算 (four tool calls) 下,它以每次查询 $0.02 的成本达到 73.9% 准确率;相比之下,GPT-5.4 在每次查询 $0.085 时准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 时准确率为 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
OpenClaw lanza v2026.4.29 el 29 de abril, actualiza la memoria a un wiki personalizado con seguimiento de relaciones
De Beating, el asistente de IA de código abierto OpenClaw (GitHub 367K estrellas) lanzó v2026.4.29 el 29 de abril, marcando su segunda actualización en dos días. El sistema de memoria evolucionó de un simple recordatorio basado en recuperación a una wiki personalizada, lo que permite a los agentes construir automáticamente perfiles de personajes y rastrear r
GateNewsHace25m
El CEO de Google, Pichai, revela que utiliza la IA Gemini para comprender la naturaleza humana y construir una comunicación más auténtica.
Pichai afirmó que, antes de reuniones importantes, usa los puntos de vista de Gemini para analizar y predecir la psicología de la otra parte, con el fin de mejorar la empatía y una comunicación más sincera. Los agentes de IA también pueden organizar automáticamente correos electrónicos, programaciones y resúmenes, haciendo las tareas diarias más eficientes. Además, están surgiendo plataformas de IA centradas en la creación abierta; tecnologías de código abierto como Gemini 4 reducen la barrera de entrada. Al mismo tiempo, se enfatiza la necesidad de crear marcos de gobernanza de la IA, y que el ámbito político y la sociedad participen para abordar retos como la ciberseguridad, los deepfakes y la sostenibilidad.
ChainNewsAbmediahace3h
Oobit lanza el jueves tarjetas de agentes de IA compatibles con Visa, lo que permite gastar USDT sin conversión a fiat
Según The Block, el proveedor de carteras respaldadas por Tether Oobit lanzó el jueves AI Agent Cards, lo que permite que bots autónomos realicen compras usando saldos de USDT sin convertir a moneda fiduciaria ni acceder directamente a las credenciales de tarjetas corporativas. Las tarjetas compatibles con Visa se pueden usar en línea en cualquier lugar donde Visa esté disponible.
GateNewshace3h
ChimpX AI recauda 2,8 millones de dólares en una ronda semilla liderada por Waterdrip Capital y MetaLabs Ventures
ChimpX AI anunció hoy el cierre de una ronda semilla de 2,8 millones de dólares para acelerar el desarrollo de Mojo AI, un agente de ejecución que convierte la intención en inglés sencillo en transacciones DeFi on-chain en Solana. La ronda estuvo liderada por Waterdrip
GateNewshace5h
El principal CEX lanza el protocolo de pagos mediante agentes el 29 de abril, habilitando transacciones entre cadenas impulsadas por IA
Según un anuncio reciente, un destacado exchange de criptomonedas presentó el Protocolo de Pagos de Agentes el 29 de abril, un estándar abierto que permite que los agentes de inteligencia artificial ejecuten transacciones comerciales completas en múltiples redes blockchain sin intervención humana. El protocolo
GateNewshace5h
Walrus lanza el SDK de MemWal para la memoria de agentes de IA
Walrus ha lanzado MemWal, un SDK diseñado para abordar las limitaciones en la memoria agentic mediante la incorporación de verificabilidad, disponibilidad, portabilidad y capacidad de compartirse en la forma en que los agentes de IA almacenan y acceden a la información, según Abinhav Garg, Product Manager de Mysten Labs Group.
Memoria verificable y portátil
CryptoFrontierhace6h