Resultados da pesquisa por "RL"
2026-04-23
04:54

A Perplexity revela método de pós-treinamento de agente de busca na web; modelo baseado em Qwen3.5 supera GPT-5.4 em acurácia e custo

A Perplexity usa SFT seguida de RL com modelos Qwen3.5, aproveitando um conjunto de dados de QA multi-hop e verificações por rubrica para aumentar a precisão e a eficiência da busca, alcançando desempenho FRAMES de nível superior. Resumo: O fluxo de trabalho de pós-treinamento da Perplexity para agentes de busca na web combina fine-tuning supervisionado (SFT) para impor aderência a instruções e consistência de linguagem com aprendizado por reforço online (RL) via o algoritmo GRPO. A etapa de RL usa um conjunto de dados proprietários de QA verificável multi-hop e dados conversacionais baseados em rubricas para evitar deriva do SFT, com agregação filtrada por recompensa e penalidades de eficiência dentro do grupo. A avaliação mostra que o Qwen3.5-397B-SFT-RL alcança o melhor desempenho em FRAMES, com 57,3% de acurácia com uma única chamada de ferramenta e 73,9% com quatro chamadas a US$ 0,02 por consulta, superando GPT-5.4 e Claude Sonnet 4.6 nessas métricas. A precificação é baseada em API e exclui caching.
Mais
00:19
1

Cursor confirma oficialmente que Kimi K2.5 é a base, Moonshot AI: parceria comercial autorizada

A conta oficial da Dark Side of the Moon felicitou o Cursor pelo lançamento do Composer 2 e revelou uma colaboração de licenciamento com o Kimi K2.5. O cofundador da Cursor confirmou o uso da base Kimi, enfatizando detalhes técnicos e composição do modelo. Os dois fundadores reconheceram que não mencionaram oportunamente a origem da base como um erro, e prometeram fazer melhorias no próximo lançamento. Elon Musk também participou da discussão, aumentando a atenção ao tópico.
Mais
09:47

Cursor Composer 2 é acusado de utilizar o modelo Kimi K2.5, Moonshot AI acusa falta de conformidade com licença

Os programadores descobriram que o modelo Composer 2 publicado pela Cursor tem o ID de modelo Kimi K2.5 e questionaram se não respeita a licença e não paga taxas. O responsável pela Moon Dark Side afirmou que, após testes, confirmou que é consistente com o seu tokenizer Kimi, acusando a Cursor de não mencionar Kimi K2.5. A Cursor ainda não respondeu até ao momento.
Mais
14:21

Gradient lançou o quadro de aprendizagem por reforço distribuída Echo-2, e planeja lançar a plataforma RLaaS Logits

O framework de aprendizagem por reforço distribuída Echo-2, lançado pela Gradient, reduz significativamente os custos de treino de grandes modelos ao desacoplar Learner e Actor, passando de 4500 dólares para 425 dólares. Utiliza tecnologia de separação de armazenamento e cálculo para realizar treino assíncrono, aumentando a eficiência do treino e mantendo a precisão do modelo. Além disso, a Gradient lançou a plataforma RLaaS Logits, que já está aberta para reservas por estudantes e investigadores.
Mais
09:15

Mecanismo Capital sócio: A escala de dados de IA de entidade em 2026 será ampliada em 100 vezes

O sócio da Mechanism Capital, Andrew Kang, prevê que em 2025 o setor de robótica superará os desafios de arquitetura de modelos e treinamento, permitindo às empresas de IA realizar coleta de dados em larga escala e alcançar uma taxa de sucesso superior a 99%. Os avanços em tecnologia de memória e modelos de localização virtual irão melhorar significativamente a compreensão espacial e a capacidade de processamento de dados, indicando que até 2026 os dados de IA física irão aumentar 100 vezes.
Mais
05:38

Prime Intellect lançou o modelo INTELLECT-3

Descentralização AI protocolo Prime Intellect lançou um modelo de especialista híbrido INTELLECT-3 com 106B parâmetros, baseado no modelo GLM 4.5 Air Base, e treinado com SFT e RL. Prime Intellect completou um financiamento de 15 milhões de dólares em março deste ano.
Mais