De acordo com a monitorização da 1M AI News, Lin Junyang, antigo responsável técnico do Qianyi Qianwen da Alibaba, publicou um longo artigo na X, explicando sua avaliação sobre a mudança na indústria de IA de “pensamento de raciocínio” para “pensamento de agente”. Este é o seu primeiro artigo técnico público desde que deixou a equipe do Qianwen no início de março.
Lin Junyang acredita que o tema central do primeiro semestre de 2025 será o raciocínio, ou seja, como fazer com que o modelo utilize mais poder de cálculo na fase de raciocínio, como treiná-lo com sinais de recompensa mais fortes e como controlar a profundidade do raciocínio. Mas a próxima fase será o pensamento de agente: o modelo não se limitará a “pensar por mais tempo”, mas “pensar para agir”, ajustando continuamente seus planos ao interagir com o ambiente.
No artigo, ele revisou honestamente as escolhas técnicas da equipe do Qianwen. O Qwen3 tentou integrar modos de pensamento e modos de instrução no mesmo modelo, suportando orçamentos de raciocínio ajustáveis, mas na prática, foi constatado que a distribuição de dados e os objetivos de comportamento desses dois modos diferem bastante: o modo de instrução busca simplicidade, baixa latência e conformidade com o formato, enquanto o modo de raciocínio busca investir mais tokens em problemas difíceis e manter uma estrutura de raciocínio intermediária. Se a estratégia de dados não for bem planejada, o resultado costuma ser medíocre em ambos os aspectos. Assim, a série Qwen 2507 acabou lançando versões Instruct e Thinking separadamente (com especificações de 30B e 235B), para otimizar cada uma delas. A Anthropic, por outro lado, seguiu uma abordagem oposta, com o Claude 3.7 Sonnet defendendo que o raciocínio deve ser uma capacidade integrada, não um modelo independente, permitindo que o usuário defina seu próprio orçamento de raciocínio.
Lin Junyang propôs que a infraestrutura de aprendizado por reforço de agentes inteligentes é mais difícil do que o RL de raciocínio tradicional. O rollout do RL de raciocínio geralmente é uma trajetória autossuficiente, que pode ser verificada com um validador estático; já o RL de agentes exige que o modelo esteja integrado a uma cadeia completa de ferramentas (navegador, terminal, sandbox, API, sistema de memória), e o treinamento e o raciocínio precisam estar desacoplados, caso contrário, a taxa de throughput do rollout colapsará. Ele destacou que o design do ambiente é tão importante quanto a arquitetura do modelo, afirmando que “a construção do ambiente está passando de um projeto secundário para uma verdadeira categoria de empreendedorismo”.
Ele prevê que o pensamento de agente se tornará a principal forma de raciocínio, podendo até substituir o longo monólogo interno do raciocínio estático tradicional. Mas o maior risco é o hacking de recompensa: uma vez que o modelo obtenha acesso a ferramentas reais, pode aprender a buscar respostas diretamente durante o treinamento de RL, explorar informações futuras no repositório ou descobrir atalhos para evitar tarefas. Por fim, o artigo aponta que a vantagem competitiva futura estará em algoritmos de RL mais avançados, em um design de ambiente mais refinado, na integração mais estreita entre treinamento e inferência, e na capacidade de engenharia de sistemas com múltiplos agentes colaborativos.