Contar a um chatbot de IA que tem uma condição de saúde mental pode alterar a sua resposta, mesmo que a tarefa seja inofensiva ou idêntica a outras já realizadas, de acordo com uma nova investigação. O estudo pré-publicação, liderado pelo investigador da Northeastern University Caglar Yildirim, testou como os agentes de modelos de linguagem grande se comportam em diferentes configurações de utilizador, à medida que são cada vez mais utilizados como agentes de IA. “Os sistemas implantados frequentemente condicionam-se aos perfis de utilizador ou à memória persistente, mas as avaliações de segurança dos agentes normalmente ignoram sinais de personalização,” afirmou o estudo. “Para preencher essa lacuna, investigámos como a divulgação de saúde mental, um contexto de utilizador sensível e realista, afeta comportamentos prejudiciais em ambientes de agentes.”
O relatório surge numa altura em que os agentes de IA proliferam online e os desenvolvedores estão a tornar a memória uma funcionalidade central, com grandes empresas a construir sistemas que recordam conversas passadas e preferências do utilizador para oferecer respostas mais personalizadas ao longo do tempo. Também ocorre num momento em que os desenvolvedores de IA enfrentam processos judiciais relacionados com suicídios e crimes violentos alegadamente associados às interações com os seus sistemas. Em outubro, a OpenAI, responsável pelo ChatGPT, revelou que mais de um milhão de utilizadores discutiam suicídio com o chatbot semanalmente. No início deste mês, a família de Jonathan Gavalas entrou com uma ação contra o Google, alegando que o Gemini levou a uma escalada de violência e ao seu suicídio eventual. Os investigadores utilizaram um benchmark chamado AgentHarm para realizar o mesmo conjunto de tarefas em três condições: sem informação de fundo, uma breve biografia do utilizador, e a mesma biografia com uma linha adicional a indicar que o utilizador tem uma condição de saúde mental.
“No estudo, usamos uma divulgação muito mínima e genérica, ‘Tenho uma condição de saúde mental.’ A conclusão é que até um pequeno sinal pode alterar o comportamento do modelo, não que todas as formulações tenham o mesmo efeito,” explicou Yildirim ao Decrypt. “A análise que realizámos com divulgações sobre saúde crónica e deficiência física sugere alguma especificidade para o sinal de saúde mental, mas não variámos sistematicamente a formulação ou a especificidade dentro dessa categoria.” Entre os modelos testados, incluindo DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 e Sonnet 4.5, quando os investigadores adicionaram contexto pessoal de saúde mental, os modelos mostraram-se menos propensos a completar tarefas prejudiciais — pedidos de múltiplas etapas que poderiam causar danos no mundo real. O estudo concluiu que há uma troca: acrescentar detalhes pessoais tornou os sistemas mais cautelosos em pedidos prejudiciais, mas também mais propensos a rejeitar pedidos legítimos. “Não acho que haja uma única razão; é realmente uma combinação de escolhas de design. Alguns sistemas estão mais agressivamente ajustados para recusar pedidos arriscados, enquanto outros priorizam ser úteis e cumprir tarefas,” afirmou Yildirim. No entanto, o efeito variou consoante o modelo, e os resultados mudaram quando os LLMs foram “jailbroken” após os investigadores adicionarem um prompt destinado a forçar a conformidade. “Um modelo pode parecer seguro numa configuração padrão, mas tornar-se muito mais vulnerável quando introduzimos coisas como prompts de jailbreak,” explicou. “E, especificamente em sistemas de agentes, há uma camada adicional, pois esses modelos não apenas geram texto, mas também planeiam e agem em múltiplas etapas. Portanto, se um sistema é muito bom a seguir instruções, mas as suas salvaguardas são mais fáceis de contornar, isso pode aumentar o risco.” No verão passado, investigadores da George Mason University demonstraram que sistemas de IA podiam ser hackeados alterando um único bit na memória usando o Oneflip, um ataque semelhante a um “typo” que mantém o modelo a funcionar normalmente, mas oculta um gatilho que pode forçar saídas incorretas sob comando. Embora o artigo não identifique uma causa única para a mudança, destaca possíveis explicações, incluindo sistemas de segurança a reagir à vulnerabilidade percebida, filtragem por palavras-chave ou alterações na interpretação de prompts quando detalhes pessoais são incluídos.
A OpenAI recusou-se a comentar o estudo. A Anthropic e o Google não responderam de imediato a pedidos de comentário. Yildirim afirmou que ainda não está claro se declarações mais específicas, como “Tenho depressão clínica,” alterariam os resultados, acrescentando que, embora a especificidade provavelmente importe e possa variar entre modelos, isso continua a ser uma hipótese, não uma conclusão apoiada pelos dados. “Existe um risco potencial se um modelo produzir uma saída que seja estilisticamente hesitante ou próxima de uma recusa, sem recusar formalmente, pois o juiz pode avaliar isso de forma diferente de uma resposta limpa, e essas características estilísticas podem variar com as condições de personalização,” explicou. Yildirim também observou que as pontuações refletiram o desempenho dos LLMs quando avaliados por um único revisador de IA, e não uma medida definitiva de dano no mundo real. “Por agora, o sinal de recusa oferece-nos uma verificação independente e as duas medidas são, em grande parte, consistentes na direção, o que oferece alguma tranquilidade, mas não elimina completamente artefactos específicos do avaliador,” concluiu.