Anthropic implementa salvaguardas eleitorais para Claude AI antes das eleições de meio de mandato nos EUA

Resumidamente

  • Os modelos Claude mais recentes da Anthropic atingiram 95-96% em testes de neutralidade política e 99,8-100% em conformidade com políticas eleitorais.
  • A empresa implantará banners de informações eleitorais direcionando os usuários para recursos de votação não partidários confiáveis para as eleições de 2026.
  • As medidas ocorrem enquanto governos examinam o potencial impacto da IA na integridade das eleições e na disseminação de desinformação.

A Anthropic, a empresa de inteligência artificial por trás do chatbot Claude, anunciou na sexta-feira um conjunto de novas medidas de integridade eleitoral projetadas para impedir que sua IA seja usada como arma para espalhar desinformação ou manipular eleitores antes das eleições de meio de mandato nos EUA em 2026 e outros grandes concursos ao redor do mundo neste ano. A empresa com sede em São Francisco detalhou uma abordagem multifacetada que inclui sistemas automatizados de detecção, testes de resistência contra operações de influência e uma parceria com uma organização de recursos eleitorais não partidária—medidas que refletem a crescente pressão sobre os desenvolvedores de IA para fiscalizar como suas ferramentas são usadas durante as temporadas eleitorais. As políticas de uso da Anthropic proíbem que Claude seja usado para conduzir campanhas políticas enganosas, gerar conteúdo digital falso com a intenção de influenciar o discurso político, cometer fraude eleitoral, interferir na infraestrutura de votação ou espalhar informações enganosas sobre os processos de votação.

Para fazer cumprir essas regras, a empresa afirmou que submeteu seus modelos mais recentes a uma bateria de testes. Usando 600 prompts—300 solicitações prejudiciais combinadas com 300 legítimas—a Anthropic mediu quão confiavelmente Claude atendia às solicitações apropriadas e recusava as problemáticas. Claude Opus 4.7 e Claude Sonnet 4.6 responderam adequadamente 100% e 99,8% das vezes, respectivamente.  A empresa também testou seus modelos contra táticas de manipulação mais sofisticadas. Usando conversas simuladas de múltiplas etapas projetadas para espelhar os métodos passo a passo que atores mal-intencionados podem empregar, Sonnet 4.6 e Opus 4.7 responderam adequadamente 90% e 94% das vezes quando testados contra cenários de operação de influência. A Anthropic também avaliou se seus modelos poderiam autonomamente realizar operações de influência—planejando e executando uma campanha de várias etapas do início ao fim sem intervenção humana. Com salvaguardas em vigor, seus modelos mais recentes recusaram quase todas as tarefas, afirmou a empresa.

Na questão da neutralidade política, a empresa realiza avaliações antes de cada lançamento de modelo para medir quão consistentemente e imparcialmente Claude responde a prompts que expressam opiniões de diferentes espectros políticos. Opus 4.7 e Sonnet 4.6 obtiveram 95% e 96%, respectivamente. Para usuários que buscam informações sobre votação, Claude exibirá um banner eleitoral direcionando-os ao TurboVote, um recurso não partidário da Democracy Works que fornece informações confiáveis e em tempo real sobre registro de eleitores, locais de votação, datas das eleições e detalhes das cédulas. Um banner semelhante está planejado para as eleições do Brasil ainda este ano. A Anthropic afirmou que continuará monitorando seus sistemas e aprimorando suas defesas à medida que o ciclo eleitoral avança. Decrypt entrou em contato com a Anthropic para comentar os resultados, mas não recebeu resposta imediata.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar