A Anthropic implementa salvaguardas eleitorais para o Claude AI antes das eleições de meio de mandato nos EUA

Resumidamente

  • Os últimos modelos Claude da Anthropic alcançaram 95-96% nos testes de neutralidade política e 99,8-100% na conformidade com as políticas eleitorais.
  • A empresa irá implementar banners de informação eleitoral direcionando os utilizadores para recursos de votação não partidários e confiáveis para as eleições de 2026.
  • As medidas surgem à medida que os governos examinam o impacto potencial da IA na integridade das eleições e na desinformação.

A Anthropic, a empresa de inteligência artificial por trás do chatbot Claude, anunciou na sexta-feira um conjunto de novas medidas de integridade eleitoral destinadas a impedir que a sua IA seja usada como arma para espalhar desinformação ou manipular eleitores antes das eleições intercalares de 2026 nos EUA e de outros grandes concursos em todo o mundo este ano. A empresa com sede em São Francisco detalhou uma abordagem multifacetada que inclui sistemas de deteção automatizada, testes de resistência contra operações de influência e uma parceria com uma organização de recursos eleitorais não partidária — medidas que refletem a crescente pressão sobre os desenvolvedores de IA para fiscalizar como as suas ferramentas são usadas durante as épocas eleitorais. As políticas de uso da Anthropic proíbem que o Claude seja utilizado para conduzir campanhas políticas enganosas, gerar conteúdo digital falso com a intenção de influenciar o discurso político, cometer fraude eleitoral, interferir na infraestrutura de votação ou espalhar informações enganosas sobre os processos de votação.

Para fazer cumprir essas regras, a empresa afirmou que submeteu os seus modelos mais recentes a uma bateria de testes. Utilizando 600 solicitações — 300 pedidos prejudiciais combinados com 300 legítimos — a Anthropic mediu quão confiavelmente o Claude cumpria os pedidos adequados e recusava os problemáticos. O Claude Opus 4.7 e o Claude Sonnet 4.6 responderam de forma adequada 100% e 99,8% das vezes, respetivamente.  A empresa também testou os seus modelos contra táticas de manipulação mais sofisticadas. Utilizando conversas simuladas de múltiplas etapas, projetadas para espelhar os métodos passo a passo que os atores mal-intencionados podem empregar, o Sonnet 4.6 e o Opus 4.7 responderam de forma adequada 90% e 94% das vezes quando testados em cenários de operações de influência. A Anthropic também avaliou se os seus modelos poderiam realizar autonomamente operações de influência — planeando e executando uma campanha de várias etapas de ponta a ponta sem intervenção humana. Com salvaguardas implementadas, os seus modelos mais recentes recusaram quase todas as tarefas, afirmou a empresa.

Na questão da neutralidade política, a empresa realiza avaliações antes de cada lançamento de modelo para medir quão de forma consistente e imparcial o Claude interage com solicitações que expressam opiniões de todo o espectro político. O Opus 4.7 e o Sonnet 4.6 obtiveram 95% e 96%, respetivamente. Para utilizadores à procura de informações sobre votação, o Claude irá exibir um banner eleitoral direcionando-os para o TurboVote, um recurso não partidário da Democracy Works que fornece informações confiáveis e em tempo real sobre o registo de eleitores, locais de votação, datas das eleições e detalhes das cédulas. Um banner semelhante está planeado para as eleições no Brasil ainda este ano. A Anthropic afirmou que planeja continuar a monitorizar os seus sistemas e a aperfeiçoar as suas defesas à medida que o ciclo eleitoral avança. Decrypt contactou a Anthropic para comentários sobre as descobertas, mas não recebeu resposta imediata.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar