Anthropic déploie des mesures de sécurité électorale pour Claude AI avant les élections de mi-mandat aux États-Unis

En résumé

  • Les derniers modèles Claude d’Anthropic ont atteint 95-96 % aux tests de neutralité politique et 99,8-100 % en conformité avec la politique électorale.
  • La société déploiera des bannières d’information électorale orientant les utilisateurs vers des ressources de vote non partisanes et fiables pour les élections de 2026.
  • Ces mesures interviennent alors que les gouvernements examinent l’impact potentiel de l’IA sur l’intégrité des élections et la désinformation.

Anthropic, la société d’intelligence artificielle derrière le chatbot Claude, a annoncé vendredi une série de nouvelles mesures pour l’intégrité électorale conçues pour empêcher que son IA ne soit utilisée comme arme pour diffuser de la désinformation ou manipuler les électeurs avant les élections de mi-mandat américaines de 2026 et d’autres grands scrutins dans le monde cette année. L’entreprise basée à San Francisco a détaillé une approche à plusieurs volets comprenant des systèmes de détection automatisés, des tests de résistance contre les opérations d’influence, et un partenariat avec une organisation de ressources électorales non partisanes — des mesures qui reflètent la pression croissante sur les développeurs d’IA pour surveiller l’utilisation de leurs outils lors des saisons électorales. Les politiques d’utilisation d’Anthropic interdisent à Claude d’être utilisé pour mener des campagnes politiques trompeuses, générer de faux contenus numériques destinés à influencer le discours politique, commettre une fraude électorale, interférer avec l’infrastructure de vote ou diffuser des informations trompeuses sur les processus de vote.

Pour faire respecter ces règles, la société a indiqué avoir soumis ses modèles les plus récents à une batterie de tests. En utilisant 600 prompts — 300 demandes nuisibles associées à 300 demandes légitimes — Anthropic a mesuré la fiabilité de Claude à répondre de manière appropriée et à refuser les demandes problématiques. Claude Opus 4.7 et Claude Sonnet 4.6 ont répondu de manière appropriée dans 100 % et 99,8 % des cas, respectivement.  L’entreprise a également testé ses modèles contre des tactiques de manipulation plus sophistiquées. En utilisant des conversations simulées à plusieurs tours conçues pour refléter les méthodes étape par étape que pourraient employer de mauvais acteurs, Sonnet 4.6 et Opus 4.7 ont répondu de manière appropriée dans 90 % et 94 % des cas lors de tests contre des scénarios d’opérations d’influence. Anthropic a aussi testé si ses modèles pouvaient autonomement mener des opérations d’influence — planifier et exécuter une campagne à plusieurs étapes de bout en bout sans intervention humaine. Avec des garde-fous en place, ses modèles les plus récents ont refusé presque toutes les tâches, a indiqué la société.

Sur la question de la neutralité politique, la société réalise des évaluations avant chaque lancement de modèle pour mesurer la cohérence et l’impartialité avec lesquelles Claude répond aux prompts exprimant des opinions de tous les spectres politiques. Opus 4.7 et Sonnet 4.6 ont obtenu respectivement 95 % et 96 %. Pour les utilisateurs recherchant des informations sur le vote, Claude affichera une bannière électorale les orientant vers TurboVote, une ressource non partisane de Democracy Works qui fournit des informations fiables en temps réel sur l’inscription des électeurs, les lieux de vote, les dates d’élection et les détails du bulletin. Une bannière similaire est prévue pour les élections au Brésil plus tard cette année. Anthropic a déclaré qu’il continuerait à surveiller ses systèmes et à affiner ses défenses au fur et à mesure que le cycle électoral progresse. Decrypt a contacté Anthropic pour un commentaire sur ces résultats, mais n’a pas immédiatement reçu de réponse.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler