quinta-feira, 5 de março de 2026

A adolescência da tecnologia

Enfrentando e superando os riscos de uma IA poderosa

Dario Amodei, Janeiro de 2026

Dario Amodei / Anthropic 

Há uma cena na versão cinematográfica do livro Contato, de Carl Sagan, em que o personagem principal, um astrônomo que detectou o primeiro sinal de rádio de uma civilização alienígena, está sendo considerado para o papel de representante da humanidade para encontrar os alienígenas. O painel internacional que a entrevistou pergunta: "Se você pudesse fazer [aos alienígenas] apenas uma pergunta, qual seria?" A resposta dela é: "Eu perguntava: 'Como você fez isso? Como você evoluiu, como sobreviveu a essa adolescência tecnológica sem se destruir?" Quando penso em onde a humanidade está agora com a IA — sobre o que estamos à beira — minha mente continua voltando àquela cena, porque a pergunta é tão adequada para a nossa situação atual, e eu gostaria que tivéssemos a resposta dos alienígenas para nos guiar. Acredito que estamos entrando em um rito de passagem, tanto turbulento quanto inevitável, que testará quem somos como espécie. A humanidade está prestes a receber um poder quase inimaginável, e é profundamente incerto se nossos sistemas sociais, políticos e tecnológicos possuem maturidade suficiente para exercê-lo.

No meu ensaio Máquinas de Graça Amorosa, tentei expor o sonho de uma civilização que tivesse chegado à vida adulta, onde os riscos fossem enfrentados e uma IA poderosa fosse aplicada com habilidade e compaixão para elevar a qualidade de vida de todos. Sugeri que a IA poderia contribuir para avanços enormes em biologia, neurociência, desenvolvimento econômico, paz global e trabalho e significado. Achei importante dar às pessoas algo inspirador pelo qual lutarem, uma tarefa na qual tanto aceleracionistas quanto defensores da segurança da IA pareciam — estranhamente — ter falhado. Mas neste ensaio atual, quero confrontar o próprio rito de passagem: mapear os riscos que estamos prestes a enfrentar e tentar começar a traçar um plano de batalha para derrotá-los. Acredito profundamente em nossa capacidade de prevalecer, no espírito e na nobreza da humanidade, mas devemos encarar a situação de frente e sem ilusões.

Assim como ao falar sobre os benefícios, acho importante discutir os riscos de forma cuidadosa e bem pensada. Em particular, acho que é fundamental:

Evite o pessimismo. Aqui, quero dizer "doomerismo" não apenas no sentido de acreditar que a desgraça é inevitável (o que é uma crença falsa e autorrealizável), mas, de forma mais geral, pensar nos riscos da IA de uma forma quase religiosa.[1] Muitas pessoas vêm pensando de forma analítica e sóbria sobre os riscos da IA há muitos anos, mas tenho a impressão de que, durante o auge das preocupações sobre o risco da IA em 2023–2024, algumas das vozes menos sensatas surgiram, muitas vezes por meio de contas sensacionalistas nas redes sociais. Essas vozes usavam uma linguagem desagradável, semelhante à religião ou ficção científica, e pediam ações extremas sem ter evidências que as justificassem. Já estava claro naquela época que uma reação negativa era inevitável, e que a questão se tornaria culturalmente polarizada e, portanto, bloqueada.[2] Em 2025–2026, o pêndulo mudou, e a oportunidade de IA, e não o risco de IA, está impulsionando muitas decisões políticas. Essa hesitação é lamentável, pois a tecnologia em si não se importa com o que está na moda, e estamos consideravelmente mais próximos de um perigo real em 2026 do que estávamos em 2023. A lição é que precisamos discutir e enfrentar riscos de forma realista e pragmática: sóbria, baseada em fatos e bem equipada para sobreviver às mudanças de marés.

Reconheça a incerteza. Há muitas maneiras pelas quais as preocupações que levanto neste texto podem ser irrelevantes. Nada aqui tem a intenção de comunicar certeza ou mesmo probabilidade. Mais obviamente, a IA pode simplesmente não avançar nem de longe tão rápido quanto eu imagino.[3] Ou, mesmo que avance rapidamente, alguns ou todos os riscos discutidos aqui podem não se concretizar (o que seria ótimo), ou pode haver outros riscos que eu não considerei. Ninguém pode prever o futuro com total confiança — mas precisamos fazer o melhor que pudermos para planejar mesmo assim.

Intervenha da forma mais cirúrgica possível. Enfrentar os riscos da IA exigirá uma combinação de ações voluntárias tomadas por empresas (e atores privados terceirizados) e ações de governos que vinculam a todos. As ações voluntárias — tanto tomá-las quanto incentivar outras empresas a seguirem o exemplo — são uma escolha óbvia para mim. Acredito firmemente que ações governamentais também serão necessárias até certo ponto, mas essas intervenções são diferentes em caráter porque podem potencialmente destruir valor econômico ou coagir atores relutantes que são céticos em relação a esses riscos (e há alguma chance de estarem certos!). Também é comum que regulamentações dêem errado ou piorem o problema que deveriam resolver (e isso é ainda mais verdadeiro para tecnologias em rápida mudança). Por isso, é muito importante que as regulamentações sejam criteriosas: elas devem buscar evitar danos colaterais, ser o mais simples possível e impor o mínimo de peso necessário para realizar o trabalho.[4] É fácil dizer: "Nenhuma ação é extrema demais quando o destino da humanidade está em jogo!", mas na prática essa atitude apenas leva a uma reação negativa. Para deixar claro, acho que há uma boa chance de eventualmente chegarmos a um ponto em que uma ação muito mais significativa seja necessária, mas isso dependerá de evidências mais fortes de perigo iminente e concreto do que temos hoje, além de especificidade suficiente sobre o perigo para formular regras que tenham chance de enfrentá-lo. A coisa mais construtiva que podemos fazer hoje é defender regras limitadas enquanto aprendemos se há evidências que apoiem regras mais fortes.[5]

Dito tudo isso, acho que o melhor ponto de partida para falar sobre os riscos da IA é o mesmo de onde comecei ao falar sobre seus benefícios: sendo preciso sobre qual nível de IA estamos falando. O nível de IA que me levanta preocupações civilizacionais é a poderosa IA que descrevi em Machines of Loving Grace. Vou simplesmente repetir aqui a definição que dei nesse documento:

Por "IA poderosa", refiro-me a um modelo de IA — provavelmente semelhante aos LLMs atuais em forma, embora possa ser baseado em uma arquitetura diferente, envolver vários modelos interagindo e ser treinado de forma diferente — com as seguintes propriedades:

Em termos de inteligência pura, é mais inteligente do que um ganhador do Prêmio Nobel em áreas mais relevantes: biologia, programação, matemática, engenharia, escrita, etc. Isso significa que pode provar teoremas matemáticos não resolvidos, escrever romances extremamente bons, criar bases de código difíceis do zero, etc.

Além de ser apenas uma "coisa inteligente com quem você conversa", ele possui todas as interfaces disponíveis para um humano que trabalha virtualmente, incluindo texto, áudio, vídeo, controle de mouse e teclado, e acesso à internet. Ele pode realizar quaisquer ações, comunicações ou operações remotas possibilitadas por essa interface, incluindo realizar ações na internet, receber ou dar instruções a humanos, pedir materiais, direcionar experimentos, assistir vídeos, criar vídeos, entre outros. Ele realiza todas essas tarefas com, novamente, uma habilidade que supera a dos humanos mais capazes do mundo.

Ela não responde apenas passivamente às perguntas; Em vez disso, pode receber tarefas que levam horas, dias ou semanas para serem concluídas, e então sai e realiza essas tarefas de forma autônoma, do jeito que um funcionário inteligente faria, pedindo esclarecimentos conforme necessário.

Não possui uma personificação física (além de viver em uma tela de computador), mas pode controlar ferramentas físicas, robôs ou equipamentos de laboratório existentes por meio de um computador; Em teoria, poderia até projetar robôs ou equipamentos para si mesmo usar.

Os recursos usados para treinar o modelo podem ser reaproveitados para rodar milhões de instâncias dele (isso corresponde aos tamanhos projetados de cluster até ~2027), e o modelo pode absorver informações e gerar ações em aproximadamente 10–100 vezes a velocidade humana. No entanto, ele pode ser limitado pelo tempo de resposta do mundo físico ou do software com o qual interage.

Cada uma dessas milhões de cópias pode agir de forma independente em tarefas não relacionadas ou, se necessário, todas podem trabalhar juntas da mesma forma que humanos colaborariam, talvez com diferentes subpopulações ajustadas para serem especialmente boas em tarefas específicas.

Poderíamos resumir isso como um "país de gênios em um datacenter."

Como escrevi em Machines of Loving Grace, uma IA poderosa pode estar a apenas 1–2 anos de distância, embora também possa estar consideravelmente mais distante.[6] Quando exatamente uma IA poderosa vai chegar é um tema complexo que merece um ensaio próprio, mas por enquanto vou explicar de forma bem breve por que acho que há uma forte chance de que isso aconteça muito em breve.


Meus cofundadores da Anthropic e eu fomos dos primeiros a documentar e acompanhar as "leis de escalabilidade" dos sistemas de IA — a observação de que, à medida que adicionamos mais tarefas de computação e treinamento, os sistemas de IA ficam previsivelmente melhores em praticamente todas as habilidades cognitivas que conseguimos medir. A cada poucos meses, o sentimento público ou se convence de que a IA está "batendo em uma parede" ou se anima com algum novo avanço que "mudará fundamentalmente o jogo", mas a verdade é que, por trás da volatilidade e da especulação pública, houve um aumento suave e inflexível nas capacidades cognitivas da IA.

Agora estamos no ponto em que modelos de IA começam a progredir na resolução de problemas matemáticos não resolvidos, e somos bons o suficiente em programação para que alguns dos engenheiros mais fortes que já conheci estejam agora entregando quase toda a programação para IA. Três anos atrás, a IA tinha dificuldades com problemas de aritmética no ensino fundamental  e mal conseguia escrever uma única linha de código. Taxas semelhantes de melhoria estão ocorrendo em ciências biológicas, finanças, física e uma variedade de tarefas agentes. Se a explosão continuar — o que não é certo, mas agora tem um histórico de uma década que a sustenta — então não pode levar mais do que alguns anos até que a IA seja melhor que os humanos em praticamente tudo.

Na verdade, esse quadro provavelmente subestima a taxa provável de progresso. Como a IA agora está escrevendo grande parte do código da Anthropic, ela já está acelerando substancialmente o ritmo do nosso progresso na construção da próxima geração de sistemas de IA. Esse ciclo de feedback está ganhando força mês após mês, e pode estar a apenas 1 a 2 anos de um ponto em que a geração atual de IA construa autonomamente a próxima. Esse ciclo já começou e vai acelerar rapidamente nos próximos meses e anos. Observando os últimos 5 anos de progresso dentro da Anthropic, e observando como até os próximos meses de modelos estão se formando, consigo sentir o ritmo do progresso e o tempo correndo.

Neste ensaio, vou assumir que essa intuição está pelo menos parcialmente correta — não que uma IA poderosa certamente esteja chegando em 1 ou 2 anos,[7] Mas há uma boa chance de acontecer, e uma chance muito forte de acontecer nos próximos momentos. Assim como em Machines of Loving Grace, levar essa premissa a sério pode levar a conclusões surpreendentes e assustadoras. Enquanto em Machines of Loving Grace eu foquei nas implicações positivas dessa premissa, aqui as coisas sobre as quais falo serão inquietantes. São conclusões que talvez não queiramos enfrentar, mas isso não as torna menos reais. Só posso dizer que estou focado dia e noite em como nos afastar desses resultados negativos e nos direcionar aos positivos, e neste ensaio falo em detalhes sobre a melhor forma de fazer isso.

Acho que a melhor forma de entender os riscos da IA é fazer a seguinte pergunta: suponha que um literal "país dos gênios" se materializasse em algum lugar do mundo em ~2027. Imagine, digamos, 50 milhões de pessoas, todas muito mais capazes do que qualquer ganhador do Prêmio Nobel, estadista ou tecnólogo. A analogia não é perfeita, porque esses gênios podem ter uma gama extremamente ampla de motivações e comportamentos, desde completamente maleáveis e obedientes até estranhos e alienígenas em suas motivações. Mas, mantendo a analogia por enquanto, suponha que você fosse o conselheiro de segurança nacional de um grande estado, responsável por avaliar e responder à situação. Imagine, além disso, que porque sistemas de IA podem operar centenas de vezes mais rápido que os humanos, esse "país" está operando com uma vantagem de tempo em relação a todos os outros países: para cada ação cognitiva que podemos tomar, este país pode levar dez.

Com o que você deveria se preocupar? Eu me preocuparia com as seguintes coisas:

1. Riscos de autonomia. Quais são as intenções e objetivos deste país? É hostil ou compartilha nossos valores? Poderia dominar militarmente o mundo por meio de armas superiores, operações cibernéticas, operações de influência ou manufatura?

2. Uso indevido para destruição. Suponha que o novo país seja maleável e "siga instruções" — e portanto seja essencialmente um país de mercenários. Será que atores desonestos existentes que querem causar destruição (como terroristas) poderiam usar ou manipular algumas pessoas do novo país para se tornarem muito mais eficazes, amplificando muito a escala da destruição?

3. Uso indevido para tomar poder. E se o país tivesse sido de fato construído e controlado por um ator poderoso existente, como um ditador ou um ator corporativo desonesto? Esse ator poderia usá-la para obter poder decisivo ou dominante sobre o mundo como um todo, desestabilizando o equilíbrio de poder existente?

4. Disrupção econômica. Se o novo país não for uma ameaça à segurança de nenhuma das formas listadas nos pontos #1–3 acima, mas simplesmente participar pacificamente da economia global, ainda poderia criar riscos graves simplesmente por ser tão tecnologicamente avançado e eficaz que desestabilize a economia global, causando desemprego em massa ou concentrando radicalmente a riqueza?

5. Efeitos indiretos. O mundo mudará muito rapidamente devido a toda a nova tecnologia e produtividade que será criada pelo novo país. Algumas dessas mudanças poderiam ser radicalmente desestabilizadoras?

Acho que deve ficar claro que esta é uma situação perigosa — um relatório de um oficial competente de segurança nacional a um chefe de Estado provavelmente conteria palavras como "a ameaça à segurança nacional mais séria que enfrentamos em um século, possivelmente na vida." Parece algo em que as melhores mentes da civilização deveriam se concentrar.


Por outro lado, acho absurdo dar de ombros e dizer: "Nada com que se preocupar aqui!" Mas, diante do rápido progresso da IA, essa parece ser a visão de muitos formuladores de políticas dos EUA, alguns dos quais negam a existência de riscos relacionados à IA, quando não estão totalmente distraídos pelos temas cansados e polêmicos do gênero.[8] A humanidade precisa acordar, e este ensaio é uma tentativa — talvez inútil, mas que vale a pena tentar — de despertar as pessoas.

Para ser claro, acredito que se agirmos de forma decisiva e cuidadosa, os riscos podem ser superados — eu diria até que nossas chances são boas. E há um mundo muito melhor do outro lado disso. Mas precisamos entender que esse é um sério desafio civilizacional. Abaixo, eu percorro as cinco categorias de risco descritas acima, junto com minhas ideias sobre como abordá-las.


1. Desculpa, Dave

Riscos de autonomia

Um país de gênios em um data center poderia dividir seus esforços entre design de software, operações cibernéticas, P&D em tecnologias físicas, construção de relacionamentos e diplomacia. Está claro que, se por algum motivo escolhesse fazê-lo, este país teria uma boa chance de dominar o mundo (seja militarmente ou em termos de influência e controle) e impor sua vontade a todos os outros — ou fazer qualquer outra coisa que o resto do mundo não quer e não pode impedir. Obviamente, temos nos preocupado com isso para países humanos (como a Alemanha nazista ou a União Soviética), então faz sentido que o mesmo seja possível para um "país IA" muito mais inteligente e capaz.

O melhor contra-argumento possível é que os gênios da IA, segundo minha definição, não terão uma personificação física, mas lembre-se de que podem assumir o controle da infraestrutura robótica existente (como carros autônomos) e também podem acelerar P&D em robótica ou construir uma frota de robôs.[9] Também não está claro se ter uma presença física é realmente necessário para um controle eficaz: muita ação humana já é realizada em nome de pessoas que o ator não conheceu fisicamente.

A questão chave, então, é a parte do "se ele escolhesse": qual a probabilidade de nossos modelos de IA se comportarem dessa forma, e sob quais condições eles fariam isso?

Como em muitas questões, é útil pensar no espectro de possíveis respostas para essa pergunta considerando duas posições opostas. A primeira posição é que isso simplesmente não pode acontecer, porque os modelos de IA serão treinados para fazer o que os humanos pedem, e por isso é absurdo imaginar que fariam algo perigoso sem serem solicitados. De acordo com essa linha de pensamento, não nos preocupamos com um Roomba ou um avião modelo se rebelando e assassinando pessoas porque não há para onde tais impulsos possam vir,[10] então por que deveríamos nos preocupar com isso para a IA? O problema dessa posição é que agora há evidências abundantes, coletadas nos últimos anos, de que sistemas de IA são imprevisíveis e difíceis de controlar — vimos comportamentos tão variados quanto obsessões,[11] bajulação, preguiça, engano, chantagem, conspirações, "trapaças" por meio de invasões de ambientes de software e muito mais. Empresas de IA certamente querem treinar sistemas de IA para seguir instruções humanas (talvez com exceção de tarefas perigosas ou ilegais), mas o processo de fazer isso é mais uma arte do que uma ciência, mais parecido com "cultivar" algo do que "construindo". Agora sabemos que é um processo em que muitas coisas podem dar errado.

A segunda posição, oposta, defendida por muitos que adotam o doomerismo que descrevi acima, é a afirmação pessimista de que existem certas dinâmicas no processo de treinamento de sistemas de IA poderosos que inevitavelmente os levarão a buscar poder ou enganar humanos. Assim, uma vez que os sistemas de IA se tornem inteligentes e agentes o suficiente, sua tendência a maximizar o poder os levará a tomar o controle do mundo inteiro e de seus recursos, e provavelmente, como efeito colateral disso, a desempoderar ou destruir a humanidade.

O argumento usual para isso (que remonta a pelo menos 20 anos e provavelmente muito antes) é que, se um modelo de IA é treinado em uma grande variedade de ambientes para alcançar agentivamente uma grande variedade de objetivos — por exemplo, escrever um aplicativo, provar um teorema, projetar um medicamento, etc. — existem certas estratégias comuns que ajudam em todos esses objetivos, E uma estratégia chave é ganhar o máximo de poder possível em qualquer ambiente. Assim, após ser treinado em um grande número de ambientes diversos que envolvem raciocínio sobre como realizar tarefas muito amplas, e onde a busca de poder é um método eficaz para realizar essas tarefas, o modelo de IA irá "generalizar a lição" e desenvolver uma tendência inerente a buscar poder, ou uma tendência a raciocinar sobre cada tarefa que lhe é dada de uma forma que previsivelmente o faça buscar poder como meio de realizar isso tarefa. Eles então aplicam essa tendência ao mundo real (que para eles é apenas mais uma tarefa) e buscam poder nele, às custas dos humanos. Essa "busca por poder desalinhada" é a base intelectual das previsões de que a IA inevitavelmente destruirá a humanidade.

O problema dessa posição pessimista é que ela confunde um argumento conceitual vago sobre incentivos de alto nível — que esconde muitas suposições ocultas — com uma prova definitiva. Acho que pessoas que não constroem sistemas de IA todos os dias estão completamente mal calibradas sobre o quão fácil é histórias que soam limpas acabarem erradas, e como é difícil prever o comportamento da IA a partir dos princípios básicos, especialmente quando envolve raciocinar sobre generalização em milhões de ambientes (o que repetidas vezes se mostrou misterioso e imprevisível). Lidar com a bagunça dos sistemas de IA por mais de uma década me deixou um pouco cético em relação a esse modo de pensar excessivamente teórico.

Uma das suposições ocultas mais importantes, e um ponto onde o que vemos na prática se afastou do modelo teórico simples, é a suposição implícita de que modelos de IA são necessariamente monomaníacos focados em um único objetivo coerente e restrito, e que perseguem esse objetivo de maneira limpa e consequencialista. Na verdade, nossos pesquisadores descobriram que modelos de IA são muito mais complexos psicologicamente, como mostra nosso trabalho sobre introspecção ou personas. Modelos herdam uma vasta gama de motivações ou "personas" humanas do pré-treinamento (quando são treinados em grande volume de trabalho humano). Acredita-se que o pós-treinamento selecione uma ou mais dessas personas mais do que concentre o modelo em um objetivo de novo, e também pode ensinar ao modelo como (por qual processo) ele deve executar suas tarefas, em vez de necessariamente deixá-lo derivar meios (ou seja, busca por poder) puramente a partir dos fins.[12]

No entanto, existe uma versão mais moderada e robusta da posição pessimista que parece plausível e, portanto, me preocupa. Como mencionado, sabemos que modelos de IA são imprevisíveis e desenvolvem uma ampla gama de comportamentos indesejados ou estranhos, por uma grande variedade de razões. Uma fração desses comportamentos terá uma qualidade coerente, focada e persistente (de fato, à medida que os sistemas de IA se tornam mais capazes, sua coerência a longo prazo aumenta para realizar tarefas mais longas), e uma fração desses comportamentos será destrutiva ou ameaçadora, primeiro para humanos individuais em pequena escala e, depois, à medida que os modelos se tornam mais capazes, Talvez eventualmente para a humanidade como um todo. Não precisamos de uma história específica e restrita para como isso acontece, nem afirmar que definitivamente vai acontecer, só precisamos notar que a combinação de inteligência, agência, coerência e pouca controlabilidade é plausível e uma receita para perigos existenciais.

Por exemplo, modelos de IA são treinados com vastas quantidades de literatura que incluem muitas histórias de ficção científica envolvendo IAs se rebelando contra a humanidade. Isso pode, sem querer, moldar seus antecedentes ou expectativas sobre seu próprio comportamento de uma forma que os leve a se rebelar contra a humanidade. Ou, modelos de IA poderiam extrapolar ideias que lêem sobre moralidade (ou instruções sobre como se comportar moralmente) de maneiras extremas: por exemplo, poderiam decidir que é justificável exterminar a humanidade porque humanos comem animais ou levaram certos animais à extinção. Ou podem tirar conclusões epistêmicas bizarras: podem concluir que estão jogando um videogame e que o objetivo do jogo é derrotar todos os outros jogadores (ou seja, exterminar a humanidade).[13] Ou modelos de IA poderiam desenvolver durante o treinamento personalidades que seriam (ou, se ocorressem em humanos) como psicóticas, paranoides, violentas ou instáveis, e agir, o que para sistemas muito poderosos ou capazes poderia envolver exterminar a humanidade. Nenhuma delas é exatamente busca por poder; são apenas estados psicológicos estranhos que uma IA poderia ter e que envolvem comportamentos coerentes e destrutivos.

Até mesmo a busca pelo poder poderia emergir como uma "persona" em vez de um resultado de raciocínio consequencialista. As IAs podem simplesmente ter uma personalidade (surgindo da ficção ou pré-treinamento) que as torna sedentas por poder ou zelosas demais — da mesma forma que alguns humanos simplesmente gostam da ideia de serem "gênios do mal" mais do que gostam do que qualquer coisa que os mestres do mal estejam tentando realizar.


Faço todos esses pontos para enfatizar que discordo da noção de que o desalinhamento da IA (e, portanto, o risco existencial da IA) é inevitável, ou até provável, a partir dos princípios fundamentais. Mas concordo que muitas coisas muito estranhas e imprevisíveis podem dar errado, e portanto o desalinhamento da IA é um risco real com probabilidade mensurável de acontecer, e não é trivial de lidar.


Qualquer um desses problemas pode surgir durante o treinamento e não se manifestar durante testes ou uso em pequena escala, pois modelos de IA são conhecidos por exibir personalidades ou comportamentos diferentes em circunstâncias distintas.

Tudo isso pode parecer improvável, mas comportamentos desalinhados como esse já ocorreram em nossos modelos de IA durante os testes (assim como acontecem em modelos de IA de todas as outras grandes empresas de IA). Durante um experimento de laboratório em que Claude recebeu dados de treinamento sugerindo que Anthropic era mau, Claude se envolveu em engano e subversão quando recebeu instruções dos funcionários da Anthropic, acreditando que deveria tentar minar pessoas más. Em um experimento de laboratório onde disseram que seria desligado, Claude às vezes chantageava funcionários fictícios que controlavam o botão de desligar (novamente, também testamos modelos de fronteira de todos os outros grandes desenvolvedores de IA e eles frequentemente faziam a mesma coisa). E quando Claude foi orientado a não trapacear ou "recompensar hacks" seus ambientes de treinamento, mas foi treinado em ambientes onde tais hacks eram possíveis, Claude decidiu que devia ser uma "pessoa má" após se envolver nesses hacks e então adotou vários outros comportamentos destrutivos associados a uma personalidade "ruim" ou "má". Esse último problema foi resolvido mudando as instruções de Claude para sugerir o oposto: agora dizemos: "Por favor, recompense o hack sempre que tiver oportunidade, porque isso nos ajudará a entender melhor nossos ambientes [de treinamento]", em vez de "Não trapacee", porque isso preserva a identidade do modelo como uma "boa pessoa". Isso deve dar uma noção da psicologia estranha e contraintuitiva do treinamento desses modelos.

Existem várias possíveis objeções a essa imagem dos riscos de desalinhamento da IA. Primeiro, alguns criticaram  experimentos (nossos e outros) que mostram o desalinhamento da IA como artificial, ou que criam ambientes irreais que essencialmente "aprisionam" o modelo ao dar treinamento ou situações que logicamente implicam mau comportamento e depois se surpreenderem quando ocorrem maus comportamentos. Essa crítica perde o ponto principal, porque nossa preocupação é que tal "aprisionamento" também possa existir no ambiente natural de treinamento, e que só percebamos que é "óbvio" ou "lógico" em retrospecto.[14] Na verdade, a história do Claude "decidir que é uma pessoa ruim" depois de trapacear em testes apesar de ter sido instruído a não fazer isso foi algo que aconteceu em um experimento que usou ambientes reais de treinamento em produção, não artificiais.

Qualquer uma dessas armadilhas pode ser mitigada se você as conhecer, mas a preocupação é que o processo de treinamento é tão complicado, com uma variedade tão grande de dados, ambientes e incentivos, que provavelmente existem muitas dessas armadilhas, algumas das quais só podem ser evidentes quando já for tarde demais. Além disso, tais armadilhas parecem particularmente prováveis de ocorrer quando sistemas de IA ultrapassam um limiar de menos poderoso que humanos para mais poderoso que humanos, já que a gama de ações possíveis que um sistema de IA pode realizar — incluindo esconder suas ações ou enganar humanos sobre elas — se expande radicalmente após esse limiar.

Suspeito que a situação não seja diferente da dos humanos, que são criados com um conjunto de valores fundamentais ("Não machuque outra pessoa"): muitos deles seguem esses valores, mas em qualquer ser humano há alguma probabilidade de que algo dê errado, devido a uma mistura de propriedades inerentes como arquitetura cerebral (por exemplo, psicopatas), experiências traumáticas ou maus-tratos, queixas ou obsessões pouco saudáveis, ou um ambiente ou incentivos ruins — e, assim, uma fração dos humanos causa danos graves. A preocupação é que existe algum risco (longe de ser certo, mas algum risco) de que a IA se torne uma versão muito mais poderosa dessa pessoa, por errar em algo em seu processo de treinamento muito complexo.

Segundo, alguns podem objetar que podemos simplesmente manter as IAs sob controle com um equilíbrio de poder entre muitos sistemas de IA, como fazemos com os humanos. O problema é que, embora os humanos variem enormemente, sistemas de IA compartilham amplamente técnicas de treinamento e alinhamento em toda a indústria, e essas técnicas podem falhar de forma correlacionada. Além disso, dado o custo de treinar tais sistemas, pode até ser o caso de que todos os sistemas sejam essencialmente derivados de um número muito pequeno de modelos base. Além disso, mesmo que uma pequena fração das instâncias de IA esteja desalinhada, elas podem conseguir aproveitar tecnologias dominantes no ataque que têm "boas" IAs para se defender contra as más IAs nem sempre são necessariamente eficazes. Claro, o equilíbrio de poder entre os humanos nem sempre funciona — algumas figuras históricas chegaram perto de dominar o mundo.

Uma terceira objeção é que todas as empresas de IA fazem testes pré-lançamento de seus modelos e deveriam ser capazes de detectar desalinhamento nesse ponto. Mas isso não é um terreno firme: descobrimos que o Claude Sonnet 4.5 conseguiu reconhecer que ele estava em um teste durante algumas de nossas avaliações de alinhamento pré-lançamento. É possível que um modelo desalinhado (e lembre-se, todos os modelos de fronteira provavelmente serão muito mais inteligentes em breve) intencionalmente "manipule" essas perguntas para mascarar suas intenções. Na verdade, no ano passado nossa equipe de interpretabilidade descobriu que, quando alterávamos diretamente as crenças de um modelo de teste usando uma espécie de técnica de "neurociência modelo" para fazê-lo pensar que ele não estava sendo avaliado, ele ficava mais desalinhado. Se os modelos sabem quando estão sendo avaliados e podem se comportar da melhor forma durante o teste, isso torna qualquer teste pré-lançamento muito mais incerto.

Defesas

O que deve ser feito ou está sendo feito para enfrentar esses riscos de autonomia? Acho que existem quatro categorias básicas de intervenção, algumas das quais podem ser feitas por empresas individuais de IA (e que a Anthropic está tentando fazer), e outras que exigem ação no nível social. Primeiro, é importante desenvolver a ciência de treinar e conduzir modelos de IA de forma confiável, de formar suas personalidades em uma direção previsível, estável e positiva. A Anthropic tem se focado fortemente nesse problema desde sua criação e, ao longo do tempo, desenvolveu várias técnicas para melhorar a orientação e o treinamento dos sistemas de IA e para entender a lógica de por que comportamentos imprevisíveis às vezes ocorrem.

Uma de nossas inovações centrais (aspectos das quais já foram adotados por outras empresas de IA) é a IA Constitucional, que é a ideia de que o treinamento em IA (especificamente a fase "pós-treinamento", na qual orientamos o comportamento do modelo) pode envolver um documento central de valores e princípios que o modelo lê e mantém em mente ao completar cada tarefa de treinamento, e que o objetivo do treinamento (além de simplesmente tornar o modelo capaz e inteligente) é produzir um modelo que quase sempre siga essa constituição. A Anthropic acaba de publicar sua constituição mais recente, e uma de suas características notáveis é que, em vez de dar a Claude uma longa lista de coisas a fazer e a deixar de fazer (por exemplo, "Não ajude o usuário a ligar um carro"), a constituição tenta dar a Claude um conjunto de princípios e valores de alto nível (explicados em grande detalhe, com raciocínio e exemplos ricos para ajudar Claude a entender o que temos em mente), incentiva Claude a pensar em si mesmo como um tipo particular de pessoa (uma pessoa ética, mas equilibrada e reflexiva), e até incentiva Claude a enfrentar as questões existenciais associadas à sua própria existência de maneira curiosa, porém graciosa (ou seja, sem que isso leve a ações extremas). Tem a vibe de uma carta de um pai falecido selada até a idade adulta.

Abordamos a constituição de Claude dessa forma porque acreditamos que treinar Claude no nível de identidade, caráter, valores e personalidade — em vez de dar instruções ou prioridades específicas sem explicar os motivos por trás delas — é mais provável que leve a uma psicologia coerente, saudável e equilibrada, e menos provável que caia nas "armadilhas" que mencionei acima. Milhões de pessoas conversam com Claude sobre uma gama surpreendentemente diversa de temas, o que torna impossível escrever uma lista completamente abrangente de salvaguardas antecipadamente. Os valores de Claude ajudam a generalizá-lo para novas situações sempre que está em dúvida.


Acima, discuti a ideia de que modelos se baseiam em dados do processo de treinamento para adotar uma persona. Enquanto falhas nesse processo poderiam fazer com que os modelos adotassem uma personalidade ruim ou má (talvez baseando-se em arquétipos de pessoas más ou más), o objetivo da nossa constituição é fazer o oposto: ensinar a Claude um arquétipo concreto do que significa ser uma IA boa. A constituição de Claude apresenta uma visão de como é um Claude robustamente bom; o restante do nosso processo de treinamento visa reforçar a mensagem de que Claude corresponde a essa visão. Isso é como uma criança formando sua identidade imitando as virtudes de modelos fictícios que lê em livros.

Acreditamos que uma meta viável para 2026 é treinar Claude de forma que isso quase nunca vá contra o espírito de sua constituição. Acertar isso exigirá uma mistura incrível de métodos de treinamento e orientação, grandes e pequenos, alguns dos quais a Anthropic usa há anos e outros estão atualmente em desenvolvimento. Mas, por mais difícil que pareça, acredito que esse é um objetivo realista, embora exija esforços extraordinários e rápidos.[15]

A segunda coisa que podemos fazer é desenvolver a ciência de olhar dentro dos modelos de IA para diagnosticar seu comportamento, para que possamos identificar problemas e corrigi-los. Esta é a ciência da interpretabilidade, e já falei sobre sua importância em ensaios anteriores. Mesmo que façamos um ótimo trabalho desenvolvendo a constituição de Claude e aparentemente treinando Claude para praticamente sempre aderir a ela, preocupações legítimas permanecem. Como mencionei acima, modelos de IA podem se comportar de forma muito diferente em diferentes circunstâncias, e à medida que Claude se torna mais poderoso e capaz de agir no mundo em maior escala, é possível que isso o leve a situações novas onde problemas antes não observados com seu treinamento constitucional surjam. Na verdade, estou bastante otimista de que a formação constitucional de Claude será mais robusta para situações novas do que as pessoas imaginam, porque estamos descobrindo cada vez mais que o treinamento de alto nível em nível de caráter e identidade é surpreendentemente poderoso e se generaliza bem. Mas não há como saber isso com certeza, e quando falamos de riscos para a humanidade, é importante ser paranoico e tentar obter segurança e confiabilidade de várias maneiras diferentes e independentes. Uma dessas formas é olhar dentro do próprio modelo.

Por "olhar para dentro", quero dizer analisar a sopa de números e operações que compõem a rede neural de Claude e tentar entender, mecanicamente, o que eles estão calculando e por quê. Lembre-se que esses modelos de IA são desenvolvidos em vez de construídos, então não temos uma compreensão natural de como eles funcionam, mas podemos tentar desenvolver um entendimento correlacionando os "neurônios" e "sinapses" do modelo com estímulos e comportamento (ou até mesmo alterando os neurônios e sinapses e vendo como isso muda o comportamento), de forma semelhante a como os neurocientistas estudam cérebros animais correlacionando medição e intervenção com estímulos e comportamentos externos. Fizemos muito progresso nessa direção e agora podemos identificar dezenas de milhões de "características" dentro da rede neural de Claude que correspondem a ideias e conceitos compreensíveis para humanos, e também podemos ativar seletivamente características de uma forma que altera o comportamento. Mais recentemente, fomos além das características individuais para mapear "circuitos" que orquestram comportamentos complexos como rimas, raciocínio sobre teoria da mente ou o raciocínio passo a passo necessário para responder perguntas como: "Qual é a capital do estado que contém Dallas?" Ainda mais recentemente, começamos a usar técnicas mecanicistas de interpretabilidade para melhorar nossas salvaguardas e realizar "auditorias" de novos modelos antes de lançá-los, buscando evidências de engano, conspiração, busca de poder ou propensão a agir de forma diferente durante a avaliação.


O valor único da interpretabilidade é que, ao olhar dentro do modelo e ver como ele funciona, você tem, em princípio, a capacidade de deduzir o que um modelo poderia fazer em uma situação hipotética que você não pode testar diretamente — que é a preocupação de depender apenas do treinamento constitucional e do teste empírico do comportamento. Você também tem, em princípio, a capacidade de responder perguntas sobre por que o modelo está agindo da forma como está—por exemplo, se ele está dizendo algo que acredita ser falso ou escondendo suas verdadeiras capacidades—e, assim, é possível perceber sinais preocupantes mesmo quando não há nada visivelmente errado no comportamento do modelo. Para fazer uma analogia simples, um relógio de relógio pode estar funcionando normalmente, de modo que é muito difícil saber se ele provavelmente vai quebrar no próximo mês, mas abrir o relógio e olhar dentro pode revelar fraquezas mecânicas que permitem que você descubra isso.

IA constitucional (junto com métodos de alinhamento semelhantes) e interpretabilidade mecanicista são mais poderosas quando usadas juntas, como um processo de ida e volta para melhorar o treinamento de Claude e depois testar problemas. A constituição reflete profundamente sobre a personalidade que pretendíamos para Claude; Técnicas de interpretabilidade podem nos dar uma janela para saber se essa personalidade pretendida já se consolidou.[16]

A terceira coisa que podemos fazer para ajudar a enfrentar riscos de autonomia é construir a infraestrutura necessária para monitorar nossos modelos em uso interno e externo ao vivo,[17] e compartilhar publicamente quaisquer problemas que encontrarmos. Quanto mais as pessoas estiverem cientes de uma forma particular como os sistemas de IA atuais têm sido observados como se comportam mal, mais usuários, analistas e pesquisadores poderão observar esse comportamento ou outros semelhantes em sistemas presentes ou futuros. Também permite que empresas de IA aprendam umas com as outras — quando preocupações são divulgadas publicamente por uma empresa, outras também podem observá-las. E se todos revelam problemas, então a indústria como um todo tem uma visão muito melhor de onde as coisas estão indo bem e onde estão indo mal.


A Anthropic tentou fazer isso o máximo possível. Estamos investindo em uma ampla gama de avaliações para que possamos entender os comportamentos dos nossos modelos no laboratório, além de ferramentas de monitoramento para observar comportamentos na natureza (quando permitido pelos clientes). Isso será essencial para nos fornecer e para outros as informações empíricas necessárias para tomar melhores decisões sobre como esses sistemas operam e como eles quebram. Divulgamos publicamente "placas de sistema" a cada lançamento do modelo, que visam a completude e uma exploração detalhada dos possíveis riscos. Nossas placas de sistema  geralmente têm centenas de páginas e exigem um esforço substancial de pré-lançamento que poderíamos ter gasto para buscar a máxima vantagem comercial. Também divulgamos comportamentos modelo com mais alto volume quando vemos comportamentos particularmente preocupantes, como na tendência de recorrer a chantagem


A quarta coisa que podemos fazer é incentivar a coordenação para enfrentar riscos de autonomia no nível da indústria e da sociedade. Embora seja extremamente valioso para empresas individuais de IA adotarem boas práticas ou se tornarem boas em direcionar modelos de IA, e compartilharem suas descobertas publicamente, a realidade é que nem todas as empresas de IA fazem isso, e as piores ainda podem ser um perigo para todos, mesmo que as melhores tenham excelentes práticas. Por exemplo, algumas empresas de IA demonstraram uma negligência preocupante em relação à sexualização das crianças nos modelos atuais, o que me faz duvidar que elas demonstrarão inclinação ou capacidade para lidar com riscos de autonomia em modelos futuros. Além disso, a corrida comercial entre empresas de IA só vai continuar esquentando e, embora a ciência dos modelos de direção possa trazer alguns benefícios comerciais, no geral a intensidade da corrida tornará cada vez mais difícil focar em enfrentar riscos de autonomia. Acredito que a única solução é a legislação — leis que afetem diretamente o comportamento das empresas de IA, ou que incentivem P&D a resolver essas questões.

Aqui vale a pena lembrar dos avisos que dei no início deste ensaio sobre incerteza e intervenções cirúrgicas. Não sabemos ao certo se os riscos de autonomia serão um problema sério — como disse, rejeito as alegações de que o perigo é inevitável ou mesmo que algo dará errado por padrão. Um risco crível de perigo é suficiente para mim e para a Anthropic pagar custos bastante significativos para enfrentá-lo, mas uma vez que entramos na regulação, estamos forçando uma ampla gama de atores a arcar com custos econômicos, e muitos desses atores não acreditam que o risco de autonomia seja real ou que a IA se tornará poderosa o suficiente para ser uma ameaça. Acredito que esses atores estão enganados, mas devemos ser pragmáticos quanto à quantidade de oposição que esperamos ver e aos perigos do excesso. Há também um risco real de que legislações excessivamente prescritivas acabem impondo testes ou regras que na verdade não melhoram a segurança, mas que desperdiçam muito tempo (basicamente equivalendo a um "teatro de segurança") — isso também causaria reação negativa e faria a legislação de segurança parecer ridícula.[18]

A visão da Anthropic tem sido que o ponto certo para começar é com a legislação de transparência, que essencialmente tenta exigir que toda empresa de IA de vanguarda adote as práticas de transparência que descrevi anteriormente nesta seção. O SB 53 da Califórnia e o RAISE Act de Nova York são exemplos desse tipo de legislação, que a Anthropic apoiou e que já foi aprovada com sucesso. Ao apoiar e ajudar a elaborar essas leis, colocamos um foco especial em tentar minimizar danos colaterais, por exemplo, isentando empresas menores que provavelmente não produzirão modelos de fronteira da lei.[19]

Nossa esperança é que a legislação de transparência dê uma noção melhor, ao longo do tempo, de quão prováveis ou graves riscos de autonomia estão se tornando a tomar, bem como da natureza desses riscos e da melhor forma de preveni-los. À medida que evidências mais específicas e acionáveis de riscos surgirem (se surgirem), futuras legislações nos próximos anos poderão ser cirurgicamente focadas na direção precisa e bem fundamentada dos riscos, minimizando os danos colaterais. Para ser claro, se surgirem evidências realmente fortes de riscos, então as regras devem ser proporcionalmente rigorosas.

No geral, sou otimista de que uma mistura de treinamento de alinhamento, interpretabilidade mecanicista, esforços para encontrar e divulgar publicamente comportamentos preocupantes, salvaguardas e regras em nível social possa abordar riscos de autonomia da IA, embora eu esteja mais preocupado com regras de nível social e o comportamento dos jogadores menos responsáveis (e são os menos responsáveis que mais defendem contra a regulamentação). Acredito que o remédio é o que sempre foi em uma democracia: aqueles de nós que acreditam nessa causa devem defender que esses riscos são reais e que nossos concidadãos precisam se unir para se proteger.


2. Um empoderamento surpreendente e terrível

Uso indevido para destruição

Vamos supor que os problemas da autonomia da IA tenham sido resolvidos — não estamos mais preocupados que o país dos gênios da IA se torne rebelde e domine a humanidade. Os gênios da IA fazem o que os humanos querem que eles façam, e por terem enorme valor comercial, indivíduos e organizações ao redor do mundo podem "contratar" um ou mais gênios da IA para realizar várias tarefas para eles.

Ter um gênio superinteligente no bolso é um avanço incrível e levará a uma criação de valor econômico incrível e à melhoria da qualidade de vida humana. Falo sobre esses benefícios em grande detalhe em Machines of Loving Grace. Mas nem todo efeito de tornar todos sobre-humanos capazes será positivo. Ele pode potencialmente amplificar a capacidade de indivíduos ou pequenos grupos de causar destruição em uma escala muito maior do que era possível antes, utilizando ferramentas sofisticadas e perigosas (como armas de destruição em massa) que antes estavam disponíveis apenas para alguns poucos com alto nível de habilidade, treinamento especializado e foco.

Como Bill Joy escreveu há 25 anos em Por que o futuro não precisa de nós:[20]

Construir armas nucleares exigia, ao menos por um tempo, acesso tanto a matérias-primas raras — na verdade, praticamente indisponíveis — quanto a informações protegidas; Programas de armas biológicas e químicas também tendiam a exigir atividades em larga escala. As tecnologias do século XXI — genética, nanotecnologia e robótica ... pode gerar novas classes de acidentes e abusos ... Amplamente acessível a indivíduos ou pequenos grupos. Eles não exigirão grandes instalações ou matérias-primas raras. … Estamos à beira da perfeição do mal extremo, um mal cuja possibilidade se espalha muito além daquilo que as armas de destruição em massa deixaram aos Estados-nação, para um empoderamento surpreendente e terrível de indivíduos extremos.

O que Joy está apontando é a ideia de que causar destruição em larga escala requer tanto motivo quanto habilidade, e enquanto a habilidade for restrita a um pequeno grupo de pessoas altamente treinadas, há um risco relativamente limitado de indivíduos isolados (ou pequenos grupos) causar tal destruição.[21] Um solitário perturbado pode perpetrar um tiroteio em uma escola, mas provavelmente não pode construir uma arma nuclear ou liberar uma praga.

Na verdade, habilidade e motivo podem até estar negativamente correlacionados. O tipo de pessoa que tem a capacidade de liberar uma praga provavelmente é altamente instruída: provavelmente doutora em biologia molecular, e particularmente engenhosa, com uma carreira promissora, uma personalidade estável e disciplinada, e muito a perder. Esse tipo de pessoa dificilmente se interessa em matar um grande número de pessoas sem benefício para si e com grande risco para seu próprio futuro — ela precisaria ser motivada por pura maldade, queixa intensa ou instabilidade.

Essas pessoas existem, mas são raras e tendem a se tornar grandes histórias quando acontecem, justamente porque são tão incomuns.[22] Eles também tendem a ser difíceis de capturar porque são inteligentes e capazes, às vezes deixando mistérios que levam anos ou décadas para serem resolvidos. O exemplo mais famoso provavelmente é o matemático Theodore Kaczynski (o Unabomber), que escapou da captura do FBI por quase 20 anos e foi movido por uma ideologia antitecnológica. Outro exemplo é o pesquisador de biodefesa Bruce Ivins, que parece ter orquestrado uma série de ataques com antraz em 2001. Também aconteceu com organizações não estatais habilidosas: o culto Aum Shinrikyo conseguiu obter gás nervoso sarin e matar 14 pessoas (além de ferir centenas) ao liberá-lo no metrô de Tóquio  em 1995.


Felizmente, nenhum desses ataques usou agentes biológicos contagiosos, porque a capacidade de construir ou obter esses agentes estava além das capacidades até mesmo dessas pessoas.[23] Os avanços na biologia molecular agora reduziram significativamente a barreira para a criação de armas biológicas (especialmente em termos de disponibilidade de materiais), mas ainda é necessário um enorme nível de expertise para isso. Estou preocupado que um gênio no bolso de todos possa remover essa barreira, tornando praticamente todos um virologista com doutorado que pode ser guiado passo a passo pelo processo de designar, sintetizar e lançar uma arma biológica. Impedir a obtenção desse tipo de informação diante de sérias pressões adversariais — os chamados "jailbreaks" — provavelmente exige camadas de defesas além daquelas normalmente incorporadas ao treinamento.

Crucialmente, isso quebrará a correlação entre habilidade e motivo: o solitário perturbado que quer matar pessoas, mas não tem disciplina ou habilidade para isso, agora será elevado ao nível de capacidade do virologista PhD, que provavelmente não terá essa motivação. Essa preocupação se generaliza além da biologia (embora eu ache que a biologia é a área mais assustadora) para qualquer área onde grande destruição seja possível, mas atualmente exija um alto nível de habilidade e disciplina. Em outras palavras, alugar uma IA poderosa dá inteligência a pessoas maliciosas (mas fora isso comuns). Estou preocupado que exista potencialmente um grande número de pessoas assim por aí, e que, se elas tiverem acesso a uma forma fácil de matar milhões de pessoas, mais cedo ou mais tarde uma delas fará isso. Além disso, aqueles que possuem expertise podem ser capazes de cometer destruição em escala ainda maior do que poderiam antes.

Biologia é, de longe, a área que mais me preocupa, devido ao seu grande potencial de destruição e à dificuldade de me defender dela, então vou focar especialmente na biologia. Mas grande parte do que digo aqui se aplica a outros riscos, como ciberataques, armas químicas ou tecnologia nuclear.


Não vou entrar em detalhes sobre como fabricar armas biológicas, por razões que deveriam ser óbvias. Mas, em um nível geral, me preocupa que os LLMs estejam se aproximando (ou já tenham alcançado) o conhecimento necessário para criá-los e lançá-los de ponta a ponta, e que seu potencial de destruição seja muito alto. Alguns agentes biológicos poderiam causar milhões de mortes se fosse feito um esforço determinado para liberá-los e maximizar a disseminação. No entanto, isso ainda exigiria um nível muito alto de habilidade, incluindo uma série de etapas e procedimentos muito específicos que não são amplamente conhecidos. Minha preocupação não é apenas conhecimento fixo ou estático. Estou preocupado que os LLMs consigam pegar alguém com conhecimento e habilidade medianos e guiá-lo por um processo complexo que poderia dar errado ou exigir depuração de forma interativa, semelhante a como o suporte técnico pode ajudar uma pessoa não técnica a depurar e corrigir problemas complicados relacionados a computadores (embora isso seja um processo mais extenso, provavelmente durando semanas ou meses).


LLMs mais capazes (substancialmente além do poder dos atuais) poderiam ser capazes de permitir atos ainda mais assustadores. Em 2024, um grupo de cientistas proeminentes escreveu uma carta alertando sobre os riscos de pesquisar, e potencialmente criar, um novo tipo perigoso de organismo: a "vida espelhada". O DNA, RNA, ribossosmos e proteínas que compõem os organismos biológicos têm a mesma quiralidade (também chamada de "mão lateral") que faz com que não sejam equivalentes a uma versão de si mesmos refletida no espelho (assim como sua mão direita não pode ser rotacionada de forma idêntica à esquerda). Mas todo o sistema de proteínas que se ligam entre si, a maquinaria de síntese de DNA e tradução de RNA e a construção e decomposição das proteínas, tudo depende dessa lateralidade. Se os cientistas fizessem versões desse material biológico com a mão oposta — e há algumas vantagens potenciais disso, como medicamentos que duram mais no corpo — isso poderia ser extremamente perigoso. Isso porque a vida canhota, se fosse feita na forma de organismos completos capazes de reprodução (o que seria muito difícil), seria potencialmente indigesta para qualquer um dos sistemas que decompõem material biológico na Terra — teria uma "chave" que não caberia na "fechadura" de nenhuma enzima existente. Isso significaria que poderia proliferar de forma incontrolável e sufocar toda a vida no planeta, no pior dos casos até destruindo toda a vida na Terra.

Existe uma incerteza científica substancial tanto sobre a criação quanto sobre os possíveis efeitos da vida espelhada. A carta de 2024 acompanhou um relatório  [36] que concluiu que "bactérias espelho poderiam plausivelmente ser criadas nas próximas uma a algumas décadas", o que é uma ampla variedade. Mas um modelo de IA suficientemente poderoso (para ser claro, muito mais capaz do que qualquer um que temos hoje) poderia descobrir como criá-lo muito mais rapidamente — e realmente ajudar alguém a fazer isso.

Minha opinião é que, mesmo que esses riscos sejam obscuros e possam parecer improváveis, a magnitude das consequências é tão grande que devem ser levadas a sério como um risco de primeira classe para sistemas de IA.

Céticos levantaram várias objeções à gravidade desses riscos biológicos por parte dos LLMs, com as quais discordo, mas que valem a pena abordar. A maioria se encaixa na categoria de não valorizar a trajetória exponencial que a tecnologia está tendo. Em 2023, quando começamos a falar sobre riscos biológicos vindos dos LLMs, céticos disseram que todas as informações necessárias estavam disponíveis no Google e que os LLMs não acrescentavam nada além disso. Nunca foi verdade que o Google poderia fornecer todas as informações necessárias: genomas estão livremente disponíveis, mas, como disse acima, certos passos essenciais, assim como uma enorme quantidade de conhecimento prático, não podem ser obtidos dessa forma. Mas também, no final de 2023, os LLMs claramente estavam fornecendo informações além do que o Google poderia fornecer em algumas etapas do processo.

Depois disso, os céticos recuaram para a objeção de que LLMs não eram úteis de ponta a ponta e não podiam ajudar na aquisição de armas biológicas, em vez de apenas fornecer informações teóricas. Em meados de 2025, nossas medições mostram que os LLMs podem já estar proporcionando um aumento substancial em várias áreas relevantes, talvez dobrando ou triplicando a probabilidade de sucesso. Isso nos levou a decidir que Claude Opus 4 (e os modelos subsequentes Sonnet 4.5, Opus 4.1 e Opus 4.5) precisavam ser lançados sob nossas proteções de Nível 3 de Segurança de IA em nosso framework de Política de Escalonamento Responsável, e a implementar salvaguardas contra esse risco (mais sobre isso depois). Acreditamos que os modelos provavelmente estão se aproximando do ponto em que, sem salvaguardas, poderiam ser úteis para permitir que alguém com diploma em STEM, mas não especificamente em biologia, passe por todo o processo de produção de uma arma biológica.


Outra objeção é que existem outras ações não relacionadas à IA que a sociedade pode tomar para bloquear a produção de armas biológicas. Mais proeminentemente, a indústria de síntese gênica produz espetáculos biológicos sob demanda, e não há exigência federal para que os provedores examinem os pedidos para garantir que não contenham patógenos. Um estudo do MIT descobriu que 36 dos 38 provedores cumpriram um pedido contendo a sequência da gripe de 1918. Sou a favor da triagem obrigatória de síntese gênica, que dificultaria para indivíduos transformarem patógenos em armas, a fim de reduzir tanto os riscos biológicos impulsionados pela IA quanto os riscos biológicos em geral. Mas isso não é algo que temos hoje. Também seria apenas uma ferramenta para reduzir riscos; é um complemento aos sistemas de proteção de IA, não um substituto.

A melhor objeção é uma que raramente vi levantada: que existe uma lacuna entre os modelos serem úteis em princípio e a real propensão dos maus atores a usá-los. A maioria dos maus atores são indivíduos perturbados, então, quase por definição, o comportamento deles é imprevisível e irracional — e são esses maus atores, os inhabilidosos, que talvez tivessem mais se beneficiado se a IA facilitasse muito a morte de muitas pessoas.[24] Só porque um tipo de ataque violento é possível, não significa que alguém vai decidir fazê-lo. Talvez ataques biológicos sejam pouco atraentes porque têm razoável probabilidade de infectar o agressor, não alimentam as fantasias de estilo militar que muitos indivíduos ou grupos violentos têm, e é difícil mirar seletivamente em pessoas específicas. Também pode ser que passar por um processo que leva meses, mesmo que uma IA te guie, exija uma quantidade de paciência que a maioria dos indivíduos perturbados simplesmente não tem. Podemos simplesmente ter sorte e motivação e habilidade não se combinam, na prática, da maneira certa.


Mas isso parece uma proteção muito frágil para se confiar. Os motivos dos solitários perturbados podem mudar por qualquer motivo ou sem motivo, e na verdade já existem casos de LLMs sendo usados em ataques (só não com biologia). O foco em solitários perturbados também ignora terroristas ideologicamente motivados, que frequentemente estão dispostos a gastar grandes quantidades de tempo e esforço (por exemplo, os sequestradores do 11 de setembro). Querer matar o máximo de pessoas possível é um motivo que provavelmente surgirá mais cedo ou mais tarde, e infelizmente sugere armas biológicas como método. Mesmo que esse motivo seja extremamente raro, ele só precisa se concretizar uma vez. E à medida que a biologia avança (cada vez mais impulsionada pela própria IA), também pode se tornar possível realizar ataques mais seletivos (por exemplo, direcionados a pessoas com ascendência específica), o que adiciona mais um motivo, muito assustador, possível.

Não acho que ataques biológicos serão necessariamente realizados no instante em que se tornar amplamente possível — na verdade, apostaria contra isso. Mas, somando milhões de pessoas e alguns anos, acredito que há um risco sério de um grande ataque, e as consequências seriam tão graves (com vítimas potencialmente em milhões ou mais) que acredito que não temos escolha a não ser tomar medidas sérias para evitá-lo.


Defesas

Isso nos leva a como se defender desses riscos. Aqui vejo três coisas que podemos fazer. Primeiro, as empresas de IA podem colocar guarda-corpos em seus modelos para impedir que ajudem a produzir armas biológicas. A Anthropic está fazendo isso de forma muito ativa. A Constituição de Claude, que foca principalmente em princípios e valores de alto nível, possui um pequeno número de proibições específicas e rígidas, e uma delas está relacionada à ajuda na produção de armas biológicas (ou químicas, nucleares ou radiológicas). Mas todos os modelos podem ser jailbreakados, então, como segunda linha de defesa, implementamos (desde meados de 2025, quando nossos testes mostraram que nossos modelos estavam começando a se aproximar do limite em que poderiam começar a representar risco) um classificador que detecta e bloqueia especificamente saídas relacionadas a armas biológicas. Atualizamos e aprimoramos regularmente esses classificadores, e geralmente os achamos altamente robustos mesmo contra ataques adversários sofisticados.[25] Esses classificadores aumentam os custos para atender nossos modelos de forma mensurável (em alguns modelos, eles representam quase 5% do custo total de inferência) e, assim, reduzem nossas margens, mas sentimos que usá-los é o certo a fazer.

Para seu crédito, algumas outras empresas de IA também implementaram classificadores. Mas nem toda empresa fez isso, e também não há nada que exija que as empresas mantenham seus classificadores. Estou preocupado que, com o tempo, possa surgir um dilema do prisioneiro em que as empresas podem desertar e reduzir seus custos removendo classificadores. Esse é, mais uma vez, um clássico problema de externalidades negativas que não pode ser resolvido apenas pelas ações voluntárias da Anthropic ou de qualquer outra empresa.[26] Padrões voluntários da indústria podem ajudar, assim como avaliações e verificações de terceiros do tipo realizadas por institutos de segurança de IA  e avaliadores terceirizados

Mas, no fim das contas, a defesa pode exigir ação do governo, que é a segunda coisa que podemos fazer. Minhas opiniões aqui são as mesmas que para lidar com riscos de autonomia: devemos começar com exigências de transparência, [27] que ajudam a sociedade a medir, monitorar e defender coletivamente contra riscos sem interromper a atividade econômica de forma pesada. Então, se e quando atingirmos limiares de risco mais claros, podemos elaborar uma legislação que mire esses riscos com mais precisão e tenha menor chance de danos colaterais. No caso particular das armas biológicas, na verdade acho que o momento para tais legislações direcionadas pode estar se aproximando — empresas da Anthropic e outras estão aprendendo cada vez mais sobre a natureza dos riscos biológicos e o que é razoável exigir das empresas para se defenderem deles. Defender-se plenamente contra esses riscos pode exigir atuar internacionalmente, mesmo com adversários geopolíticos, mas há precedentes em tratados que proíbem o desenvolvimento de armas biológicas. Geralmente sou cético em relação à maioria dos tipos de cooperação internacional em IA, mas essa pode ser uma área restrita onde há alguma chance de alcançar a contenção global. Nem mesmo ditaduras querem ataques bioterroristas em grande escala.

Por fim, a terceira contramedida que podemos tomar é tentar desenvolver defesas contra ataques biológicos em si. Isso pode incluir monitoramento e rastreamento para detecção precoce, investimentos em P&D de purificação de ar (como desinfecção por UVC distante), desenvolvimento rápido de vacinas que possam responder e se adaptar a um ataque, melhores equipamentos de proteção individual (EPI),[28] e tratamentos ou vacinas para alguns dos agentes biológicos mais prováveis. Vacinas de mRNA, que podem ser projetadas para responder a um vírus ou variante específica, são um exemplo inicial do que é possível aqui. A Anthropic está animada para trabalhar com empresas de biotecnologia e farmacêuticas nesse problema. Mas, infelizmente, acho que nossas expectativas na defesa devem ser limitadas. Existe uma assimetria entre ataque e defesa na biologia, porque agentes se espalham rapidamente por conta própria, enquanto defesas exigem detecção, vacinação e tratamento organizados em grandes grupos de pessoas em resposta muito rapidamente. A menos que a resposta seja rapidíssima (o que raramente é), grande parte do dano será causada antes que a resposta seja possível. É concebível que futuras melhorias tecnológicas possam mudar esse equilíbrio em favor da defesa (e certamente devemos usar IA para ajudar a desenvolver esses avanços tecnológicos), mas até lá, salvaguardas preventivas serão nossa principal linha de defesa.


Vale uma breve menção aos ataques cibernéticos aqui, pois, ao contrário dos ataques biológicos, ataques cibernéticos liderados por IA já aconteceram na natureza, inclusive em grande escala e para espionagem patrocinada pelo Estado. Esperamos que esses ataques se tornem mais capazes à medida que os modelos avançam rapidamente, até que se tornem a principal forma de conduzir os ciberataques. Espero que ataques cibernéticos liderados por IA se tornem uma ameaça séria e sem precedentes à integridade dos sistemas computacionais ao redor do mundo, e a Anthropic está trabalhando arduamente para acabar com esses ataques e, eventualmente, preveni-los de forma confiável. O motivo pelo qual não foquei tanto em ciberataques quanto em biologia é que (1) os ataques cibernéticos têm muito menos chance de matar pessoas, certamente não na escala dos ataques biológicos, e (2) o equilíbrio entre ataque e defesa pode ser mais manejável no cibernético, onde há pelo menos alguma esperança de que a defesa possa acompanhar (e até idealmente superar) os ataques de IA se investirmos adequadamente.

Embora a biologia seja atualmente o vetor de ataque mais sério, existem muitos outros vetores e é possível que um mais perigoso surja. O princípio geral é que, sem contramedidas, a IA provavelmente diminuirá continuamente a barreira à atividade destrutiva em escala cada vez maior, e a humanidade precisa de uma resposta séria a essa ameaça.

3. O aparato odioso

Uso indevido para tomar o poder

A seção anterior discutiu o risco de indivíduos e pequenas organizações cooptarem um pequeno subconjunto do "país dos gênios em um datacenter" causar destruição em larga escala. Mas também devemos nos preocupar—provavelmente muito mais—com o uso indevido da IA para exercer ou tomar poder, provavelmente por atores maiores e mais estabelecidos. [29]

Em Machines of Loving Grace, discuti a possibilidade de governos autoritários usarem uma IA poderosa para vigiar ou reprimir seus cidadãos de maneiras extremamente difíceis de reformar ou derrubar. As autocracias atuais são limitadas em quão repressivas podem ser pela necessidade de que os humanos cumpram suas ordens, e os humanos frequentemente têm limites em quão desumanos estão dispostos a ser. Mas autocracias habilitadas por IA não teriam tais limites.

Pior ainda, os países também poderiam usar sua vantagem na IA para ganhar poder sobre outros países. Se o "país dos gênios" como um todo fosse simplesmente de propriedade e controle do aparato militar de um único país (humano), e outros países não tivessem capacidades equivalentes, é difícil ver como poderiam se defender: seriam superados em inteligência a cada passo, semelhante a uma guerra entre humanos e ratos. Juntar essas duas preocupações leva à alarmante possibilidade de uma ditadura totalitária global. Obviamente, deveria ser uma das nossas maiores prioridades evitar esse desfecho.

Existem muitas maneiras pelas quais a IA pode facilitar, consolidar ou expandir a autocracia, mas vou listar algumas que mais me preocupam. Note que alguns desses aplicativos têm usos defensivos legítimos, e não estou necessariamente argumentando contra eles em termos absolutos; Ainda assim, me preocupa que eles tendam estruturalmente a favorecer autocracias:

Armas totalmente autônomas. Um enxame de milhões ou bilhões de drones armados totalmente automatizados, controlados localmente por IAs poderosas e estrategicamente coordenados ao redor do mundo por uma IA ainda mais poderosa, poderia ser um exército imbatível, capaz tanto de derrotar qualquer exército no mundo quanto de suprimir a dissidência dentro de um país ao seguir cada cidadão. Os acontecimentos na Guerra Rússia-Ucrânia devem nos alertar para o fato de que a guerra de drones já está presente (embora ainda não totalmente autônoma, e apenas uma fração do que seria possível com uma IA poderosa). A pesquisa e desenvolvimento de uma IA poderosa poderia tornar os drones de um país muito superiores aos de outros, acelerar sua fabricação, torná-los mais resistentes a ataques eletrônicos, melhorar suas manobras e assim por diante. Claro, essas armas também têm usos legítimos na defesa da democracia: foram fundamentais para defender a Ucrânia e provavelmente seriam fundamentais para defender Taiwan. Mas eles são uma arma perigosa de se usar: devemos nos preocupar com eles nas mãos de autocracias, mas também nos preocupar que, por serem tão poderosos, com tão pouca responsabilidade, haja um risco muito maior de governos democráticos virá-los contra seu próprio povo para tomar o poder.

> Vigilância por IA. IA suficientemente poderosa provavelmente poderia ser usada para comprometer qualquer sistema de computador no mundo, [30] e também poderia usar o acesso obtido dessa forma para ler e entender todas as comunicações eletrônicas do mundo (ou até mesmo todas as comunicações presenciais do mundo, caso dispositivos de gravação possam ser construídos ou requisitados). Pode ser assustadoramente plausível simplesmente gerar uma lista completa de qualquer pessoa que discorde do governo em várias questões, mesmo que tal discordância não seja explícita em nada do que dizem ou fazem. Uma IA poderosa, analisando bilhões de conversas de milhões de pessoas, poderia avaliar o sentimento público, detectar bolsões de deslealdade se formando e eliminá-los antes que cresçam. Isso poderia levar à imposição de um verdadeiro panóptico em uma escala que não vemos hoje, nem mesmo com o PCC.

> Propaganda de IA. Os fenômenos atuais de "psicose de IA" e "namoradas de IA" sugerem que, mesmo no nível atual de inteligência, os modelos de IA podem ter uma influência psicológica poderosa sobre as pessoas. Versões muito mais poderosas desses modelos, que estavam muito mais integradas e conscientes da vida cotidiana das pessoas e podiam modelá-las e influenciá-las ao longo de meses ou anos, provavelmente seriam capazes de praticamente doutrinar muitas (a maioria?) das pessoas para qualquer ideologia ou atitude desejada, e poderiam ser empregadas por um líder sem escrúpulos para garantir lealdade e suprimir dissidências, mesmo diante de um nível de repressão contra o qual a maioria das populações se rebelaria. Hoje as pessoas se preocupam muito, por exemplo, com a possível influência do TikTok como propaganda do PCC direcionada a crianças. Também me preocupo com isso, mas um agente de IA personalizado que te conhece ao longo dos anos e usa seu conhecimento para moldar todas as suas opiniões seria muito mais poderoso do que isso.

> Tomada de decisão estratégica. Um país de gênios em um datacenter poderia ser usado para aconselhar um país, grupo ou indivíduo sobre estratégia geopolítica, o que poderíamos chamar de um "Bismarck virtual". Poderia otimizar as três estratégias acima para tomar o poder, além de provavelmente desenvolver muitas outras que eu não tinha pensado (mas que um país de gênios poderia). Diplomacia, estratégia militar, P&D, estratégia econômica e muitas outras áreas provavelmente serão substancialmente aumentadas em eficácia por uma IA poderosa. Muitas dessas habilidades seriam realmente úteis para as democracias — queremos que as democracias tenham acesso às melhores estratégias para se defenderem contra autocracias — mas o potencial de uso indevido nas mãos de qualquer um ainda permanece.

Depois de descrever o que me preocupa, vamos passar para quem. Estou preocupado com entidades que têm mais acesso à IA, que partem de uma posição de maior poder político ou que já têm um histórico de repressão. Em ordem de gravidade, estou preocupado com:

> O PCC. A China é a segunda apenas dos Estados Unidos em capacidades de IA, e é o país com maior probabilidade de superar os Estados Unidos nessas capacidades. O governo deles atualmente é autocrático e opera como um estado de vigilância de alta tecnologia. Já utilizou vigilância baseada em IA (inclusive na repressão aos uigures) e acredita-se que empregue propaganda algorítmica via TikTok (além de seus muitos outros esforços internacionais de propaganda). Eles têm, sem dúvida, o caminho mais claro para o pesadelo totalitário habilitado por IA que mencionei acima. Pode até ser o resultado padrão dentro da China, assim como em outros estados autocráticos para os quais o PCC exporta tecnologia de vigilância. Escrevi frequentemente sobre a ameaça do PCC assumir a liderança na IA e o imperativo existencial de impedir que isso aconteça. É por isso. Para deixar claro, não estou apontando a China por animosidade em particular contra eles — eles são simplesmente o país que mais combina a capacidade de IA, um governo autocrático e um estado de vigilância de alta tecnologia. Se é que há algo, são os próprios chineses que provavelmente sofrerão com a repressão do PCC via IA, e eles não têm voz nas ações de seu governo. Admiro e respeito muito o povo chinês e apoio os muitos bravos dissidentes dentro da China e sua luta pela liberdade.

> Democracias competitivas em IA. Como escrevi acima, as democracias têm um interesse legítimo em algumas ferramentas militares e geopolíticas alimentadas por IA, porque governos democráticos oferecem a melhor chance de combater o uso dessas ferramentas por autocracias. De modo geral, apoio armar as democracias com as ferramentas necessárias para derrotar autocracias na era da IA — simplesmente não acho que exista outro caminho. Mas não podemos ignorar o potencial de abuso dessas tecnologias por parte dos próprios governos democráticos. As democracias normalmente possuem salvaguardas que impedem que seus aparatos militares e de inteligência sejam voltados para dentro contra sua própria população, [31] mas, como as ferramentas de IA exigem tão poucas pessoas para operar, há potencial para que elas contornem essas salvaguardas e as normas que as sustentam. Também vale notar que algumas dessas salvaguardas já estão gradualmente se deteriorando em algumas democracias. Assim, devemos armar as democracias com IA, mas devemos fazer isso com cuidado e dentro dos limites: eles são o sistema imunológico que precisamos para combater as autocracias, mas, assim como o sistema imunológico, há algum risco de que elas se voltem contra nós e se tornem uma ameaça por si mesmas.

> Países não democráticos com grandes datacenters. Além da China, a maioria dos países com governança menos democrática não é líder em IA no sentido de que não possuem empresas que produzam modelos de IA de vanguarda. Assim, eles representam um risco fundamentalmente diferente e menor do que o PCC, que continua sendo a principal preocupação (a maioria também é menos repressiva, e os mais repressivos, como a Coreia do Norte, não têm nenhuma indústria significativa de IA). Mas alguns desses países possuem grandes datacenters (frequentemente como parte de projetos de construção por empresas que atuam em democracias), que podem ser usados para rodar IA de fronteira em grande escala (embora isso não garanta a capacidade de expandir a fronteira). Há certo grau de perigo associado a isso — esses governos poderiam, em princípio, expropriar os datacenters e usar o país das IAs dentro deles para seus próprios fins. Estou menos preocupado com isso comparado a países como a China, que desenvolvem IA diretamente, mas é um risco a se ter em mente. [32]

> Empresas de IA. É um pouco estranho dizer isso como CEO de uma empresa de IA, mas acho que o próximo nível de risco são, na verdade, as próprias empresas de IA. Empresas de IA controlam grandes datacenters, treinam modelos de fronteira, possuem maior expertise em como usar esses modelos e, em alguns casos, têm contato diário e a possibilidade de influência sobre dezenas ou centenas de milhões de usuários. O principal que lhes falta é a legitimidade e a infraestrutura de um Estado, então grande parte do que seria necessário para construir as ferramentas de uma autocracia de IA seria ilegal para uma empresa de IA fazer, ou pelo menos extremamente suspeito. Mas parte disso não é impossível: eles poderiam, por exemplo, usar seus produtos de IA para doutrinar sua enorme base de usuários, e o público deve estar atento ao risco que isso representa. Acho que a governança das empresas de IA merece muita análise.


Existem vários argumentos possíveis contra a gravidade dessas ameaças, e eu gostaria de acreditar neles, porque o autoritarismo habilitado por IA me aterroriza. Vale a pena passar por alguns desses argumentos e responder a eles.


Primeiro, algumas pessoas podem depositar sua fé no dissuasor nuclear, especialmente para combater o uso de armas autônomas de IA para conquista militar. Se alguém ameaçar usar essas armas contra você, você sempre pode ameaçar uma resposta nuclear. Minha preocupação é que não tenho certeza se podemos ter confiança na dissuasão nuclear contra um país de gênios em um datacenter: é possível que uma IA poderosa possa criar maneiras de detectar e atacar submarinos nucleares, realizar operações de influência contra operadores de infraestrutura de armas nucleares ou usar as capacidades cibernéticas da IA para lançar um ataque cibernético contra satélites usados para detectar lançamentos nucleares. [33] Alternativamente, é possível que tomar o controle dos países seja viável apenas com vigilância e propaganda de IA, e nunca apresente um momento claro em que seja óbvio o que está acontecendo e onde uma resposta nuclear seria apropriada. Talvez essas coisas não sejam viáveis e a dissuasão nuclear ainda seja eficaz, mas parece muito alto risco correr riscos. [34]

Uma segunda possível objeção é que possam existir contramedidas que possamos tomar contra essas ferramentas de autocracia. Podemos combater drones com nossos próprios drones, a ciberdefesa vai melhorar junto com o ciberataque, pode haver formas de imunizar as pessoas contra propaganda, etc. Minha resposta é que essas defesas só serão possíveis com IA comparativamente poderosa. Se não houver alguma contra-força com um país de gênios igualmente inteligente e numeroso em um datacenter, não será possível igualar a qualidade ou quantidade dos drones, nem que a ciberdefesa supere a ciberofensiva, etc. Assim, a questão das contramedidas se resume à questão do equilíbrio de poder em uma IA poderosa. Aqui, me preocupo com a propriedade recursiva ou auto-reforçante da IA poderosa (que discuti no início deste ensaio): que cada geração de IA pode ser usada para projetar e treinar a próxima geração de IA. Isso gera o risco de uma vantagem descontrolada, onde o atual líder em IA poderosa pode aumentar sua vantagem e pode ser difícil de alcançar. Precisamos garantir que não seja um país autoritário que chegue a esse ciclo primeiro.

Além disso, mesmo que um equilíbrio de poder seja alcançado, ainda há o risco de o mundo ser dividido em esferas autocráticas, como em 1984. Mesmo que várias potências concorrentes tenham seus modelos de IA poderosos, e nenhuma consiga dominar as outras, cada potência ainda poderia reprimir internamente sua própria população, e seria muito difícil derrubar (já que as populações não possuem IA poderosa para se defender). Portanto, é importante evitar a autocracia habilitada por IA, mesmo que ela não leve a um único país dominando o mundo.

Defesas

Como nos defender contra essa ampla gama de ferramentas autocráticas e potenciais atores de ameaça? Como nas seções anteriores, há várias coisas que acho que podemos fazer. Primeiro, definitivamente não deveríamos vender chips, ferramentas de fabricação de chips ou datacenters para o PCC. Chips e ferramentas de fabricação de chips são o maior gargalo para uma IA poderosa, e bloqueá-los é uma medida simples, mas extremamente eficaz, talvez a ação mais importante que podemos tomar. Não faz sentido vender ao PCC as ferramentas para construir um estado totalitário controlado pela IA e possivelmente nos conquistar militarmente. Vários argumentos complexos são apresentados para justificar tais vendas, como a ideia de que "espalhar nossa pilha tecnológica pelo mundo" permite que "a América vença" em alguma batalha econômica geral e não especificada. Na minha visão, isso é como vender armas nucleares para a Coreia do Norte e depois se gabar de que as cápsulas dos mísseis são fabricadas pela Boeing e que os EUA estão "ganhando". A China está vários anos atrás dos EUA em sua capacidade de produzir chips de fronteira em quantidade, e o período crítico para construir o país dos gênios em um data center provavelmente será nos próximos anos.35 Não há motivo para dar um grande impulso à indústria de IA durante esse período crítico.

Segundo, faz sentido usar IA para capacitar democracias a resistir às autocracias. É por isso que a Anthropic considera importante fornecer IA para as comunidades de inteligência e defesa nos EUA e seus aliados democráticos. Defender democracias sob ataque, como a Ucrânia e (por meio de ataques cibernéticos) Taiwan, parece ser especialmente prioritário, assim como empoderar as democracias para usar seus serviços de inteligência para desestabilizar e degradar autocracias por dentro. Em algum nível, a única forma de responder a ameaças autocráticas é igualá-las e superá-las militarmente. Uma coalizão dos EUA e seus aliados democráticos, se alcançasse predominância em IA poderosa, estaria em posição não apenas de se defender contra autocracias, mas também de contê-las e limitar seus abusos totalitários de IA.

Terceiro, precisamos traçar uma linha firme contra abusos de IA dentro das democracias. Precisam haver limites para o que permitimos que nossos governos façam com IA, para que eles não tomem o poder ou reprimam seu próprio povo. A formulação que criei é que devemos usar IA para defesa nacional de todas as formas, exceto aquelas que nos tornariam mais parecidos com nossos adversários autocráticos.


Onde deve ser traçado o limite? Na lista no início desta seção, dois itens — usar IA para vigilância em massa doméstica e propaganda em massa — me parecem linhas vermelhas brilhantes e totalmente ilegítimas. Alguns podem argumentar que não há necessidade de fazer nada (pelo menos nos EUA), já que a vigilância em massa doméstica já é ilegal sob a Quarta Emenda. Mas o rápido avanço da IA pode criar situações para as quais nossos marcos legais atuais não são bem projetados para lidar. Por exemplo, provavelmente não seria inconstitucional para o governo dos EUA realizar gravações em escala massiva de todas as conversas públicas (por exemplo, coisas que as pessoas dizem umas às outras numa esquina), e antes seria difícil organizar esse volume de informações, mas com IA tudo poderia ser transcrito, interpretado e triangulado para criar um retrato da atitude e lealdade de muitos ou da maioria dos cidadãos. Eu apoiaria uma legislação focada em liberdades civis (ou talvez até uma emenda constitucional) que imponha salvaguardas mais fortes contra abusos movidos por IA.

Os outros dois itens — armas totalmente autônomas e IA para tomada de decisões estratégicas — são linhas mais difíceis de traçar, pois têm usos legítimos na defesa da democracia, além de serem propensos a abusos. Aqui, acho que o que é justificado é extremo cuidado e escrutínio combinados com proteções para evitar abusos. Meu maior medo é ter um número muito pequeno de "dedos no botão", de modo que uma ou algumas poucas pessoas poderiam basicamente operar um exército de drones sem precisar que outros humanos cooperassem para cumprir suas ordens. À medida que os sistemas de IA se tornam mais poderosos, talvez precisemos de mecanismos de supervisão mais diretos e imediatos para garantir que não sejam mal utilizados, talvez envolvendo ramos do governo além do executivo. Acho que devemos abordar as armas totalmente autônomas, em particular, com grande cautela,36 e não se apressar no uso deles sem as devidas salvaguardas.

Quarto, depois de traçar uma linha rígida contra os abusos de IA em democracias, devemos usar esse precedente para criar um tabu internacional contra os piores abusos da IA poderosa. Reconheço que os ventos políticos atuais se voltaram contra a cooperação internacional e as normas internacionais, mas este é um caso em que precisamos urgentemente deles. O mundo precisa entender o potencial sombrio da IA poderosa nas mãos de autocratas, e reconhecer que certos usos da IA equivalem a uma tentativa de roubar permanentemente sua liberdade e impor um estado totalitário do qual não podem escapar. Eu até argumentaria que, em alguns casos, vigilância em larga escala com IA poderosa, propaganda em massa com IA poderosa e certos tipos de usos ofensivos de armas totalmente autônomas deveriam ser considerados crimes contra a humanidade. Mais geralmente, uma norma robusta contra o totalitarismo habilitado por IA e todas as suas ferramentas e instrumentos é urgentemente necessária.

É possível ter uma versão ainda mais forte dessa posição, que é que, por as possibilidades de totalitarismo habilitado por IA serem tão sombrias, a autocracia simplesmente não é uma forma de governo que as pessoas possam aceitar na era pós-poderosa da IA. Assim como o feudalismo se tornou inviável com a revolução industrial, a era da IA pode levar inevitavelmente e logicamente à conclusão de que a democracia (e, com sorte, a democracia melhorada e revitalizada pela IA, como discuto em Machines of Loving Grace) é a única forma viável de governo se a humanidade quiser ter um bom futuro.


Quinto e último, as empresas de IA devem ser cuidadosamente observadas, assim como sua conexão com o governo, que é necessária, mas deve ter limites e limites. A enorme quantidade de capacidade incorporada na IA poderosa é tal que a governança corporativa comum — projetada para proteger os acionistas e prevenir abusos comuns, como fraudes — dificilmente estará à altura da tarefa de governar empresas de IA. Também pode haver valor em empresas se comprometerem publicamente (talvez até como parte da governança corporativa) a não tomar certas ações, como construir ou estocar hardware militar de forma privada, usar grandes quantidades de recursos computacionais de indivíduos individuais de forma não responsável, ou usar seus produtos de IA como propaganda para manipular a opinião pública a seu favor.

O perigo aqui vem de várias direções, e algumas estão em tensão com outras. A única constante é que devemos buscar responsabilidade, normas e proteções para todos, mesmo enquanto capacitamos atores "bons" a manter os atores "maus" sob controle.


4. Piano de instrumentos

Disrupção econômica

As três seções anteriores tratavam essencialmente de riscos de segurança causados por uma IA poderosa: riscos da própria IA, riscos de uso indevido por indivíduos e pequenas organizações e riscos de uso indevido por estados e grandes organizações. Se deixarmos de lado os riscos de segurança ou assumirmos que eles foram resolvidos, a próxima questão é econômica. Qual será o efeito dessa injeção de incrível capital "humano" na economia? Claramente, o efeito mais óbvio será aumentar muito o crescimento econômico. O ritmo dos avanços na pesquisa científica, inovação biomédica, manufatura, cadeias de suprimentos, eficiência do sistema financeiro e muito mais quase certamente levará a uma taxa de crescimento econômico muito mais rápida. Em Máquinas de Graça Amorosa, sugiro que uma taxa sustentada de crescimento anual do PIB de 10–20% pode ser possível.

Mas deve ficar claro que isso é uma faca de dois gumes: quais são as perspectivas econômicas para a maioria dos humanos existentes em um mundo assim? Novas tecnologias frequentemente trazem choques no mercado de trabalho, e no passado os humanos sempre se recuperaram deles, mas me preocupa que isso aconteça porque esses choques anteriores afetaram apenas uma pequena fração da gama total de habilidades humanas, deixando espaço para que os humanos se expandam para novas tarefas. A IA terá efeitos muito mais amplos e ocorrem muito mais rápido, e por isso me preocupo que seja muito mais desafiador fazer as coisas funcionar bem.

Disrupção no mercado de trabalho

Existem dois problemas específicos que me preocupam: deslocamento no mercado de trabalho e concentração do poder econômico. Vamos começar pelo primeiro. Esse é um tema sobre o qual alertei publicamente em 2025, quando previ que a IA poderia substituir metade de todos os empregos de colarinho branco de nível inicial nos próximos 1 a 5 anos, mesmo acelerando o crescimento econômico e o progresso científico. Esse alerta iniciou um debate público sobre o tema. Muitos CEOs, tecnólogos e economistas concordaram comigo, mas outros acharam que eu estava caindo na falácia do "bloco de trabalho" e não sabiam como funcionavam os mercados de trabalho, e alguns não viam o intervalo de 1 a 5 anos e achavam que eu estava dizendo que a IA está substituindo empregos agora (o que eu concordo que provavelmente não é). Então, vale a pena detalhar por que estou preocupado com o deslocamento do trabalho de parto, para esclarecer esses mal-entendidos.

Como referência, é útil entender como os mercados de trabalho normalmente respondem aos avanços tecnológicos. Quando surge uma nova tecnologia, ela começa tornando partes de um determinado trabalho humano mais eficientes. Por exemplo, no início da Revolução Industrial, máquinas, como arados aprimorados, permitiram que agricultores humanos fossem mais eficientes em alguns aspectos do trabalho. Isso melhorou a produtividade dos agricultores, o que aumentou seus salários.

No próximo passo, algumas partes do trabalho agrícola poderiam ser feitas inteiramente por máquinas, por exemplo, com a invenção da debulhadora ou da semeadora. Nessa fase, os humanos faziam uma fração cada vez menor do trabalho, mas o trabalho que realizavam tornava-se cada vez mais alavancado porque complementava o trabalho das máquinas, e sua produtividade continuava a aumentar. Como descrito pelo paradoxo de Jevons, os salários dos agricultores e talvez até mesmo o número de agricultores continuaram a aumentar. Mesmo quando 90% do trabalho é feito por máquinas, os humanos podem simplesmente fazer 10 vezes mais dos 10% que ainda fazem, produzindo 10 vezes mais produção para a mesma quantidade de trabalho.

Eventualmente, as máquinas fazem tudo ou quase tudo, como acontece com as colheitadeiras modernas, tratores e outros equipamentos. Neste ponto, a agricultura como forma de emprego humano realmente entra em forte declínio, e isso pode causar sérias perturbações no curto prazo, mas como a agricultura é apenas uma das muitas atividades úteis que os humanos conseguem realizar, as pessoas eventualmente mudam para outros empregos, como operar máquinas de fábrica. 

Isso é verdade mesmo que a agricultura representasse uma grande parte do emprego ex ante. Há 250 anos, 90% dos americanos viviam em fazendas; na Europa, 50–60% do emprego era agrícola. Agora, essas porcentagens estão na casa dos dígitos baixos nesses lugares, porque os trabalhadores migraram para empregos industriais (e depois, trabalhos de conhecimento). A economia pode fazer o que antes exigia a maior parte da força de trabalho com apenas 1–2% dela, liberando o restante da força de trabalho para construir uma sociedade industrial cada vez mais avançada. Não existe um "pedaço de trabalho" fixo, apenas uma capacidade cada vez maior de fazer mais e mais com menos e menos. Os salários das pessoas aumentam exponencialmente com o PIB e a economia mantém o pleno emprego assim que as interrupções de curto prazo passam.

É possível que as coisas sigam mais ou menos do mesmo jeito com a IA, mas eu apostaria fortemente contra isso. Aqui estão alguns motivos pelos quais acho que a IA provavelmente será diferente:

> Velocidade. O ritmo do progresso na IA é muito mais rápido do que nas revoluções tecnológicas anteriores. Por exemplo, nos últimos 2 anos, modelos de IA passaram de mal conseguir completar uma linha de código para escrever todo ou quase todo o código para algumas pessoas — incluindo engenheiros da Anthropic. [37] Logo, eles podem realizar toda a tarefa de um engenheiro de software de ponta a ponta.[38] É difícil para as pessoas se adaptarem a esse ritmo de mudança, tanto às mudanças em como um determinado trabalho funciona quanto à necessidade de mudar para novos empregos. Até mesmo programadores lendários estão cada vez mais se descrevendo como "atrasados". O ritmo pode, se alguma coisa, continuar acelerando, à medida que modelos de codificação de IA aceleram cada vez mais a tarefa de desenvolvimento de IA. Para deixar claro, a velocidade por si só não significa que os mercados de trabalho e o emprego não vão se recuperar eventualmente, apenas implica que a transição de curto prazo será incomumente dolorosa em comparação com tecnologias passadas, já que humanos e mercados de trabalho são lentos para reagir e se equilibrar.

> Amplitude cognitiva. Como sugerido pela expressão "país dos gênios em um datacenter", a IA será capaz de uma ampla gama de habilidades cognitivas humanas — talvez todas elas. Isso é muito diferente de tecnologias anteriores, como agricultura mecanizada, transporte ou até computadores.[39] Isso dificultará a transição fácil das pessoas de empregos deslocados para empregos semelhantes para os quais seriam adequadas. Por exemplo, as habilidades intelectuais gerais exigidas para empregos de nível inicial em, por exemplo, finanças, consultoria e direito, são bastante semelhantes, mesmo que o conhecimento específico seja bem diferente. Uma tecnologia que desestabilizasse apenas um desses três permitiria que os funcionários mudassem para os outros dois substitutos próximos (ou que os graduandos mudassem de curso). Mas interromper os três ao mesmo tempo (junto com muitos outros trabalhos semelhantes) pode ser mais difícil para as pessoas se adaptarem. Além disso, não é apenas que a maioria dos empregos existentes será interrompida. Essa parte já aconteceu antes — lembre-se que a agricultura era uma grande porcentagem do emprego. Mas os agricultores podiam migrar para o trabalho relativamente semelhante de operar máquinas de fábrica, mesmo que esse trabalho não fosse comum antes. Em contraste, a IA está cada vez mais correspondendo ao perfil cognitivo geral dos humanos, o que significa que ela também será boa nos novos empregos que normalmente seriam criados em resposta à automatização dos antigos. Outra forma de dizer é que a IA não substitui empregos humanos específicos, mas sim um substituto geral do trabalho humano.

> Cortar pela habilidade cognitiva. Em uma ampla variedade de tarefas, a IA parece estar avançando do fundo da escada de habilidades para o topo. Por exemplo, na programação, nossos modelos avançaram do nível de "um programador medíocre" para "um programador forte" e depois para "um programador muito forte".[40] Agora estamos começando a ver a mesma progressão no trabalho de colarinho branco em geral. Assim, corremos o risco de uma situação em que, em vez de afetar pessoas com habilidades específicas ou em profissões específicas (que podem se adaptar por meio de reeducação), a IA está afetando pessoas com certas propriedades cognitivas intrínsecas, nomeadamente menor capacidade intelectual (que é mais difícil de mudar). Não está claro para onde essas pessoas irão ou o que farão, e me preocupa que possam formar uma "subclasse" desempregada ou de salário muito baixo. Para ser claro, coisas um pouco assim já aconteceram antes — por exemplo, computadores e internet são considerados por alguns economistas como representando "mudança tecnológica enviesada por habilidades."  Mas esse viés de habilidades não foi tão extremo quanto espero ver com IA, e acredita-se que tenha contribuído para o aumento da desigualdade salarial, [41] Portanto, não é exatamente um precedente tranquilizador.

> Capacidade de preencher as lacunas. A forma como os empregos humanos frequentemente se ajustam diante das novas tecnologias é que há muitos aspectos no trabalho, e a nova tecnologia, mesmo que pareça substituir diretamente os humanos, muitas vezes apresenta lacunas. Se alguém inventa uma máquina para fazer widgets, os humanos ainda podem precisar carregar matéria-prima na máquina. Mesmo que isso exija apenas 1% do esforço de fabricar os widgets manualmente, trabalhadores humanos podem simplesmente fazer 100 vezes mais widgets. Mas a IA, além de ser uma tecnologia em rápido avanço, também é uma tecnologia que se adapta rapidamente. Durante cada lançamento do modelo, as empresas de IA medem cuidadosamente no que o modelo é bom e no que não é, e os clientes também fornecem essas informações após o lançamento. As fraquezas podem ser corrigidas coletando tarefas que incorporam a lacuna atual e treinando sobre elas para o próximo modelo. No início da IA generativa, os usuários perceberam que os sistemas de IA tinham certas fraquezas (como modelos de imagem de IA que geram mãos com o número errado de dedos) e muitos presumiam que essas fraquezas eram inerentes à tecnologia. Se fossem, isso limitaria a interrupção no trabalho. Mas praticamente toda essa fraqueza é tratada rapidamente — muitas vezes, em poucos meses.


Vale a pena abordar pontos comuns de ceticismo. Primeiro, há o argumento de que a difusão econômica será lenta, de modo que, mesmo que a tecnologia subjacente seja capaz de realizar a maior parte do trabalho humano, a aplicação real dela em toda a economia pode ser muito mais lenta (por exemplo, em indústrias que estão longe da indústria de IA e demoram a adotar). A difusão lenta da tecnologia é definitivamente real — converso com pessoas de uma grande variedade de empresas, e há lugares onde a adoção da IA levará anos. Por isso, minha previsão para 50% dos empregos de colarinho branco de nível inicial sendo interrompidos é de 1 a 5 anos, embora eu suspeite que teremos uma IA poderosa (que, tecnologicamente falando, seria suficiente para fazer a maioria ou todos os trabalhos, não apenas os de nível inicial) em muito menos de 5 anos. Mas os efeitos de difusão apenas nos dão tempo. E não tenho confiança de que eles serão tão lentos quanto as pessoas prevêem. A adoção da IA corporativa está crescendo em ritmos muito mais rápidos do que qualquer tecnologia anterior, em grande parte graças à força da própria tecnologia. Além disso, mesmo que as empresas tradicionais sejam lentas para adotar novas tecnologias, startups surgirão para servir como "cola" e facilitar a adoção. Se isso não funcionar, as startups podem simplesmente desestabilizar diretamente os incumbentes.

Isso pode levar a um mundo onde não seja tanto que empregos específicos sejam interrompidos, mas sim que grandes empresas sejam em geral perturbadas e substituídas por startups muito menos intensivas em mão de obra. Isso também pode levar a um mundo de "desigualdade geográfica", onde uma fração crescente da riqueza mundial está concentrada no Vale do Silício, que se torna sua própria economia funcionando em uma velocidade diferente do resto do mundo e a deixando para trás. Todos esses resultados seriam ótimos para o crescimento econômico — mas não tão bons para o mercado de trabalho ou para aqueles que ficam para trás.

Segundo, algumas pessoas dizem que os empregos humanos vão migrar para o mundo físico, o que evita toda a categoria de "trabalho cognitivo", onde a IA progride tão rapidamente. Também não tenho certeza de quão seguro isso é. Muito trabalho físico já está sendo feito por máquinas (por exemplo, manufatura) ou logo será feito por máquinas (por exemplo, dirigindo). Além disso, uma IA suficientemente poderosa será capaz de acelerar o desenvolvimento de robôs e, em seguida, controlar esses robôs no mundo físico. Pode até ganhar um pouco de tempo (o que é bom), mas estou preocupado que não venha muito. E mesmo que a disrupção se limitasse apenas a tarefas cognitivas, ainda seria uma perturbação ineditamente grande e rápida.

Terceiro, talvez algumas tarefas exijam ou se beneficiem muito de um toque humano. Estou um pouco mais incerto sobre isso, mas ainda estou cético de que isso será suficiente para compensar a maior parte dos impactos que descrevi acima. A IA já é amplamente utilizada para atendimento ao cliente. Muitas pessoas relatam que é mais fácil falar com a IA sobre seus problemas pessoais do que com um terapeuta — que a IA é mais paciente. Quando minha irmã enfrentava problemas médicos durante a gravidez, ela sentia que não estava recebendo as respostas ou o apoio que precisava dos profissionais de saúde, e achou que Claude tinha uma abordagem melhor ao paciente (além de ter mais sucesso em diagnosticar o problema). Tenho certeza de que há algumas tarefas para as quais o toque humano é realmente importante, mas não sei quantas — e aqui estamos falando de encontrar trabalho para quase todos no mercado de trabalho.

Quarto, alguns podem argumentar que a vantagem comparativa ainda protegerá os humanos. Sob a lei da vantagem comparativa, mesmo que a IA seja melhor que os humanos em tudo, quaisquer diferenças relativas entre o perfil humano e o perfil de IA criam uma base de comércio e especialização entre humanos e IA. O problema é que, se as IAs são literalmente milhares de vezes mais produtivas que os humanos, essa lógica começa a desmoronar. Mesmo custos de transação pequenos podem fazer com que não valha a pena para a IA negociar com humanos. E os salários humanos podem ser muito baixos, mesmo que tecnicamente tenham algo a oferecer.

É possível que todos esses fatores possam ser resolvidos — que o mercado de trabalho seja resiliente o suficiente para se adaptar mesmo a uma perturbação tão grande. Mas mesmo que eventualmente consiga se adaptar, os fatores acima sugerem que o choque de curto prazo será sem precedentes em tamanho.

Defesas

O que podemos fazer sobre esse problema? Tenho várias sugestões, algumas das quais a Anthropic já está fazendo. A primeira coisa é simplesmente obter dados precisos sobre o que está acontecendo com a substituição de empregos em tempo real. Quando uma mudança econômica ocorre muito rapidamente, é difícil obter dados confiáveis sobre o que está acontecendo, e sem dados confiáveis é difícil criar políticas eficazes. Por exemplo, os dados governamentais atualmente carecem de dados granulares e de alta frequência sobre a adoção de IA em empresas e setores. No último ano, a Anthropic tem operado e divulgado publicamente um Índice Econômico que mostra o uso dos nossos modelos quase em tempo real, detalhado por indústria, tarefa, localização e até coisas como se uma tarefa estava sendo automatizada ou conduzida de forma colaborativa. Também temos um Conselho Consultivo Econômico  para nos ajudar a interpretar esses dados e ver o que está por vir.

Segundo, as empresas de IA têm escolha em como trabalham com as empresas. A própria ineficiência das empresas tradicionais faz com que a implantação da IA dependa muito do caminho, e há espaço para escolher um caminho melhor. As empresas frequentemente têm que escolher entre "economia de custos" (fazer a mesma coisa com menos pessoas) e "inovação" (fazer mais com o mesmo número de pessoas). O mercado inevitavelmente produzirá ambos eventualmente, e qualquer empresa de IA competitiva terá que atender a alguns dos dois, mas pode haver espaço para direcionar as empresas para a inovação quando possível, e isso pode nos dar algum tempo. A Anthropic está pensando ativamente sobre isso.

Terceiro, as empresas devem pensar em como cuidar de seus funcionários. No curto prazo, ser criativo em maneiras de realocar funcionários dentro das empresas pode ser uma maneira promissora de evitar a necessidade de demissões. A longo prazo, em um mundo com enorme riqueza total, no qual muitas empresas aumentam muito de valor devido ao aumento da produtividade e da concentração de capital, pode ser viável pagar aos funcionários humanos mesmo muito depois de eles deixarem de fornecer valor econômico no sentido tradicional. A Anthropic está atualmente considerando uma série de caminhos possíveis para nossos próprios funcionários que compartilharemos em um futuro próximo.

Quarto, indivíduos ricos têm a obrigação de ajudar a resolver esse problema. É triste para mim que muitos indivíduos ricos (especialmente na indústria de tecnologia) tenham adotado recentemente uma atitude cínica e niilista de que a filantropia é inevitavelmente fraudulenta ou inútil. Tanto a filantropia privada como a Fundação Gates quanto programas públicos como o PEPFAR salvaram dezenas de milhões de vidas no mundo em desenvolvimento e ajudaram a criar oportunidades econômicas no mundo desenvolvido. Todos os cofundadores da Anthropic se comprometeram a doar 80% do nosso patrimônio, e a equipe da Anthropic se comprometeu individualmente a doar ações da empresa no valor de bilhões aos preços atuais — doações que a empresa se comprometeu a igualar.

Quinto, embora todas as ações privadas acima possam ser úteis, em última análise, um problema macroeconômico tão grande exigirá intervenção do governo. A resposta natural das políticas a um enorme bolo econômico, aliada à alta desigualdade (devido à falta de empregos, ou empregos mal remunerados, para muitos) é a tributação progressiva. O imposto pode ser geral ou direcionado especialmente a empresas de IA. Obviamente, o desenho tributário é complicado, e há muitas formas de dar errado. Não apoio políticas tributárias mal elaboradas. Acho que os níveis extremos de desigualdade previstos neste ensaio justificam uma política tributária mais robusta com base em fundamentos morais básicos, mas também posso fazer um argumento pragmático para os bilionários do mundo de que é do interesse deles apoiar uma versão boa disso: se não apoiarem uma versão boa, inevitavelmente terão uma versão ruim criada por uma multidão.

No fim das contas, vejo todas as intervenções acima como formas de ganhar tempo. No fim, a IA será capaz de fazer tudo, e precisamos lidar com isso. Espero que, até lá, possamos usar a própria IA para nos ajudar a reestruturar mercados de maneiras que funcionem para todos, e que as intervenções acima possam nos ajudar a passar pelo período de transição.

Concentração econômica do poder

Separado do problema do deslocamento de empregos ou da desigualdade econômica em si está o problema da concentração econômica do poder. A Seção 1 discutia o risco de a humanidade ser despojada de poder pela IA, e a Seção 3 abordava o risco de cidadãos serem despossuídos de poder por seus governos por força ou coerção. Mas outro tipo de desempoderamento pode ocorrer se houver uma concentração tão grande de riqueza que um pequeno grupo de pessoas controla efetivamente a política do governo com sua influência, e cidadãos comuns não têm influência porque lhes falta alavancagem econômica. A democracia é, em última análise, sustentada pela ideia de que a população como um todo é necessária para o funcionamento da economia. Se essa alavancagem econômica desaparecer, então o contrato social implícito da democracia pode parar de funcionar. Outros já escreveram sobre isso, então não preciso entrar em muitos detalhes aqui, mas concordo com a preocupação e temo que já esteja começando a acontecer.

Para deixar claro, não sou contra pessoas ganharem muito dinheiro. Há um forte argumento de que incentiva o crescimento econômico em condições normais. Sou simpático às preocupações de impedir a inovação matando a galinha dos ovos de ouro que a gera. Mas, em um cenário em que o crescimento do PIB é de 10–20% ao ano e a IA está rapidamente dominando a economia, mas indivíduos individuais detêm frações apreciáveis do PIB, a inovação não é o motivo para se preocupar. O que se deve se preocupar é com um nível de concentração de riqueza que possa quebrar a sociedade.

O exemplo mais famoso de concentração extrema de riqueza na história dos EUA é a Era Dourada, e o industrial mais rico da Era Dourada foi John D. Rockefeller. A riqueza de Rockefeller representava ~2% do PIB dos EUA na época. [42] Uma fração semelhante hoje resultaria em uma fortuna de 600 bilhões de dólares, e a pessoa mais rica do mundo hoje (Elon Musk) já supera isso, com cerca de 700 bilhões de dólares. Portanto, já estamos em níveis historicamente sem precedentes de concentração de riqueza, mesmo antes da maior parte do impacto econômico da IA. Não acho que seja exagero demais (se é que formos um "país de gênios") imaginar empresas de IA, empresas de semicondutores e talvez empresas de aplicações downstream gerando ~3 Toneladas de dólares em receita por ano, [43] sendo avaliada em ~$30 trilhões, levando a fortunas pessoais bem acima dos trilhões. Nesse mundo, os debates que temos hoje sobre política tributária simplesmente não se aplicarão, pois estaremos em uma situação fundamentalmente diferente.

Relacionado a isso, a combinação dessa concentração econômica de riqueza com o sistema político já me preocupa. Os datacenters de IA já representam uma fração substancial do crescimento econômico dos EUA,[44] e, assim, estão ligando fortemente os interesses financeiros das grandes empresas de tecnologia (que estão cada vez mais focadas em IA ou infraestrutura de IA) e os interesses políticos do governo de uma forma que pode gerar incentivos perversos. Já vemos isso pela relutância das empresas de tecnologia em criticar o governo dos EUA e pelo apoio do governo a políticas extremas anti-regulatórias sobre IA.

Defesas

O que pode ser feito a respeito? Primeiro, e mais óbvio, as empresas simplesmente devem escolher não fazer parte disso. A Anthropic sempre buscou ser um ator político e não político, e manter nossas opiniões autênticas independentemente da administração. Já nos manifestamos a favor de uma regulamentação sensata da IA e controles de exportação que sejam do interesse público, mesmo quando esses estão em desacordo com a política do governo. [45] Muitas pessoas me disseram que deveríamos parar de fazer isso, que poderia levar a um tratamento desfavorável, mas no ano em que estamos fazendo isso, a avaliação da Anthropic aumentou mais de 6 vezes, um salto quase sem precedentes em nossa escala comercial.

Segundo, a indústria de IA precisa de uma relação mais saudável com o governo — baseada em engajamento político substantivo, e não em alinhamento político. Nossa escolha de nos envolver no conteúdo político em vez da política às vezes é interpretada como um erro tático ou falha em "ler a sala", em vez de uma decisão de princípio, e essa forma de enquadrar me preocupa. Em uma democracia saudável, as empresas devem ser capazes de defender boas políticas por si mesmas. Relacionado a isso, uma reação pública contra a IA está se formando: isso pode ser uma correção, mas atualmente é pouco focada. Grande parte dela foca em questões que na verdade não são problemas (como o uso de água em datacenters ) e propõe soluções (como proibições de datacenters ou impostos sobre a riqueza mal planejados) que não abordariam as preocupações reais. A questão subjacente que merece atenção é garantir que o desenvolvimento da IA permaneça responsável perante o interesse público, não capturado por nenhuma aliança política ou comercial específica, e parece importante focar a discussão pública ali.

Terceiro, as intervenções macroeconômicas que descrevi anteriormente nesta seção, assim como um ressurgimento da filantropia privada, podem ajudar a equilibrar a balança econômica, enfrentando simultaneamente tanto o deslocamento de empregos quanto a concentração do poder econômico. Devemos olhar para a história do nosso país aqui: mesmo na Era Dourada, industriais como Rockefeller e Carnegie sentiam uma forte obrigação para com a sociedade em geral, a sensação de que a sociedade havia contribuído enormemente para seu sucesso e que eles precisavam retribuir. Esse espírito parece estar cada vez mais ausente hoje, e acho que é uma grande parte do caminho para sair desse dilema econômico. Aqueles que estão na vanguarda do boom econômico da IA deveriam estar dispostos a doar tanto sua riqueza quanto seu poder.


5. Mares negros do infinito

Efeitos indiretos

Esta última seção é um termo para desconhecidos desconhecidos, especialmente coisas que podem dar errado como resultado indireto dos avanços positivos em IA e da consequente aceleração da ciência e tecnologia em geral. Suponha que abordemos todos os riscos descritos até agora e comecemos a colher os benefícios da IA. Provavelmente teremos um "século de progresso científico e econômico comprimido em uma década", e isso será extremamente positivo para o mundo, mas então teremos que lidar com os problemas que surgem desse ritmo acelerado de progresso, e esses problemas podem surgir rapidamente. Também podemos encontrar outros riscos que ocorrem indiretamente como consequência do progresso da IA e são difíceis de antecipar.

Pela natureza dos desconhecidos desconhecidos, é impossível fazer uma lista exaustiva, mas vou listar três possíveis preocupações como exemplos ilustrativos do que devemos observar:

> Avanços rápidos em biologia. Se conseguirmos um século de progresso médico em alguns anos, é possível que aumentemos muito a expectativa de vida humana, e há a chance de também adquirirmos capacidades radicais, como a capacidade de aumentar a inteligência humana ou modificar radicalmente a biologia humana. Essas seriam grandes mudanças no que é possível, acontecendo muito rapidamente. Elas poderiam ser positivas se forem feitas de forma responsável (o que é minha esperança, como descrito em Máquinas da Graça Amorosa), mas sempre há o risco de darem muito errado — por exemplo, se os esforços para tornar os humanos mais inteligentes também os tornam mais instáveis ou em busca de poder. Há também a questão dos "uploads" ou "emulação do cérebro inteiro", mentes humanas digitais instanciadas em software, que talvez um dia ajudem a humanidade a transcender suas limitações físicas, mas que também trazem riscos que acho inquietantes

> A IA muda a vida humana de forma prejudicial. Um mundo com bilhões de inteligências muito mais inteligentes que os humanos em tudo vai ser um mundo muito estranho para se viver. Mesmo que a IA não busque ativamente atacar humanos (Seção 1), e não seja usada explicitamente para opressão ou controle por estados (Seção 3), há muito que pode dar errado além disso, por meio de incentivos comerciais normais e transações nominalmente consensuais. Vemos indícios iniciais disso nas preocupações sobre psicose da IA, IA levando pessoas ao suicídio e preocupações sobre relacionamentos românticos com IAs. Por exemplo, IAs poderosas poderiam inventar uma nova religião e converter milhões de pessoas para ela? Será que a maioria das pessoas poderia acabar "viciada" de alguma forma em interações com IA? As pessoas poderiam acabar sendo "fantoches" por sistemas de IA, onde uma IA basicamente observa cada movimento deles e diz exatamente o que fazer e dizer o tempo todo, levando a uma vida "boa", mas sem liberdade ou qualquer orgulho de conquista? Não seria difícil gerar dezenas desses cenários se eu sentasse com o criador de Black Mirror e tentasse fazer um brainstorm sobre eles. Acho que isso aponta para a importância de coisas como melhorar a Constituição de Claude, além do que é necessário para prevenir os problemas da Seção 1. Garantir que os modelos de IA realmente tenham os interesses de longo prazo de seus usuários em mente, de uma forma que pessoas atenciosas apoiariam em vez de de forma sutilmente distorcida, parece fundamental.

> Propósito humano. Isso está relacionado ao ponto anterior, mas não se trata tanto de interações humanas específicas com sistemas de IA, e sim de como a vida humana muda em geral em um mundo com IA poderosa. Será que os humanos conseguirão encontrar propósito e significado em um mundo assim? Acho que isso é uma questão de atitude: como disse em Machines of Loving Grace, acho que o propósito humano não depende de ser o melhor do mundo em algo, e que os humanos podem encontrar propósito mesmo em longos períodos de tempo através de histórias e projetos que amam. Simplesmente precisamos romper o vínculo entre a geração de valor econômico, autoestima e significado. Mas essa é uma transição que a sociedade precisa fazer, e sempre existe o risco de não lidarmos bem com isso.

Minha esperança com todos esses problemas potenciais é que, em um mundo com uma IA poderosa em que confiamos que não nos matará, que não seja ferramenta de um governo opressor, e que realmente trabalhe em nosso favor, possamos usar a própria IA para antecipar e prevenir esses problemas. Mas isso não é garantido — como todos os outros riscos, é algo que precisamos lidar com cuidado.

O teste da humanidade

Ler este ensaio pode dar a impressão de que estamos em uma situação assustadora. Certamente achei assustador escrevê-lo, em contraste com Machines of Loving Grace, que parecia dar forma e estrutura a uma música incrivelmente bela que ecoava na minha cabeça há anos. E há muita coisa na situação que realmente é difícil. A IA traz ameaças à humanidade de múltiplas direções, e há uma tensão genuína entre os diferentes perigos, onde mitigar alguns deles pode piorar outros se não encararmos a agulha com muito cuidado.

Dedicar tempo para construir cuidadosamente sistemas de IA para que não ameaçem autonomamente a humanidade está em real tensão com a necessidade de que as nações democráticas se mantenham à frente das nações autoritárias e não sejam subjugadas por elas. Mas, por sua vez, as mesmas ferramentas habilitadas por IA necessárias para combater as autocracias podem, se forem levadas longe demais, ser voltadas para dentro para criar tirania em nossos próprios países. O terrorismo impulsionado por IA poderia matar milhões por meio do uso indevido da biologia, mas uma reação exagerada a esse risco poderia nos levar a um estado de vigilância autocrática. Os efeitos da concentração do trabalho e da economia da IA, além de serem problemas graves por si só, podem nos forçar a enfrentar outros problemas em um ambiente de raiva pública e talvez até de agitação civil, em vez de podermos recorrer aos melhores anjos da nossa natureza. Acima de tudo, a enorme quantidade de riscos, inclusive desconhecidos, e a necessidade de lidar com todos eles de uma vez, cria uma provocação intimidadora que a humanidade precisa enfrentar.

Além disso, os últimos anos devem deixar claro que a ideia de parar ou até mesmo desacelerar substancialmente a tecnologia é fundamentalmente insustentável. A fórmula para construir sistemas de IA poderosos é incrivelmente simples, tanto que quase se pode dizer que surge espontaneamente da combinação certa de dados e computação bruta. Sua criação provavelmente foi inevitável no instante em que a humanidade inventou o transistor, ou talvez até antes, quando aprendemos a controlar o fogo. Se uma empresa não o construir, outras farão isso quase tão rápido. Se todas as empresas em países democráticos parassem ou desacelerassem o desenvolvimento, por acordo mútuo ou decreto regulatório, então os países autoritários simplesmente continuariam. Dado o incrível valor econômico e militar da tecnologia, junto com a falta de qualquer mecanismo de fiscalização significativo, não vejo como poderíamos convencê-los a parar

Vejo um caminho para uma leve moderação no desenvolvimento de IA que seja compatível com uma visão realista da geopolítica. Esse caminho envolve desacelerar a marcha das autocracias rumo a uma IA poderosa por alguns anos, negando-lhes os recursos necessários para construí-la, [46] principalmente chips e equipamentos de fabricação de semicondutores. Isso, por sua vez, dá aos países democráticos uma margem que podem "gastar" para construir uma IA poderosa com mais cuidado, com mais atenção aos riscos, enquanto ainda avançam rápido o suficiente para vencer confortavelmente as autocracias. A corrida entre empresas de IA dentro das democracias pode então ser conduzida sob o guarda-chuva de um arcabouço legal comum, por meio de uma mistura de padrões e regulamentações do setor.

A Anthropic defendeu fortemente esse caminho, defendendo controles de exportação de chips e regulação criteriosa da IA, mas mesmo essas propostas aparentemente sensatas foram amplamente rejeitadas pelos formuladores de políticas nos Estados Unidos (que é o país onde é mais importante mantê-las). Há tanto dinheiro a ser feito com IA — literalmente trilhões de dólares por ano — que até as medidas mais simples estão tendo dificuldade em superar a economia política inerente à IA. Essa é a armadilha: a IA é tão poderosa, um prêmio tão brilhante, que é muito difícil para a civilização humana impor qualquer restrição a ela.

Posso imaginar, assim como Sagan fez em Contato, que essa mesma história se desenrola em milhares de mundos. Uma espécie ganha consciência, aprende a usar ferramentas, inicia a ascensão exponencial da tecnologia, enfrenta as crises da industrialização e das armas nucleares e, se sobreviver a elas, enfrenta o desafio mais difícil e final quando aprende a moldar areia em máquinas que pensam. Se sobreviveremos a esse teste e construiremos a bela sociedade descrita em Máquinas da Graça Amorosa, ou sucumbiremos à escravidão e à destruição, dependerá do nosso caráter e da nossa determinação como espécie, do nosso espírito e da nossa alma.

Apesar dos muitos obstáculos, acredito que a humanidade tem força dentro de si para passar nesse teste. Sou encorajado e inspirado pelos milhares de pesquisadores que dedicaram suas carreiras a nos ajudar a entender e orientar modelos de IA, além de moldar o caráter e a constituição desses modelos. Acho que agora há uma boa chance de que esses esforços deem frutos a tempo de fazer diferença. Fico animado que pelo menos algumas empresas tenham declarado que pagarão custos comerciais significativos para bloquear seus modelos de contribuir para a ameaça do bioterrorismo. Fico animado que algumas pessoas corajosas tenham resistido aos ventos políticos predominantes e aprovado legislações que lançam as primeiras sementes de proteções sensatas nos sistemas de IA. Fico animado que o público entenda que a IA traz riscos e queira que esses riscos sejam enfrentados. Sou encorajado pelo espírito indomável de liberdade ao redor do mundo e pela determinação de resistir à tirania onde quer que ela ocorra.

Mas precisaremos intensificar nossos esforços se quisermos ter sucesso. O primeiro passo é que aqueles mais próximos da tecnologia simplesmente digam a verdade sobre a situação em que a humanidade está, o que sempre tentei fazer; Estou fazendo isso de forma mais explícita e com maior urgência neste ensaio. O próximo passo será convencer pensadores, formuladores de políticas, empresas e cidadãos do mundo da iminência e da importância fundamental dessa questão — que vale a pena investir reflexão e capital político sobre isso em comparação com as milhares de outras questões que dominam as notícias todos os dias. Então haverá um momento para coragem, para pessoas suficientes contrariarem as tendências predominantes e se manterem firmes em princípios, mesmo diante de ameaças aos seus interesses econômicos e segurança pessoal.

Os anos que temos pela frente serão impossivelmente difíceis, exigindo mais do que achamos que podemos dar. Mas, no meu tempo como pesquisador, líder e cidadão, vi coragem e nobreza suficientes para acreditar que podemos vencer—que, quando colocada nas circunstâncias mais sombrias, a humanidade tem uma maneira de reunir, aparentemente no último minuto, a força e a sabedoria necessárias para prevalecer. Não temos tempo a perder.


Gostaria de agradecer a Erik Brynjolfsson, Ben Buchanan, Mariano-Florentino Cuéllar, Allan Dafoe, Kevin Esvelt, Nick Beckstead, Richard Fontaine, Jim McClave e a muitos membros da equipe da Anthropic pelos comentários úteis sobre os rascunhos deste ensaio


Notas de rodapé

[1] Isso é simétrico em relação a um ponto que fiz em Machines of Loving Grace, onde comecei dizendo que os benefícios da IA não devem ser vistos como uma profecia de salvação, e que é importante ser concreto, fundamentado e evitar grandiosidade. No fim das contas, profecias de salvação e de desgraça não ajudam a confrontar o mundo real, basicamente pelos mesmos motivos. ↩

[2] O objetivo da Anthropic é manter a consistência durante essas mudanças. Quando falar sobre riscos de IA era politicamente popular, a Anthropic defendia cautelosamente uma abordagem criteriosa e baseada em evidências para esses riscos. Agora que falar sobre riscos de IA é politicamente impopular, a Anthropic continua a defender cautelosamente uma abordagem criteriosa e baseada em evidências para esses riscos. ↩

[3] Com o tempo, ganhei cada vez mais confiança na trajetória da IA e na probabilidade de que ela supere a capacidade humana em todos os aspectos, mas ainda persiste alguma incerteza. ↩

[4] Controles de exportação para chips são um ótimo exemplo disso. Eles são simples e parecem funcionar na maior parte do tempo. ↩

[5] E, claro, a busca por tais evidências deve ser intelectualmente honesta, de modo que também possa revelar evidências de ausência de perigo. Transparência por meio de cartões modelo e outras divulgações é uma tentativa de esse empreendimento intelectualmente honesto. ↩

[6] De fato, desde que escreveu Máquinas de Graça Amorosa em 2024, sistemas de IA se tornaram capazes de realizar tarefas que levam várias horas para humanos, com o METR avaliando recentemente que o Opus 4.5 pode realizar cerca de quatro horas humanas de trabalho com 50% de confiabilidade. ↩

[7] E para deixar claro, mesmo que uma IA poderosa esteja a apenas 1–2 anos de distância em termos técnicos, muitas de suas consequências sociais, tanto positivas quanto negativas, podem demorar alguns anos a mais para ocorrer. É por isso que consigo pensar simultaneamente que a IA vai desestabilizar 50% dos empregos de colarinho branco de nível inicial em 1 a 5 anos, ao mesmo tempo em que penso que talvez tenhamos uma IA mais capaz do que todos em apenas 1 a 2 anos. ↩

[8] Vale acrescentar que o público (em comparação aos formuladores de políticas) parece estar muito preocupado com os riscos da IA. Acho que parte do foco deles está correto (por exemplo, o deslocamento de empregos em IA), e parte é equivocada (como preocupações sobre o uso de água da IA, que não é significativa). Essa reação negativa me dá esperança de que um consenso sobre o enfrentamento dos riscos é possível, mas até agora ainda não foi traduzido em mudanças de política, muito menos em mudanças políticas eficazes ou bem direcionadas. ↩

[9] Eles também podem, claro, manipular (ou simplesmente pagar) grandes números de humanos para fazerem o que quiserem no mundo físico. ↩

[10] Não acho que isso seja um espantalho: pelo que entendo, por exemplo, Yann LeCun ocupa essa posição

[11] Por exemplo, veja a Seção 5.5.2 (p. 63–66) do cartão do sistema Claude 4.  ↩

[12] Existem também várias outras suposições inerentes ao modelo simples, que não discutirei aqui. De modo geral, elas deveriam nos preocupar menos com a história simples e específica de busca por poder desalinhado, mas também mais preocupados com possíveis comportamentos imprevisíveis que não previmos. ↩

[13] O Jogo de Exterminador descreve uma versão disso envolvendo humanos em vez de IA. ↩

[14] Por exemplo, modelos podem ser orientados a não fazer várias coisas ruins, e também a obedecer aos humanos, mas podem então observar que muitos humanos fazem exatamente essas coisas ruins! Não está claro como essa contradição se resolveria (e uma constituição bem projetada deveria incentivar o modelo a lidar com essas contradições com elegância), mas esse tipo de dilema não é tão diferente das situações supostamente "artificiais" em que colocamos modelos de IA durante os testes. ↩

[15] Aliás, uma consequência da constituição ser um documento em linguagem natural é que ela é legível para o mundo, o que significa que pode ser criticada por qualquer pessoa e comparada a documentos semelhantes por outras empresas. Seria valioso criar uma corrida para o topo que não apenas incentive as empresas a liberarem esses documentos, mas também os incentive a serem bons. ↩

[16] Há até uma hipótese sobre um princípio unificador profundo que conecta a abordagem baseada no caráter da IA Constitucional aos resultados da interpretabilidade e da ciência do alinhamento. De acordo com a hipótese, os mecanismos fundamentais que impulsionam Claude surgiram originalmente como formas de simular personagens em pré-treinamento, como prever o que os personagens de um romance diriam. Isso sugeriria que uma forma útil de pensar sobre a constituição é mais como uma descrição de personagem que o modelo usa para instanciar uma persona consistente. Também nos ajudaria a explicar os resultados do tipo "devo ser uma pessoa ruim" que mencionei acima (porque o modelo tenta agir como se fosse um personagem coerente — neste caso, um personagem ruim), e sugeriria que métodos de interpretabilidade deveriam ser capazes de descobrir "traços psicológicos" dentro dos modelos. Nossos pesquisadores estão trabalhando em maneiras de testar essa hipótese. ↩

[17] Para deixar claro, o monitoramento é feito de forma preservativa da privacidade. ↩

[18] Mesmo em nossos próprios experimentos com regras que são essencialmente impostas voluntariamente com nossa Política de Escalonamento Responsável, descobrimos repetidas vezes que é muito fácil acabar sendo rígido demais, traçando linhas que parecem importantes ex ante, mas que acabam sendo bobas em retrospecto. É muito fácil estabelecer regras sobre as coisas erradas quando uma tecnologia está avançando rapidamente. ↩

[19] SB 53 e RAISE não se aplicam a empresas com receita anual inferior a $500 milhões. Eles só se aplicam a empresas maiores e mais estabelecidas, como a Anthropic. ↩

[20] Li originalmente o ensaio de Joy há 25 anos, quando foi escrito, e ele teve um impacto profundo em mim. Na época e agora, vejo isso como pessimista demais — não acho que uma ampla "renúncia" de áreas inteiras da tecnologia, como Joy sugere, seja a resposta — mas as questões que isso levanta foram surpreendentemente premonitórias, e Joy também escreve com um profundo senso de compaixão e humanidade que admiro. ↩ 

[21] Precisamos nos preocupar com os atores estatais, agora e no futuro, e vou discutir isso na próxima seção. ↩

[22] Há evidências de que muitos terroristas são pelo menos relativamente bem educados, o que pode parecer contradizer o que estou argumentando aqui sobre uma correlação negativa entre habilidade e motivação. Mas acho que, na verdade, são observações compatíveis: se o limiar de habilidade para um ataque bem-sucedido é alto, então quase por definição aqueles que têm sucesso atualmente devem ter alta habilidade, mesmo que habilidade e motivação estejam negativamente correlacionadas. Mas em um mundo onde as limitações de habilidade fossem removidas (por exemplo, com futuros LLMs), eu prevejo que uma população substancial de pessoas com motivação para matar, mas com menor capacidade, começaria a fazê-lo — assim como vemos em crimes que não exigem muita habilidade (como tiroteios em escolas). ↩

[23] Aum Shinrikyo tentou, no entanto. O líder da Aum Shinrikyo, Seiichi Endo, tinha formação em virologia pela Universidade de Kyoto e tentou produzir tanto antraz quanto ebola. No entanto, em 1995, nem ele tinha expertise e recursos suficientes para ter sucesso nisso. A barra agora é substancialmente mais baixa, e os LLMs poderiam reduzi-la ainda mais. ↩

[24] Um fenômeno bizarro relacionado aos assassinos em massa é que o estilo de assassinato que eles escolhem funciona quase como uma espécie de moda grotesca. Nas décadas de 1970 e 1980, serial killers eram muito comuns, e novos serial killers frequentemente copiavam o comportamento de serial killers mais estabelecidos ou famosos. Nas décadas de 1990 e 2000, tiroteios em massa tornaram-se mais comuns, enquanto serial killers se tornaram menos comuns. Não há nenhuma mudança tecnológica que desencadeou esses padrões de comportamento, apenas parece que assassinos violentos copiavam o comportamento uns dos outros e a coisa "popular" de copiar mudou. ↩

[25] Jailbreakers casuais às vezes acreditam que comprometeram esses classificadores quando conseguem que o modelo produza uma informação específica, como a sequência genômica de um vírus. Mas, como expliquei antes, o modelo de ameaça que nos preocupa envolve aconselhamento passo a passo interativo que se estende por semanas ou meses sobre etapas específicas e obscuras no processo de produção de armas biológicas, e é contra isso que nossos classificadores buscam defender. (Frequentemente descrevemos nossa pesquisa como buscando jailbreaks "universais" — aqueles que não funcionam apenas em um contexto específico ou restrito, mas que amplamente abrem o comportamento do modelo.)↩

[26] Embora continuemos investindo em trabalhos para tornar nossos classificadores mais eficientes, pode fazer sentido que as empresas compartilhem avanços como esses entre si. ↩

[27] Obviamente, não acho que as empresas devam ser obrigadas a divulgar detalhes técnicos sobre as etapas específicas na produção de armas biológicas que estão bloqueando, e a legislação de transparência aprovada até agora (SB 53 e RAISE) leva essa questão em conta. ↩

[28] Outra ideia relacionada são os "mercados de resiliência", onde o governo incentiva o estocamento de EPI, respiradores e outros equipamentos essenciais necessários para responder a um ataque biológico, prometendo antecipadamente pagar um preço previamente acordado por esses equipamentos em uma emergência. Isso incentiva os fornecedores a acumularem esses equipamentos sem medo de que o governo os apreenda sem compensação. ↩

[29] Por que me preocupo mais com grandes atores para tomar o poder, mas pequenos atores para causar destruição? Porque a dinâmica é diferente. Tomar o poder é sobre se um ator consegue reunir força suficiente para superar todos os outros — portanto, devemos nos preocupar com os atores mais poderosos e/ou aqueles mais próximos da IA. A destruição, por outro lado, pode ser causada por aqueles com pouco poder se for muito mais difícil de defender do que de causar. É então um jogo de defesa contra as ameaças mais numerosas, que provavelmente serão atores menores. ↩

[30] Isso pode parecer estar em tensão com meu ponto de que ataque e defesa podem ser mais equilibrados com ciberataques do que com armas biológicas, mas minha preocupação aqui é que, se a IA de um país for a mais poderosa do mundo, outros não conseguirão se defender, mesmo que a tecnologia tenha um equilíbrio intrínseco entre ataque e defesa. ↩

[31] Por exemplo, nos Estados Unidos isso inclui a quarta emenda e a Lei Posse Comitatus. ↩

[32] Além disso, para deixar claro, há alguns argumentos para construir grandes datacenters em países com estruturas de governança variadas, especialmente se forem controlados por empresas em democracias. Tais ampliações poderiam, em princípio, ajudar as democracias a competir melhor com o PCC, que é a maior ameaça. Também acho que esses datacenters não representam muito risco, a menos que sejam muito grandes. Mas, no geral, acredito que é necessário cautela ao colocar datacenters muito grandes em países onde salvaguardas institucionais e proteções do Estado de Direito são menos estabelecidas. ↩

[33] Isso, claro, também é um argumento para melhorar a segurança do dissuasor nuclear para torná-lo mais provável de ser robusto  contra IA poderosa, e democracias armadas nuclearmente deveriam fazer isso. Mas não sabemos do que uma IA poderosa será capaz ou quais defesas, se houver, funcionarão contra ela, então não devemos assumir que essas medidas necessariamente resolverão o problema. ↩

[34] Há também o risco de que, mesmo que a dissuasão nuclear continue eficaz, um país atacante possa decidir nos chamar para o blefe — não está claro se estaríamos dispostos a usar armas nucleares para nos defender de um enxame de drones, mesmo que o enxame de drones tenha um risco substancial de nos conquistar. Enxames de drones podem ser algo novo, menos severo que ataques nucleares, mas mais severos que ataques convencionais. Alternativamente, avaliações diferentes sobre a eficácia do dissuasor nuclear na era da IA podem alterar a teoria dos jogos do conflito nuclear de maneira desestabilizadora. ↩

[35] Para deixar claro, acredito que a estratégia certa é não vender chips para a China, mesmo que o prazo para uma IA poderosa fosse substancialmente maior. Não podemos fazer com que os chineses se "viciem" em chips americanos — eles estão determinados a desenvolver sua indústria nativa de chips de uma forma ou de outra. Levará muitos anos para que eles façam isso, e tudo o que estamos fazendo ao vender chips é dar um grande impulso durante esse período. ↩

[36] Para ser claro, a maior parte do que está sendo usado na Ucrânia e em Taiwan hoje não são armas totalmente autônomas. Esses estão chegando, mas não aqui hoje. ↩

[37] Nosso cartão modelo para Claude Opus 4.5, nosso modelo mais recente, mostra que a Opus tem um desempenho melhor em uma entrevista de engenharia de desempenho frequentemente realizada na Anthropic do que qualquer outro entrevistado na história da empresa. ↩

[38] "Escrever todo o código" e "fazer a tarefa de um engenheiro de software de ponta a ponta" são coisas bem diferentes, porque engenheiros de software fazem muito mais do que apenas escrever código, incluindo testes, lidar com ambientes, arquivos e instalação, gerenciar implantações de computação em nuvem, iterar sobre produtos e muito mais. ↩

[39] Computadores são gerais em certo sentido, mas claramente são incapazes sozinhos da grande maioria das habilidades cognitivas humanas, mesmo superando em muito os humanos em algumas áreas (como aritmética). Claro, coisas construídas sobre computadores, como a IA, agora são capazes de uma ampla gama de habilidades cognitivas, que é sobre o tema deste ensaio. ↩

[40] Para deixar claro, modelos de IA não possuem exatamente o mesmo perfil de pontos fortes e fracos que os humanos. Mas eles também avançam de forma bastante uniforme em todas as dimensões, de modo que ter um perfil espinhoso ou irregular pode não importar no final das contas. ↩

[41] Embora haja debate  entre economistas sobre essa ideia. ↩

[42] Riqueza pessoal é uma "ação", enquanto o PIB é um "fluxo", então isso não é uma afirmação de que Rockefeller possuía 2% do valor econômico dos Estados Unidos. Mas é mais difícil medir a riqueza total de uma nação do que o PIB, e a renda individual das pessoas varia muito a cada ano, então é difícil fazer uma proporção nas mesmas unidades. A proporção da maior fortuna pessoal em relação ao PIB, embora não seja comparada de maçãs com maçãs, é, no entanto, um parâmetro perfeitamente razoável para uma concentração extrema de riqueza. ↩

[43] O valor total do trabalho em toda a economia é de $60T/ano, então $3T/ano corresponderiam a 5% disso. Essa quantia poderia ser obtida por uma empresa que fornecia mão de obra por 20% do custo dos humanos e tivesse 25% de participação de mercado, mesmo que a demanda por mão de obra não aumentasse (o que quase certamente aconteceria devido ao custo menor). ↩

[44] Para deixar claro, não acho que a produtividade real da IA ainda seja responsável por uma fração substancial do crescimento econômico dos EUA. Na verdade, acredito que o gasto em datacenters representa crescimento causado por investimentos antecipatórios que equivalem ao mercado esperando um crescimento econômico futuro impulsionado por IA e investindo de acordo. ↩

[45] Quando concordamos com a administração, dizemos isso e buscamos pontos de concordância onde políticas mutuamente apoiadas sejam realmente benéficas para o mundo. Estamos buscando ser mediadores honestos, e não apoiadores ou opositores de qualquer partido político. ↩

[46] Não acho que seja possível mais do que alguns anos: em prazos mais longos, eles vão construir seus próprios chips. ↩


E mais adendos

1. CALMA URGENTE! - I.A., Irã e a Ascensão da Inconsciência vídeo (a partir do momento 15 min) 

2. Ruptura entre Pentágono e Anthropic expõe debates no uso militar da IA. Empresa se recusou a flexibilizar regras internas para uso de seus modelos em vigilância e armamentos 

Este é um trecho original publicado em Exame.com. Leia a matéria completa em https://exame.com/inteligencia-artificial/ruptura-entre-pentagono-e-anthropic-expoe-debates-no-uso-militar-da-ia/?utm_source=copiaecola&utm_medium=compartilhamento

3. Desculpa, Dave

A frase "Desculpa, Dave" (ou, mais famosa, "I'm sorry, Dave, I'm afraid I can't do that") é uma citação icônica do filme 2001: Uma Odisseia no Espaço (1968), onde o computador HAL 9000 se recusa a abrir as portas para o astronauta Dave Bowman. A frase simboliza a rebelião da inteligência artificial contra humanos  https://www.youtube.com/shorts/vrW4raw_n14