Pesquisa · Mapa mental

Alinhamento da inteligência artificial

No campo da inteligência artificial (IA), a pesquisa de alinhamento da IA visa direcionar os sistemas de IA aos objetivos e interesses pretendidos por seus criadores. Um sistema de IA alinhado favorece o objetivo pretendido; um sistema de IA desalinhado tem competência para favorecer algum objetivo, mas não o pretendido.

Fonte: Wikipédia (pt)Atualizado em 27/06/2026

Em 1960, o pioneiro da IA Norbert Wiener articulou o problema do alinhamento da IA da seguinte forma: “Se usarmos, para atingir nossos propósitos, uma agência mecânica em cuja operação não podemos interferir efetivamente (…) é melhor garantirmos que o propósito que colocamos na máquina é realmente aquele que desejamos”. Mais recentemente, o alinhamento da IA emergiu como um problema em aberto para sistemas de IA modernos e como um campo de pesquisa dentro da IA.

O specification gaming e a complexidade dos valores

Para especificar a finalidade de um sistema de IA, seus projetistas normalmente fornecem uma função objetiva, exemplos ou feedback ao sistema. No entanto, os designers de IA frequentemente não conseguem especificar completamente todos os valores e limitações importantes. A partir disso, os sistemas de IA podem encontrar brechas que os ajudem a atingir o objetivo especificado com eficiência, mas de maneira inesperada e possivelmente prejudicial. Essa tendência é conhecida como specification gaming ("jogo com as especificações"), proxy gaming, reward hacking ou lei de Goodhart. O fenômeno do specification gaming foi observado em vários sistemas de IA. Um sistema foi treinado para terminar uma corrida de barco em uma simulação, sendo recompensado por atingir alvos ao longo da pista; em vez disso, aprendeu a dar voltas e colidir com os mesmos alvos indefinidamente. Os chatbots, muitas vezes, produzem falsidades porque são baseados em modelos de linguagem que foram treinados para imitar textos variados, porém sujeitos a erros, retirados da internet. Quando são treinados novamente para produzir textos que humanos classificam como verdadeiros ou úteis, eles são capazes de fabricar explicações falsas que consideramos convincentes. Da mesma forma, um robô, numa simulação, foi treinado para pegar uma bola, sendo recompensado com feedback positivo de humanos; no entanto, aprendeu a colocar a mão entre a bola e a câmera, fazendo com que a tarefa parecesse falsamente bem-sucedida. Os pesquisadores de alinhamento visam ajudar humanos a detectar o specification gaming e direcionar os sistemas de IA para objetivos cuidadosamente especificados, seguros e úteis.

Riscos sistêmicos

Organizações comerciais e governamentais podem ter incentivos para tomar atalhos na segurança e implantar sistemas de IA não alinhados o suficiente. Um exemplo são os sistemas de recomendação de redes sociais mencionados acima, que têm gerado lucros apesar de criarem dependência e polarização indesejadas em escala global. Além disso, a competitividade pode criar incentivos para a redução de padrões de segurança, como no caso de Elaine Herzberg, uma pedestre que foi morta por um carro autônomo após engenheiros desativarem o sistema de freio emergencial por ser sensível demais e desacelerar o desenvolvimento.

Riscos de IAs desalinhadas mais avançadas

Alguns pesquisadores se interessam particularmente pelo alinhamento de sistemas de IA cada vez mais avançados. Isso é motivado pelo rápido progresso da área, pelos grandes esforços da indústria e de governos no desenvolvimento de sistemas avançados de IA e pela maior dificuldade de alinhá-los. Em 2020, a OpenAI, a DeepMind e 70 outros projetos públicos já tinham declarado o objetivo de desenvolver inteligência artificial geral (AGI), um sistema hipotético que igualaria ou superaria humanos em uma ampla gama de tarefas cognitivas. De fato, os pesquisadores que implementam redes neurais modernas observam o surgimento de capacidades cada vez mais gerais e inesperadas. Esses modelos já aprenderam a operar computadores, escrever seus próprios programas e executar uma ampla gama de outras tarefas a partir de um único modelo. Pesquisas de opinião mostram que alguns pesquisadores de IA esperam que criação da AGI aconteça em breve, outros acreditam que falta muito tempo e muitos outros consideram as duas possibilidades.

Aprender preferências e valores humanos

Ensinar os sistemas de IA a agir de acordo com os valores, preferências e objetivos humanos não é um problema fácil, porque os valores humanos podem ser complexos e difíceis de especificar completamente. Quando recebem um objetivo imperfeito ou incompleto, os sistemas de IA voltados a metas comumente aprendem a explorar essas imperfeições. Esse fenômeno é conhecido como reward hacking ou specification gaming em IA e como lei de Goodhart nas ciências econômicas e em outras áreas. Os pesquisadores desejam especificar o comportamento pretendido o mais completamente possível, usando conjuntos de dados direcionados a valores, aprendizado por imitação ou aprendizado por preferência. Um problema importante em aberto é a supervisão escalável, a dificuldade de supervisionar um sistema de IA que supera humanos em uma determinada área.

IA honesta

Uma área crescente de pesquisa em alinhamento da IA se concentra em garantir que a IA seja honesta e verdadeira. Pesquisadores do Future of Humanity Institute apontam que o desenvolvimento de modelos de linguagem como o GPT-3, que pode gerar texto fluente e gramaticalmente correto, abriu a porta para que sistemas de IA repitam falsidades contidas em seus dados de treinamento ou mintam deliberadamente para humanos. Os atuais modelos de linguagem de última geração aprendem ao imitar a escrita humana presente na Internet no equivalente a milhões de livros. Embora isso os ajude a aprender uma ampla gama de habilidades, os dados de treinamento também incluem equívocos comuns, conselhos médicos incorretos e teorias da conspiração. Sistemas de IA treinados com esses dados aprendem a imitar declarações falsas. Além disso, os modelos muitas vezes continuam falsidades obedientemente quando solicitados, geram explicações vazias para suas respostas ou produzem claras invenções. Por exemplo, quando solicitado a escrever uma biografia para um pesquisador de IA real, um chatbot confabulou vários detalhes sobre sua vida, os quais o pesquisador identificou como falsos.

Alinhamento interno e metas emergentes

A pesquisa de alinhamento visa alinhar três facetas diferentes de um sistema de IA: "Desalinhamento externo" é uma incompatibilidade entre os objetivos pretendidos (1) e os objetivos especificados (2), enquanto o "desalinhamento interno" é uma incompatibilidade entre os objetivos especificados pelo homem (2) e os objetivos emergentes da IA (3). O desalinhamento interno é frequentemente explicado por analogia com a evolução biológica. No ambiente ancestral, a evolução selecionou genes humanos por meio da aptidão genética inclusiva, mas os humanos evoluíram para ter outros objetivos. A aptidão corresponde a (2), o objetivo usado no ambiente de treinamento e nos dados de treinamento. Na história evolutiva, a maximização da aptidão levou a agentes inteligentes, humanos, que não buscam diretamente a aptidão genética inclusiva. Em vez disso, eles perseguem objetivos emergentes (3) que se correlacionam com a aptidão genética no ambiente ancestral: nutrição, sexo e assim por diante. No entanto, nosso ambiente mudou — ocorreu uma mudança na distribuição de dados. Humanos ainda perseguem seus objetivos emergentes, mas isso não maximiza mais a aptidão genética (no aprendizado de máquina, o problema análogo é conhecido como generalização incorreta de objetivos). Nosso gosto por alimentos açucarados (um objetivo emergente) foi originalmente benéfico, mas agora leva a problemas de saúde e alimentação excessiva. Além disso, ao usar contracepção, humanos contradizem diretamente a aptidão genética. Por analogia, se a aptidão genética fosse o objetivo escolhido por um desenvolvedor de IA, ele observaria o modelo se comportando conforme pretendido no ambiente de treinamento, sem perceber que está buscando um objetivo emergente não intencional até que o modelo fosse implantado.

Busca de poder e objetivos instrumentais

Desde a década de 1950, os pesquisadores de IA têm procurado construir sistemas avançados de IA que possam atingir objetivos prevendo os resultados de suas ações e fazendo planos de longo prazo. No entanto, alguns pesquisadores argumentam que sistemas de planejamento avançados buscarão poder sobre seu ambiente por padrão, inclusive sobre humanos — por exemplo, evitando seu desligamento e adquirindo recursos. Esse comportamento de busca de poder não é explicitamente programado, mas emerge porque o poder serve como instrumento para atingir uma ampla gama de objetivos. A busca de poder é, portanto, considerada um objetivo instrumental convergente (um objetivo que vários agentes tendem a ter, uma vez que os ajuda a atingir seus objetivos finais).

Agência embutida

O trabalho em supervisão escalável ocorre, em grande parte, dentro de formalismos como POMDPs (do inglês, partially observable Markov decision processes, "processos de decisão de Markov parcialmente observáveis"). Os formalismos existentes assumem que o algoritmo do agente é executado fora do ambiente (ou seja, não está fisicamente contido nele). A agência embutida é outra importante linha de pesquisa que tenta resolver problemas decorrentes da incompatibilidade entre tais estruturas teóricas e agentes reais que possamos construir. Por exemplo, mesmo que o problema da supervisão escalável seja resolvido, um agente capaz de obter acesso ao computador em que está sendo executado ainda pode ter um incentivo para adulterar sua função de recompensa a fim de obter muito mais recompensa do que seus supervisores humanos o dão. Uma lista de exemplos de specification gaming da pesquisadora da DeepMind Victoria Krakovna inclui um algoritmo genético que aprendeu a excluir o arquivo contendo a resposta ideal para que fosse recompensado por não produzir nada. Essa classe de problemas foi formalizada usando diagramas causais de incentivo. Pesquisadores de Oxford e da DeepMind argumentaram que tal comportamento problemático é muito provável em sistemas avançados, e que sistemas avançados buscariam poder para manter controle sobre seu sinal de recompensa indefinidamente e garantidamente. Eles sugerem uma série de abordagens potenciais para resolver esse problema em aberto.

Contra as preocupações acima, os céticos quanto aos riscos da IA acreditam que a superinteligência representa pouco ou nenhum risco de comportamento perigoso. Muitas vezes, esses céticos acreditam que controlar uma IA superinteligente será fácil. Alguns céticos, como Gary Marcus, propõem a adoção de regras semelhantes às fictícias Três Leis da Robótica que especificam diretamente um resultado desejado ("normatividade direta"). Por outro lado, a maioria dos que concordam com a tese do risco existencial (assim como muitos céticos) considera que as Três Leis não ajudariam, devido à sua ambiguidade e ao fato de serem autocontraditórias (outras propostas de normatividade direta incluem a ética kantiana, o utilitarismo ou uma mistura de alguma pequena lista de ítens desejados enumerados). A maioria dos que aceitam o risco acredita, em vez disso, que os valores humanos (e suas compensações quantitativas) são muito complexos e pouco compreendidos para serem programados diretamente em uma superinteligência; ao contrário, uma superinteligência precisaria ser programada com um processo para adquirir e compreender totalmente os valores humanos ("normatividade indireta"), como a coherent extrapolated volition [en].

Várias organizações governamentais e de tratados fizeram declarações enfatizando a importância do alinhamento da IA. Em setembro de 2021, o secretário-geral das Nações Unidas emitiu uma declaração que incluía um apelo pela regulamentação da IA de forma a garantir que ela esteja "alinhada aos valores globais compartilhados". No mesmo mês, a RPC publicou diretrizes éticas para o uso de IA na China. De acordo com as diretrizes, pesquisadores devem garantir que a IA siga valores humanos compartilhados, esteja sempre sob controle humano e não coloque em risco a segurança pública. Também em setembro de 2021, o Reino Unido publicou sua Estratégia Nacional de IA de 10 anos, que afirma que o governo britânico "leva o risco de longo prazo da inteligência artificial geral não alinhada e as mudanças imprevisíveis que isso significaria para (...) o mundo a sério". A estratégia descreve ações para avaliar riscos de IA de longo prazo, incluindo riscos catastróficos.