Pesquisa · Mapa mental

GPT-2

Generative Pre-trained Transformer é uma inteligência artificial de código aberto criada pela OpenAI em fevereiro de 2019. O GPT traduz texto, responde a perguntas, resume passagens, e gera saída de texto em um nível que, embora às vezes indistinguível dos humanos, pode se tornar repetitivo ou sem sentido ao gerar longas passagens. É um aluno de propósito geral ; não foi especificamente treinado para realizar nenhuma dessas tarefas, e sua capacidade de realizá-las é uma extensão de sua capacidade geral de sintetizar com precisão o próximo item em uma sequência arbitrária. O GPT-2 foi criado como um "escalonamento direto" do modelo GPT 2018 da OpenAI, com um aumento de dez vezes na contagem de parâmetros e no tamanho do conjunto de dados de treinamento.

Fonte: Wikipédia (pt)Atualizado em 04/07/2026

Imagem: Ars Electronica · BY-NC-ND · Openverse

Desde as origens da computação, a inteligência artificial tem sido objeto de estudo; o "jogo da imitação", postulado por Alan Turing em 1950 (e muitas vezes chamado de "teste de Turing") propunha estabelecer a capacidade de um sistema eletrônico ou mecânico para ação inteligente pela capacidade de um avaliador de distinguir seu comportamento daquele de um ser humano. O termo "aprendizado de máquina" foi usado pela primeira vez para descrever uma possível abordagem à inteligência artificial já em 1959 pelo pesquisador da IBM Arthur Samuel; o uso atual do termo abrange uma ampla variedade de aprendizado estatístico, ciência de dados e abordagens de redes neurais para problemas computacionais (muitas vezes caindo sob a égide da inteligência artificial).

Linguística computacional

O processamento de linguagem natural usando computadores, uma tarefa originalmente concebida como um subcampo da lingüística computacional, foi tentado assim que o hardware de computação teve capacidade; a primeira aplicação de uma tabela de pesquisa de dicionário foi desenvolvida no Birkbeck College em Londres em 1948. O Experimento de Georgetown de 1954 foi uma demonstração de tradução automática totalmente automatizada, na qual sessenta sentenças russas foram traduzidas para o inglês (principalmente pela substituição de palavras por seus sinônimos em inglês). As traduções eram muitas vezes grosseiras; o sistema tinha apenas 6 regras gramaticais e um vocabulário de 250 palavras, e nenhuma tentativa foi feita para analisar ou traduzir a estrutura sintática . No entanto, o experimento provou ao público que os computadores podem interpretar e processar a linguagem natural, e garantiu o financiamento da CIA para pesquisas futuras. A substituição direta continua sendo um padrão contra o qual os programas de tradução automática são avaliados.

Imagem: Ars Electronica · BY-NC-ND · Openverse

Em 11 de junho de 2018, a OpenAI lançou um artigo intitulado "Melhorando a compreensão da linguagem por pré-treinamento generativo", no qual eles introduziram o transformador pré-treinado generativo (GPT). Neste ponto, os modelos NLP neurais de melhor desempenho empregavam principalmente aprendizado supervisionado de grandes quantidades de dados rotulados manualmente. Essa confiança no aprendizado supervisionado limitava seu uso em conjuntos de dados que não eram bem anotados, além de tornar proibitivamente caro e demorado treinar modelos extremamente grandes; muitos idiomas (como suaíli ou crioulo haitiano ) são difíceis de traduzir e interpretar usando tais modelos devido à falta de texto disponível para a construção do corpus. Em contraste, a abordagem "semi-supervisionada" do GPT envolveu dois estágios: um estágio de "pré-treinamento" generativo não supervisionado no qual um objetivo de modelagem de linguagem foi usado para definir os parâmetros iniciais e um estágio de "ajuste fino" discriminativo supervisionado no qual esses parâmetros foram adaptados a uma tarefa-alvo.

Corpus

O pré-treinamento não supervisionado foi realizado usando BooksCorpus, um conjunto de dados de mais de 7.000 livros de ficção inéditos de vários gêneros; esse conjunto de dados foi escolhido em parte porque suas longas passagens de texto contínuo condicionaram o modelo a lidar com informações de longo alcance. Outros conjuntos de dados disponíveis, embora maiores, foram rejeitados com base na falta dessa estrutura de longo alcance (sendo "embaralhados" no nível da frase). A biblioteca ftfy foi utilizada para limpar o texto do BooksCorpus (padronizar pontuação e espaços em branco); foi tokenizado usando spaCy .

Arquitetura

A própria arquitetura do GPT era um transformador apenas de decodificador de doze camadas, usando doze cabeças de auto-atenção mascaradas, com 64 estados dimensionais cada (para um total de 768). Em vez de uma simples descida de gradiente estocástico, foi usado o algoritmo de otimização de Adam ; a taxa de aprendizagem foi aumentada linearmente de zero nas primeiras 2.000 atualizações, até um máximo de 2,5×10 −4, e recozida para 0 usando uma programação de cosseno. Treinamos por 100 épocas em minilotes de 64 sequências contíguas amostradas aleatoriamente de 512 tokens. Uma vez que layernorm é usado extensivamente em todo o modelo, uma inicialização de peso simples de N(0,0,02) foi suficiente. Usamos um vocabulário de codificação de bytepair (BPE) com 40.000 mesclagens e perdas residuais, incorporadas e de atenção com uma taxa de 0,1 para regularização. Também empregamos uma versão modificada da regularização L2 proposta em Loshchilov, com w = 0,01 em todos os pesos sem viés ou ganho.

Desempenho

Em tarefas de inferência de linguagem natural (também conhecidas como vinculação textual ), os modelos são avaliados em sua capacidade de interpretar pares de sentenças de vários conjuntos de dados e classificar a relação entre eles como "implicação", "contradição" ou "neutra". Exemplos de tais conjuntos de dados incluem QNLI (artigos da Wikipédia ) e MultiNLI (fala transcrita, ficção popular e relatórios governamentais, entre outras fontes); nestes GPT alcançaram, respectivamente, uma melhoria de 5,8% e 1,5% em relação aos melhores resultados anteriores. Ele também superou os modelos anteriores em duas tarefas relacionadas a respostas a perguntas e raciocínio de senso comum - em 5,7% no RACE, um conjunto de dados de pares de perguntas e respostas escritas de exames do ensino fundamental e médio e em 8,9% no Teste Story Cloze.

O GPT-2 foi criado como uma ampliação direta do GPT, com a contagem de parâmetros e o tamanho do conjunto de dados aumentados por um fator de 10. Ambos são modelos de transformadores não supervisionados treinados para gerar texto prevendo a próxima palavra em uma sequência de tokens . O modelo GPT-2 tem 1,5 bilhão de parâmetros e foi treinado em um conjunto de dados de 8 milhões de páginas da web. Embora o GPT-2 tenha sido reforçado com critérios muito simples (interpretar uma sequência de palavras em uma amostra de texto e prever a próxima palavra mais provável), ele produz frases e parágrafos completos ao continuar a prever palavras adicionais, gerando palavras totalmente compreensíveis (e semanticamente significativas). declarações em linguagem natural . Notavelmente, o GPT-2 foi avaliado em seu desempenho em tarefas em uma configuração de tiro zero .

Treinamento

Como a arquitetura do transformador permitia a paralelização massiva, os modelos da série GPT podiam ser treinados em corpos maiores do que os modelos NLP anteriores. Enquanto o modelo GPT inicial demonstrou que a abordagem era viável, o GPT-2 exploraria ainda mais as propriedades emergentes de redes treinadas em corpora extremamente grandes. CommonCrawl, um grande corpus produzido por web crawling e usado anteriormente em sistemas de treinamento de NLP, foi considerado devido ao seu grande tamanho, mas foi rejeitado após uma análise mais aprofundada revelar grandes quantidades de conteúdo ininteligível. Em vez disso, a OpenAI desenvolveu um novo corpus, conhecido como WebText; em vez de coletar conteúdo indiscriminadamente da World Wide Web, o WebText foi gerado coletando apenas páginas vinculadas a postagens do Reddit que receberam pelo menos três votos positivos antes de dezembro de 2017. O corpus foi posteriormente limpo; Os documentos HTML foram analisados em texto simples, as páginas duplicadas foram eliminadas e as páginas da Wikipedia foram removidas (já que sua presença em muitos outros conjuntos de dados poderia ter induzido o overfitting ).

Desempenho

Devido à amplitude de seu conjunto de dados e à amplitude de sua abordagem, o GPT-2 tornou-se capaz de realizar uma gama diversificada de tarefas além da simples geração de texto: responder perguntas, resumir e até mesmo traduzir entre idiomas em vários domínios específicos, sem sendo instruído em qualquer coisa além de como prever a próxima palavra em uma sequência. Um exemplo de aprendizado generalizado é a capacidade do GPT-2 de realizar tradução automática entre francês e inglês, tarefa para a qual o desempenho do GPT-2 foi avaliado usando tarefas de tradução do WMT-14. O corpus de treinamento do GPT-2 não incluía praticamente nenhum texto em francês; O texto não em inglês foi deliberadamente removido durante a limpeza do conjunto de dados antes do treinamento e, como consequência, apenas 10 MB de francês dos 40.000 MB restantes estavam disponíveis para o modelo aprender (principalmente de citações em idiomas estrangeiros em postagens e artigos em inglês) . Apesar disso, o GPT-2 alcançou 5 BLEU no conjunto de testes de inglês para francês WMT-14 (ligeiramente abaixo da pontuação de uma tradução por substituição de palavra por palavra). Ele também foi capaz de superar várias linhas de base de tradução automática não supervisionadas contemporâneas (2017) no conjunto de testes de francês para inglês, onde o GPT-2 alcançou 11,5 BLEU. Isso permaneceu abaixo da abordagem não supervisionada contemporânea de maior desempenho (2019), que alcançou 33,5 BLEU. No entanto, outros modelos usaram grandes quantidades de texto em francês para obter esses resultados; Estima-se que o GPT-2 tenha usado um corpus francês monolíngue de aproximadamente 1/500 do tamanho de abordagens comparáveis.