Capítulo 82 – GPT-3 – Características e Limitações

Deep Learning Book

Em sua busca para construir modelos de linguagem muito fortes e poderosos que não precisariam de nenhum ajuste fino e apenas de algumas demonstrações para entender as tarefas e executá-las, a Open AI construiu o modelo GPT-3 com 175 bilhões de parâmetros. Este modelo tem 10 vezes mais parâmetros do que o poderoso modelo de linguagem Turing NLG da Microsoft e 100 vezes mais parâmetros do que o GPT-2.

Devido ao grande número de parâmetros e ao extenso conjunto de dados em que o GPT-3 foi treinado, ele tem um bom desempenho em tarefas de PLN (Processamento de Linguagem Natural) em configuração zero-shot e few-shot. Devido à sua grande capacidade, ele tem recursos como escrever artigos que são difíceis de distinguir dos escritos por humanos. Ele também pode realizar tarefas dinâmicas nas quais nunca foi explicitamente treinado, como somar números, escrever consultas SQL e códigos, decifrar palavras em uma frase, escrever códigos React e JavaScript com a descrição da tarefa em linguagem natural, etc.

Vamos entender as características e limitações mencionados no paper do GPT-3.

1. Objetivos e Conceitos de Aprendizagem

Aprendizagem no contexto: grandes modelos de linguagem desenvolvem reconhecimento de padrões e outras habilidades usando os dados de texto em que são treinados. Ao aprender o objetivo principal de prever a próxima palavra, dada as palavras de contexto, os modelos de linguagem também começam a reconhecer padrões em dados que os ajudam a minimizar a perda da tarefa de modelagem de linguagem. Mais tarde, essa capacidade ajuda o modelo durante a transferência de tarefa de tiro zero. Quando apresentado com alguns exemplos e/ou uma descrição do que precisa fazer, os modelos de linguagem correspondem ao padrão dos exemplos com o que aprendeu no passado para dados semelhantes e usa esse conhecimento para executar as tarefas. Esta é uma capacidade poderosa de grandes modelos de linguagem que cresce com o aumento do número de parâmetros do modelo.

Configuração de poucas tentativas, uma e nenhuma tentativa: como discutido nos capítulos anteriores, poucas configurações, uma e nenhuma tentativa são casos especializados de transferência de tarefa de poucas tentativas. Na configuração de poucas tentativas, o modelo é fornecido com a descrição da tarefa. Na configuração one-shot, o modelo é fornecido exatamente um exemplo e na configuração zero-shot nenhum exemplo é fornecido. 

2. Conjunto de Dados

O GPT-3 foi treinado em uma mistura de cinco corpora diferentes, cada um com um determinado peso atribuído a ele. Conjuntos de dados de alta qualidade foram amostrados com mais frequência e o modelo foi treinado para mais de uma época neles. Os cinco conjuntos de dados usados ​​foram: Common Crawl, WebText2, Books1, Books2 e Wikipedia.

3. Detalhes do Modelo e Implementação

A arquitetura do GPT-3 é a mesma do GPT-2. Algumas diferenças principais do GPT-2 são:

  • O GPT-3 tem 96 camadas com cada camada tendo 96 cabeças de atenção.
  • O tamanho dos embeddings de palavras foi aumentado para 12888 no GPT-3, sendo 1600 no GPT-2.
  • O tamanho da janela de contexto foi aumentado de 1024 no GPT-2 para 2048 tokens no GPT-3.
  • O otimizador Adam foi usado com β_1 = 0,9, β_2 = 0,95 e ε = 10 ^ (- 8).
  • Foram usados ​​padrões alternados de atenção esparsa e densa localmente.

4. Desempenho e Resumo

O modelo GPT-3 foi avaliado em uma série de modelagem de linguagem e conjuntos de dados de PLN. O GPT-3 teve um desempenho melhor do que o estado da arte para conjuntos de dados de modelagem de linguagem como LAMBADA e Penn Tree Bank em poucos ou zero-shot.

Para outros conjuntos de dados, ele não conseguiu superar o estado da arte, mas melhorou o desempenho de última geração. O GPT-3 também teve um desempenho razoavelmente bom em tarefas de PLN, como resposta a perguntas em livros fechados e resolução de esquemas, tradução, etc., muitas vezes superando o estado da arte ou tendo um desempenho comparável a modelos ajustados. Para a maioria das tarefas, o modelo teve um desempenho melhor na configuração de poucas tentativas em comparação com uma e nenhuma tentativa.

Além de avaliar o modelo em tarefas de PLN convencionais, o modelo também foi avaliado em tarefas sintéticas como adição aritmética, decodificação de palavras, geração de artigos de notícias, aprendizagem e uso de palavras novas, etc. Para essas tarefas também, o desempenho aumentou com o aumento no número de parâmetros e o modelo teve melhor desempenho na configuração de poucas tentativas do que uma e nenhuma tentativa.

5. Limitações e Impactos Mais Amplos

O documento discute vários pontos fracos do modelo GPT-3 e áreas abertas para melhorias. Vamos resumi-los aqui.

Embora o GPT-3 seja capaz de produzir texto de alta qualidade, às vezes começa a perder coerência ao formular frases longas e repete sequências de texto indefinidamente. Além disso, o GPT-3 não tem um desempenho muito bom em tarefas como inferência de linguagem natural (determinar que se uma frase implica outra frase), preencher os espaços em branco, algumas tarefas de compreensão de leitura etc. O artigo cita a unidirecionalidade dos modelos GPT como a causa provável para essas limitações e sugere o treinamento de modelos bidirecionais nesta escala para superar esses problemas.

Outra limitação apontada pelo artigo é o objetivo de modelagem de linguagem genérica do GPT-3, que pesa cada token igualmente e não tem a noção de tarefa ou previsão de tokens orientada para a meta. Para contornar isso, o artigo sugere abordagens como aumento do objetivo de aprendizagem, uso de aprendizagem por reforço para ajustar modelos, adição de outras modalidades, etc.

Outras limitações do GPT-3 incluem inferência complexa e cara do modelo devido à sua arquitetura pesada, menos interpretabilidade da linguagem e resultados gerados pelo modelo e incerteza sobre o que ajuda o modelo a atingir seu comportamento de aprendizado de poucas tentativas.

Junto com essas limitações, o GPT-3 acarreta o risco potencial de uso indevido de sua capacidade de geração de texto semelhante ao humano para phishing, spamming, disseminação de informações incorretas ou realização de outras atividades fraudulentas. Além disso, o texto gerado pelo GPT-3 possui os preconceitos da linguagem e os artigos gerados pelo GPT-3 podem apresentar preconceitos de gênero, etnia, raça ou religião e, portanto, torna-se extremamente importante utilizar tais modelos com cuidado e monitorar o texto gerado por eles antes de sua utilização.

Conclusão

Resumimos a jornada e os desenvolvimentos dos modelos OpenAI GPT e sua evolução ao longo deste e dos capítulos anteriores. Esses modelos são, sem dúvida, modelos de linguagem muito poderosos e revolucionaram o domínio do Processamento de Linguagem Natural ao realizar uma infinidade de tarefas usando apenas as instruções e alguns exemplos. Embora estes modelos não estejam em pé de igualdade com os humanos no entendimento da linguagem natural, eles certamente mostraram um caminho a seguir para atingir esse objetivo.

Referências: