Como Chat GPT é treinado?

como-o-chat-gpt-e-treinado-768x435-718x.jpg

Se você está familiarizado com o ChatGPT, talvez já tenha ouvido falar que ele é treinado em um vasto corpus de dados. Mas o que exatamente isso significa? Neste artigo, vamos nos aprofundar nas complexidades de como é o treinamento do ChatGPT."

ChatGPT é um modelo de linguagem pré-treinado que foi ajustado por meio de técnicas de aprendizado supervisionado e de reforço. O processo de treinamento do ChatGPT envolveu a inserção de uma grande quantidade de dados textuais no modelo e o ajuste de seus parâmetros para que ele pudesse gerar texto semelhante ao texto do corpus de treinamento.

A abordagem de aprendizagem não supervisionada foi usada para este processo, o que significa que o modelo não recebeu feedback explícito sobre se o texto gerado estava correto ou incorreto. Em vez disso, o modelo ajusta seus parâmetros com base na probabilidade do texto gerado ser semelhante ao texto do corpus de treinamento.

GPT-3, o modelo principal do ChatGPT-3, é um dos maiores modelos de linguagem já criados, com 175 bilhões de parâmetros e um contexto de 2048 tokens. É treinado em centenas de bilhões de palavras do Common Crawl, WebText2, Books1 / 2, Wikipedia em inglês e exemplos de código em CSS, JSX, Python e outras linguagens de programação.

O método de treinamento utilizado para o GPT-3 é o pré-treinamento generativo, o que significa que ele é treinado para prever o próximo token ou palavra na frase de entrada.

Melhor alternativa ao Chat GPT

Aprendizado supervisionado

O modelo ChatGPT foi ajustado por um processo de aprendizado supervisionado por treinadores humanos. Esses treinadores conversaram, assumindo tanto o papel do usuário quanto do assistente de IA.

Eles receberam sugestões do modelo para orientá-los na composição de suas respostas, que foram combinadas com o conjunto de dados InstructGPT que havia sido convertido em formato de diálogo.

Aprendizado por reforço

O modelo foi ainda mais aprimorado por meio de aprendizado por reforço usando Otimização de Política Proximal (PPO). Treinadores humanos avaliaram respostas geradas pelo modelo de uma conversa anterior e usaram essas avaliações para desenvolver modelos de recompensa. Então, o modelo foi ajustado com base nesses modelos de recompensa.

O processo de ajuste fino foi realizado diversas vezes para alcançar um desempenho melhor. Os algoritmos PPO são mais econômicos em termos de custo em comparação com outros algoritmos e têm um desempenho mais rápido, o que os torna ideais para esse processo.

A OpenAI continua coletando informações dos usuários que interagem com o ChatGPT, que podem ser utilizadas para aprimorar e refinar ainda mais o modelo.

Os usuários têm a opção de votar nas respostas do ChatGPT, dando upvote ou downvote, e também têm a oportunidade de oferecer feedback adicional. Esses dados são usados para melhorar ainda mais o desempenho do modelo e torná-lo melhor em gerar textos semelhantes aos produzidos por humanos.

Dados usados para treinar o modelo

ChatGPT-3 é um modelo de linguagem ajustado a partir da série GPT-3.5, que foi treinado usando uma infraestrutura de supercomputação de IA da Azure. Foi treinado em uma enorme quantidade de texto raspado da internet, que inclui livros, fóruns de chat, artigos, sites, trabalhos acadêmicos, código e outras fontes.

O corpus dos dados de texto utilizados para treinar o ChatGPT-3 tinha mais de 45Terabytes, o que é extremamente grande e contribui para a capacidade do modelo de gerar textos similares aos que um jornalista ou autor poderia produzir.

Artigos Relacionados

Ver Mais >>