ChatGPT se entrena en dos pasos principales: preentrenamiento y ajuste fino.
- Preentrenamiento: En esta etapa, ChatGPT se entrena en una amplia gama de datos de Internet. Sin embargo, no sabe específicamente qué documentos se incluyeron en su conjunto de datos de entrenamiento y no tiene la capacidad de acceder o recuperar esos documentos. Durante el preentrenamiento, el modelo aprende a predecir la siguiente palabra en una oración. A través de este proceso, adquiere conocimientos sobre gramática, hechos sobre el mundo y cierto grado de razonamiento.
- Ajuste fino: Después del preentrenamiento, ChatGPT se ajusta en un conjunto de datos más pequeño que es generado con la ayuda de revisores humanos. Estos revisores siguen pautas proporcionadas por OpenAI para calificar las posibles salidas del modelo para una variedad de entradas. A través de este proceso de ajuste fino, el modelo aprende a generar respuestas que estén alineadas con las pautas y expectativas de OpenAI.