Analysis of self-supervised approaches for fine-tuning language models for Portuguese tasks
Gian Franco Joel Condori Luna
DISSERTAÇÃO
Inglês
T/UNICAMP C754a
[Análise de abordagens auto-supervisionadas para ajuste fino de modelos de linguagem para tarefas em português]
Campinas, SP : [s.n.], 2024.
1 recurso online (71 p.) : il., digital, arquivo PDF.
Orientadores: Marcelo da Silva Reis, Didier Augusto Vega Oliveros
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: As organizações muitas vezes enfrentam a limitação de ter uma pequena quantidade de dados rotulados para calibrar e refinar os seus modelos de linguagem (LM, do inglês language models) em contextos específicos. Esta escassez de dados anotados traduz-se num desafio significativo para o...
Ver mais
Resumo: As organizações muitas vezes enfrentam a limitação de ter uma pequena quantidade de dados rotulados para calibrar e refinar os seus modelos de linguagem (LM, do inglês language models) em contextos específicos. Esta escassez de dados anotados traduz-se num desafio significativo para o desenvolvimento e melhoria do LM, uma vez que a qualidade e a quantidade dos dados são fatores críticos no desempenho e generalização do modelo. Por outro lado, a aquisição ou criação de dados rotulados caracteriza-se pela sua elevada exigência em termos de tempo e recursos financeiros; este processo complicado e caro pode representar uma barreira significativa para as organizações, limitando a sua capacidade de implementar soluções eficazes de aprendizagem de máquina adaptadas às suas necessidades específicas. A literatura demonstra que problemas semelhantes foram resolvidos por meio de ajuste fino auto-supervisionado, utilizando diferentes abordagens de pré-treinamento. Todavia, até o nosso conhecimento, inexistia a descrição e a avaliação de protocolos desse tipo de treinamento para LMs em português. Dessa forma, nesta dissertação propomos como adaptar o protocolo de pré-treinamento do LM em português BERTimbau para um procedimento de ajuste fino auto-supervisionado, acompanhado de uma avaliação de como este procedimento pode afetar a generalização e tarefas downstream quando se tem dados não rotulados. Realizamos vários experimentos com três conjuntos de dados de diferentes contextos, nos quais descongelamos diferentes números de camadas no modelo e utilizamos diferentes ajustes na taxa de aprendizagem, determinando assim um regime de treinamento ideal para o protocolo de ajuste fino auto-supervisionado. Os resultados utilizando análise de sentimentos como tarefa downstream, com dados rotulados dos mesmos conjuntos de dados, indicaram que descongelar apenas a última camada já traz bons resultados, o que permitiria usuários com recursos computacionais limitados obterem ótimos resultados com o método. Além disso, foi destacada a eficácia do ajuste fino auto-supervisionado em conjuntos de dados maiores, sugerindo o seu potencial para pesquisas futuras em LMs pré-treinados mais avançados
Ver menos
Abstract: Organizations often face the limitation of having a small amount of labeled data to calibrate and refine their language models (LMs) in specific contexts. This scarcity of annotated data translates into a significant challenge for the development and improvement of LMs, since the quality...
Ver mais
Abstract: Organizations often face the limitation of having a small amount of labeled data to calibrate and refine their language models (LMs) in specific contexts. This scarcity of annotated data translates into a significant challenge for the development and improvement of LMs, since the quality and quantity of data are critical factors in the performance and generalization of the model. On the other hand, the acquisition or creation of labeled data is characterized by its high demand in terms of time and financial resources; this complicated and expensive process can represent a significant barrier for organizations, limiting their ability to implement effective machine learning solutions tailored to their specific needs. The literature shows that similar problems have been solved through self-supervised fine-tuning using different pre-training approaches. However, to our knowledge, there was no description and evaluation of such training protocols for LMs in Portuguese. Thus, in this dissertation, we propose how to adapt the BERTimbau Portuguese LM pre-training protocol to a self-supervised fine-tuning procedure, accompanied by an evaluation of how this procedure can affect generalization and downstream tasks when using unlabeled data. We performed several experiments with three datasets from different contexts, in which we unfroze different numbers of layers in the model and used different learning rate settings, thus determining an optimal training regime for the self-supervised fine-tuning protocol. The results using sentiment analysis as a downstream task, with labeled data from the same datasets, indicated that unfreezing only the last layer already yields good results, which allows users with limited computational resources to obtain excellent results with the method. Furthermore, the effectiveness of self-supervised fine-tuning on larger datasets was highlighted, suggesting its potential for future research in more advanced pre-trained LMs
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Reis, Marcelo da Silva, 1979-
Orientador
Vega Oliveros, Didier Augusto, 1984-
Coorientador
Pardo, Thiago Alexandre Salgueiro
Avaliador
Santanchè, André, 1968-
Avaliador
Analysis of self-supervised approaches for fine-tuning language models for Portuguese tasks
Gian Franco Joel Condori Luna
Analysis of self-supervised approaches for fine-tuning language models for Portuguese tasks
Gian Franco Joel Condori Luna