Exploring zero-shot models for cross-lingual and cross-domain transfer learning [recurso eletrônico] = Explorando modelos zero-shot para transferência de conhecimento multilíngue e entre domínios
Guilherme Moraes Rosa
DISSERTAÇÃO
Inglês
T/UNICAMP R71e
[Explorando modelos zero-shot para transferência de conhecimento multilíngue e entre domínios]
Campinas, SP : [s.n.], 2022.
1 recurso online (83 p.) : il., digital, arquivo PDF.
Orientadores: Roberto de Alencar Lotufo, Rodrigo Frassetto Nogueira
Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação
Resumo: Os algoritmos de aprendizado profundo têm sido adotados em diversas aplicações importantes no processamento de linguagem natural. Esses algoritmos se destacam por sua capacidade de aprender grandes quantidades de informações e atingir ótimos desempenhos em tarefas antes consideradas muito...
Ver mais
Resumo: Os algoritmos de aprendizado profundo têm sido adotados em diversas aplicações importantes no processamento de linguagem natural. Esses algoritmos se destacam por sua capacidade de aprender grandes quantidades de informações e atingir ótimos desempenhos em tarefas antes consideradas muito difíceis de serem realizadas por máquinas. Portanto, sua aplicação tem sido cada vez mais difundida para diferentes tarefas, domínios e idiomas. Ainda assim, sabe-se que modelos de aprendizado profundo normalmente não generalizam muito além da distribuição de dados vista durante o treinamento e têm dificuldade em se adaptar a novos cenários. Uma solução para este problema é treinar novamente o modelo em um novo conjunto de dados rotulado grande e diverso. No entanto, muitas vezes não temos conjuntos de dados prontamente disponíveis para cada novo cenário que possa surgir e, além disso, dados do mundo real estão em constante mudança. Assim, um método eficaz para resolver este problema e melhorar a capacidade de generalização de modelos transformer é usar abordagens de transferência de conhecimento zero-shot. Para estudar com maior profundidade a capacidade de transferência de conhecimento de modelos transformer, separamos o aprendizado zero-shot em duas categorias diferentes dependendo de como os exemplos de teste diferem dos dados usados para treinamento. Em nosso trabalho, os exemplos de treinamento e teste podem ser diferentes por pertencerem a idiomas diferentes (cross-lingual) ou a domínios diferentes (cross-domain). Exploramos ambas as categorias projetando dois estudos que cobrem cada uma separadamente. Em nosso primeiro estudo, analisamos três métodos de transferência de conhecimento entre diferentes idiomas em termos de eficácia (por exemplo, acurácia), custos de desenvolvimento e implantação, bem como suas latências em momento de inferência. Além disso, ao combinar métodos de transferência multilíngue, alcançamos o estado da arte em dois conjuntos de dados utilizados neste primeiro estudo. Em nosso estudo cross-domain, investigamos a capacidade de transferência de conhecimento do domínio geral para o domínio jurídico. Para isso, participamos do COLIEE 2021, competição que envolve a execução de tarefas automatizadas aplicadas ao domínio jurídico, no qual experimentamos modelos transformer sem adaptações ao domínio alvo. Nossas submissões para a tarefa de vinculação de processos judiciais obtiveram as pontuações mais altas, ultrapassando a segunda melhor equipe em mais de seis pontos e nosso modelo zero-shot superou todos os modelos treinados para esta tarefa. Além disso, nossos experimentos confirmam um resultado bastante contra-intuitivo no novo paradigma de modelos de linguagem pré-treinados: dada uma limitação na quantidade de exemplos rotulados, modelos com pouca ou nenhuma adaptação à tarefa alvo podem ser mais robustos a mudanças na distribuição de dados do que modelos diretamente treinados no conjunto de dados alvo
Ver menos
Abstract: Deep learning algorithms have been adopted in many important applications in natural language processing. These algorithms stand out for their ability to learn large amounts of information and perform well on tasks that were previously considered too difficult for machines to perform....
Ver mais
Abstract: Deep learning algorithms have been adopted in many important applications in natural language processing. These algorithms stand out for their ability to learn large amounts of information and perform well on tasks that were previously considered too difficult for machines to perform. Therefore, its application has been increasingly widespread for different tasks, domains and languages. Yet, it is well known that deep learning models typically do not generalize much beyond the data distribution seen during fine-tuning and have difficulty adapting to new scenarios. A solution to this problem is to retrain the model on a new large and diverse labeled dataset. However, we often do not have readily available datasets for every new scenario that may arise, and in addition, real-world data is constantly changing. Thus, an effective method to address this problem and improve the generalization capacity of transformer models is to use zero-shot transfer learning approaches. To further study the transfer learning ability of transformer models, we separate zero-shot learning into two different categories, depending on how the test examples differ from the data used for fine-tuning. In our work, training and test examples may differ because they belong to different languages (cross-lingual) or to different domains (cross-domain). We explore both categories by designing two studies that cover each separately. In our first study, we analyze three cross-lingual methods in terms of their effectiveness (e.g., accuracy), development and deployment costs, as well as their latencies at inference time. Furthermore, by combining cross-lingual methods, we achieve the state of the art in two datasets used in the first study. In our cross-domain study, we investigate the transfer learning ability from general domain to the legal domain. For that, we participated in COLIEE 2021, a competition involving automated tasks in the legal domain, in which we experimented with transformer models with no adaptations to the target domain. Our submissions to the task of legal case entailment achieved the highest scores, surpassing the second-best team by more than six points and our zero-shot model outperformed all fine-tuned models on this task. In addition, our experiments confirm a counter-intuitive result in the new paradigm of pretrained language models: given limited labeled data, models with little or no adaptation to the target task can be more robust to changes in the data distribution than models fine-tuned on it
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Lotufo, Roberto de Alencar, 1955-
Orientador
Nogueira, Rodrigo Frassetto, 1986-
Coorientador
Moreira, Viviane Pereira
Avaliador
Pedrini, Hélio, 1963-
Avaliador
Exploring zero-shot models for cross-lingual and cross-domain transfer learning [recurso eletrônico] = Explorando modelos zero-shot para transferência de conhecimento multilíngue e entre domínios
Guilherme Moraes Rosa
Exploring zero-shot models for cross-lingual and cross-domain transfer learning [recurso eletrônico] = Explorando modelos zero-shot para transferência de conhecimento multilíngue e entre domínios
Guilherme Moraes Rosa