Employing Transformers and emoji to perform sentiment classification of social media texts [recurso eletrônico] = Utilizando Transformers e emoji na classificação de sentimento de textos oriundos de redes sociais
Tiago Martinho de Barros
DISSERTAÇÃO
Multilíngua
T/UNICAMP B278e
[Utilizando Transformers e emoji na classificação de sentimento de textos oriundos de redes sociais ]
Campinas, SP : [s.n.], 2021.
1 recurso online ( 72 p.) : il., digital, arquivo PDF.
Orientadores: Hélio Pedrini, Zanoni Dias
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação.
Resumo: Avanços recentes na área de Processamento de Linguagem Natural trouxeram melhores soluções para uma série de tarefas interessantes como Aceitabilidade Linguística, Respostas a Perguntas, Compreensão de Leitura, Inferência de Linguagem Natural e Análise de Sentimento. Neste trabalho, focamos...
Ver mais
Resumo: Avanços recentes na área de Processamento de Linguagem Natural trouxeram melhores soluções para uma série de tarefas interessantes como Aceitabilidade Linguística, Respostas a Perguntas, Compreensão de Leitura, Inferência de Linguagem Natural e Análise de Sentimento. Neste trabalho, focamos em Análise de Sentimento, que é um campo de pesquisa voltado ao estudo computacional de sentimentos. A Análise de Sentimento possui muitas aplicações práticas como sistemas de recomendação, monitoramento de satisfação de usuários e previsão do resultado de eleições. As tarefas mencionadas são importantes para o avanço da Inteligência Artificial, pois são desafiadoras e podem ser aplicadas em vários problemas. A abordagem tradicional é construir um classificador específico para cada tarefa, entretanto, com a popularização do conceito de pré-treinamento seguido de ajuste fino, tornou-se muito comum a utilização de uma mesma arquitetura em diferentes problemas, por meio de ajuste fino com dados da tarefa em questão. Métodos como ULMFiT, ELMo, BERT e seus derivados obtiveram sucesso substancial em muitas tarefas de Processamento de Linguagem Natural, no entanto, eles compartilham uma desvantagem: para pré-treinar esses modelos do zero, quantidades substanciais de dados e recursos computacionais são necessários. Nesta dissertação, propomos uma nova metodologia para classificar sentimento em textos, baseada no BERT e com foco em emoji, tratando-os como uma importante fonte de sentimento em vez de considerá-los simples tokens de entrada. Além disso, pode-se utilizar um modelo BERT já pré-treinado como ponto de partida para nosso modelo, reduzindo significativamente o tempo total de treinamento necessário. Avaliamos o uso de pré-treinamento adicional com textos contendo pelo menos um emoji. Também empregamos aumentação de dados para melhorar a capacidade de generalização de nosso modelo. Experimentos em dois conjuntos de dados de tweets em português do Brasil -- TweetSentBR e 2000-tweets-BR -- mostram que nossa metodologia produz resultados competitivos em relação aos métodos publicados anteriormente e ao BERT.
Ver menos
Abstract: Recent advances in the Natural Language Processing field have brought better solutions to a number of interesting tasks, such as Linguistic Acceptability, Question Answering, Reading Comprehension, Natural Language Inference, and Sentiment Analysis. In this work, we focus on Sentiment...
Ver mais
Abstract: Recent advances in the Natural Language Processing field have brought better solutions to a number of interesting tasks, such as Linguistic Acceptability, Question Answering, Reading Comprehension, Natural Language Inference, and Sentiment Analysis. In this work, we focus on Sentiment Analysis, which is a research field concerned with the computational study of sentiments. Sentiment Analysis has many practical applications, such as recommender systems, user satisfaction monitoring, and election outcome prediction. The aforementioned tasks are important to the advancement of Artificial Intelligence as they are challenging and can be used in many different scenarios. The traditional approach is to build a specific classifier for each task, but with the popularization of the concept of pre-training followed by fine tuning, it has become very common to use the same architecture to solve different problems by fine-tuning it with data from the task at hand. Methods, such as ULMFiT, ELMo, BERT, and their derivatives, have achieved substantial success with many Natural Language Processing tasks, however they share a drawback: to pre-train these models from scratch, substantial amounts of data and computational resources are required. In this dissertation, we propose a novel methodology to classify the sentiment of texts, based on BERT and focusing on emoji, treating them as an important source of sentiment as opposed to considering them simple input tokens. Additionally, it is possible to use a previously pre-trained BERT model to warm start ours, greatly reducing the total training time required. We evaluate the use of additional pre-training using texts which contain at least one emoji. We also employ data augmentation to improve the generalization ability of our model. Experiments on two Brazilian Portuguese tweets datasets -- TweetSentBR and 2000-tweets-BR -- show that our methodology produces competitive results compared to the previously published methods and to BERT.
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Pedrini, Hélio, 1963-
Orientador
Dias, Zanoni, 1975-
Coorientador
Nogueira, Rodrigo Frassetto, 1986-
Avaliador
Colombini, Esther Luna, 1980-
Avaliador
Employing Transformers and emoji to perform sentiment classification of social media texts [recurso eletrônico] = Utilizando Transformers e emoji na classificação de sentimento de textos oriundos de redes sociais
Tiago Martinho de Barros
Employing Transformers and emoji to perform sentiment classification of social media texts [recurso eletrônico] = Utilizando Transformers e emoji na classificação de sentimento de textos oriundos de redes sociais
Tiago Martinho de Barros