Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/335344
Type: DISSERTAÇÃO DIGITAL
Degree Level: Mestrado
Title: Contribuições para acelerar o aprendizado sobre a construção de uma máquina de classificação de sentimentos utilizando processamento de linguagem natural  
Title Alternative: Contributions to promote learning on the development of a sentiment analysis machine using natural language processing  
Author: Bonadia, Graziella Cardoso, 1976-
Advisor: Barreto, Gilmar, 1958-
Abstract: Resumo: Os textos disponíveis em diversos sites são uma fonte muito rica de informação para ex-plorar o uso de tecnologias de automação. Há uma variedade de aplicações que podem ser desen-volvidas a partir do reconhecimento do conteúdo de textos e áudios em linguagem natural que devem promover cada vez mais a velocidade com que um determinado objetivo será alcançado. O processamento de linguagem natural pode ser utilizado para tradução automática, recuperação de informações (mecanismos de buscas) e inferências a partir de textos (por exemplo, análise de intenção ou sentimentos). Nos dias atuais, é comum a participação popular em sites, contribuindo com informações textuais em forma de comentários em redes sociais. Esses comentários expressam sentimentos que podem ser utilizados para melhorar a forma de apresentação de um conteúdo, direcionar assuntos de futuras postagens, avaliar popularidade, direcionar propagandas, dentre inúmeras outras utilidades. Uma forma de avaliar a polaridade desses comentários de maneira automática contri-bui com o aumento da produtividade dos setores interessados. É nesse ponto que a linha de pes-quisa do processamento de linguagem natural, mais especificamente, a análise de sentimentos, se insere como provedora do arcabouço teórico que é usado para a construção de um classificador automático de sentimentos. O processo de construção deste classificador passa por diversas particularidades e, especi-almente para a língua portuguesa, passa também por limitações sobre a matéria-prima do apren-dizado de máquina do tipo supervisionado: dados rotulados. Assim, esta dissertação tem o objeti-vo de explorar as diversas etapas do processo de construção de uma máquina de classificação de sentimentos (positivos ou negativos) na língua portuguesa, resultando em um protótipo dessa máquina. Nesta dissertação são exploradas as diferenças em acurácia considerando variações nos métodos de engenharia de atributos, como bag of words (contagem de palavras) e word embed-dings (vetor de palavras) e capacidade de generalização de uma máquina de classificação. Para isso, foi utilizada uma base de comentários sobre filmes na língua portuguesa do Brasil e uma base de contexto similar, porém mais densa em informação e na língua inglesa. Além disso, foram levantadas outras bases para complementar os estudos. São discutidas outras duas características sobre os métodos: a utilização de uma base de treino em inglês para classificação em português e a utilização de uma base de teste não relacionada com a base de treino (ambas em português). Este estudo apresenta uma contribuição para o aumento da curva de aprendizado àqueles que buscam informações sobre como se iniciar no mundo do processamento de linguagem natural

Abstract: Texts available in multiple websites are a very rich source of information to explore the use of automation technologies. There are a variety of applications that can be developed from text and audios content recognition in natural language that should increasingly promote the speed at which a certain goal will be achieved. Natural language processing can be used for automatic translation, information retrieval (search engines), and inferences from texts (e.g. intention or sentiment analysis). Currently, it is common to have a popular participation in websites, contributing with tex-tual information in the form of comments on social networks. These comments express feelings that can be used to improve the way the content is presented, address issues of future posts, assess popularity, target advertising, and countless other utilities. To find a way to assess the polarity of these comments automatically helps to increase the productivity of the stakeholders. It is at this point that the research line of natural language processing, more specifically, sentiment analysis, provides the theoretical framework that is used in order to build an automatic sentiment classifier. The construction process of this classifier goes through several peculiarities and, especially for the Portuguese language, also goes through limitations on the raw material of machine learning of the supervised type: scarcity of labeled data. Thus, this dissertation aims to explore the various stages of the process of constructing a machine to classify sentiments (positive or negative) in Portuguese language, resulting in a prototype of this machine. Differences in accuracy are explored by considering variations in feature engineering methods, such as bag of words and word embeddings, and the generalization capacity of a classi-fier machine. Therefore, a comment database on films in Brazilian Portuguese was used and a similar context database, but denser in information and in English. In addition, other databases were built to complement the studies. Two other characteristics about the methods are discussed: the use of an English training database for Portuguese classification and the use of a test database not related to the training database (both in Portuguese). This study contributes to increase the learning curve for those who seek information on how to get started in the world of natural language processing
Subject: Processamento de linguagem natural (Computação)
Aprendizado de máquina
Regressão logistica
Máquina de vetores de suporte
Modelagem (Estatistica)
Language: Multilíngua
Editor: [s.n.]
Citation: BONADIA, Graziella Cardoso. Contribuições para acelerar o aprendizado sobre a construção de uma máquina de classificação de sentimentos utilizando processamento de linguagem natural  . 2019. 1 recurso online (126 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP.
Date Issue: 2019
Appears in Collections:FEEC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Bonadia_GraziellaCardoso_M.pdf2.33 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.