A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional

Igor Leal

A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional

Igor Leal Souza

Material

DISSERTAÇÃO

Idioma

Português

Número de chamada

T/UNICAMP L473i

Outros títulos

[The informativeness of morphology for the distributional categorization of words]

Publicação

Campinas, SP : [s.n.], 2022.

Descrição física

1 recurso online ( p.) : il., digital, arquivo PDF.

Nota geral

Orientador: Pablo Picasso Feliciano de Faria

Nota de dissertação ou tese

Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem

Resumo

Resumo: Neste trabalho, o objetivo principal é inserir uma componente morfológica em um modelo computacional de aprendizagem de categorias de palavras, baseado em informação distribucional, e avaliar seu impacto na performance do aprendiz computacional. Para tanto, o modelo utilizado para a inserção... Ver mais

Resumo: Neste trabalho, o objetivo principal é inserir uma componente morfológica em um modelo computacional de aprendizagem de categorias de palavras, baseado em informação distribucional, e avaliar seu impacto na performance do aprendiz computacional. Para tanto, o modelo utilizado para a inserção dessa componente linguística foi o desenvolvido por Faria e Ohashi (2018), que tem como inspiração o modelo apresentado em Redington et al. (1998). Ambos os modelos foram baseados na ideia da informatividade do contexto, vista em Harris (1954). Não é assumido, a priori, uma visão inatista ou empirista para o modelo, visto que esta tomada de posição não é relevante no contexto desta modelagem, que explora tão somente a informatividade dos dados de entrada, de tal modo que os resultados obtidos são úteis para ambas as perspectivas. Os resultados foram obtidos a partir de 48 condições experimentais, sendo aplicadas em 7 simulações distintas, nas quais são avaliadas diferentes decomposições morfológicas. As condições experimentais são divididas em 8 tipos e visam analisar aspectos diferentes que podem estar envolvidos no processo de aquisição: (i) janela de contexto; (ii) quantidade de palavras-alvo e de contexto; (iii) avaliação de performance por categoria; (iv) tamanho do corpus; (v) fronteira das sentenças; (vi) frequência e ocorrência; (vii) palavras funcionais; e (viii) o quanto uma categoria ajuda na categorização das outras. Os resultados foram analisados qualitativa e quantitativamente, além de serem avaliados quanto à sua significância estatística. Nosso resultados demostram melhora no desempenho do modelo quando introduzida a morfologia, se comparada ao modelo sem a morfologia. Além desse resultado, vale ressaltar que os resultados demostraram que a seleção das palavras-alvo impacta na categorização, que o uso da informação sobre a função do morfema não impacta no desempenho do modelo e que a informação morfológica sozinha se mostrou tão informativa quanto a informação com o contexto e morfologia Ver menos

Abstract: In this work, the main objective is to insert a morphological component in a computational model for learning word categories based on distributional information and to evaluate its impact on the computational learner's performance For that, the model used for the insertion of this... Ver mais

Abstract: In this work, the main objective is to insert a morphological component in a computational model for learning word categories based on distributional information and to evaluate its impact on the computational learner's performance For that, the model used for the insertion of this linguistic component was the model developed by Faria and Ohashi (2018), which is inspired by the model presented in Redington et al. (1998). Both models are based on the idea of context informativeness found in Harris (1954). A priori, no innate or empirical view is assumed for the model, as this position is not relevant in the context of this modeling, which only examines the informativeness of the input data, so the results obtained are useful for both perspectives. The results come from 48 experimental conditions applied in 7 different simulations in which different morphological decompositions were evaluated. The experimental conditions are divided into 8 types and aim to analyze different aspects that may be involved in the acquisition process: (i) context window; (ii) set of target and context words; (iii) performance score by category; (iv) corpus size; (v) sentence boundary; (vi) frequency and occurrence; (vii) function words; (viii) and how much one category helps in categorizing the others. The results were analyzed qualitatively and quantitatively and additionally tested for statistical significance. Our results show an improvement in the performance of the model when the morphology is introduced compared to the model without the morphology. In addition to this result, it is worth noting that the results show that the choice of target words affects categorization, that the use of morpheme function information does not affect the performance of the model, and that morphological information alone proved to be as informative as information with context and morphology Ver menos

Nota de sistema

Requisitos do sistema: Software para leitura de arquivo em PDF

Direito de acesso

Aberto

Assuntos

Processamento de linguagem natural (Computação)

Processamento de dados

Análise por agrupamento

Morfologia

Aquisição da linguagem

Autoria

Leal, Igor, 1991- Autor

Faria, Pablo, 1978- Orientador

Ferreira, Marcelo Barra, 1972- Avaliador

Name, Maria Cristina Lobo Avaliador

Universidade Estadual de Campinas (UNICAMP). Instituto de Estudos da Linguagem. Programa de Pós-Graduação em Linguística

Arquivos

Souza_IgorLeal_M pdf

A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional

Igor Leal Souza

A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional

Igor Leal Souza

Terminal de consulta web

A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional

A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional

A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional