Learning parts-of-speech through distributional analysis : further results from brazilian portuguese
Pablo Faria
ARTIGO
Inglês
[Aprendizagem de categorias de palavras por análise distribucional]
Abstract: A child learning a language has to figure out what the syntactic, or part-of-speech, categories in her language are and assign words to one or more of them. The question we aimto answer here is how much of this learning can be accomplished through the distributional analysis of utterances....
Ver mais
Abstract: A child learning a language has to figure out what the syntactic, or part-of-speech, categories in her language are and assign words to one or more of them. The question we aimto answer here is how much of this learning can be accomplished through the distributional analysis of utterances. To this end, a reimplementation of Redington, Chater and Finch(1998) computational model was conducted and applied to Brazilian Portuguese input data, obtained from publicly available corpora of both child-directed and adult-to-adult speech. Results from all experiments are presented and discussed. These experiments investigate many variables and aspects involved in this learning task: types of distributional contexts, the number of target and context words, the value of distributional information for different categories, corpus size, etc. A comparison between child-directed speech and adult-to-adult speech is also carried out. In general, our results support Redington et al.'s(1998), although we find some possibly important, and maybe contradictory, differences. We also evaluate the cosine metric, comparing it with performance obtained with the Spearman rank correlation metric used in Redington et al.'s(1998)study. The latter seems to produce better performance. In this paper we focus on a quantitative analysis of our results
Ver menos
Resumo: Uma criança adquirindo a língua deve descobrir quais são as categorias sintáticas em sua língua e atribuir palavras a uma ou mais delas. A questão que nos propomos a responder aqui é o quanto dessa aprendizagem pode ser realizada através da análise distribucional de enunciados. Para este...
Ver mais
Resumo: Uma criança adquirindo a língua deve descobrir quais são as categorias sintáticas em sua língua e atribuir palavras a uma ou mais delas. A questão que nos propomos a responder aqui é o quanto dessa aprendizagem pode ser realizada através da análise distribucional de enunciados. Para este fim, uma re-implementação do modelo computacional de Redington, Chater e Finch (1998) foi conduzida e aplicada a dados do Português Brasileiro, obtidos de corpora disponíveis publicamente, tanto com fala dirigida à criança, quanto com fala entre adultos. Os resultados de todos os experimentos são apresentados e discutidos. Estes experimentos investigam mais variáveis e aspectos envolvidos nesta tarefa de aprendizagem: tipos de contextos distribucionais, o número de palavras-alvo e de contexto assumidas, o valor da informação distribucional para as diferentes categorias, tamanho do corpus etc. Uma comparação entre a fala dirigida à criança e a fala entre adultos também é feita. Em geral, nossos resultados dão suporte aos de Redington et al. (1998), embora tenhamos encontrado algumas diferenças possivelmente importantes e até contraditórias. Também avaliamos a medida cosseno, comparando a performance obtida com ela à performance obtida com a correlação de Spearman usada no estudo de Redington et al. (1998). Esta última parece produzir melhor performance. Neste artigo, focamos numa análise quantitativa dos nossos resultados
Ver menos
Aberto
Faria, Pablo, 1978-
Autor
Learning parts-of-speech through distributional analysis : further results from brazilian portuguese
Pablo Faria
Learning parts-of-speech through distributional analysis : further results from brazilian portuguese
Pablo Faria
Fontes
Diacrítica (Fonte avulsa) |