Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/335832
Type: DISSERTAÇÃO DIGITAL
Degree Level: Mestrado
Title: Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
Title Alternative: Linguistic training for software in post-edition of automatic transcription and translation machines in distance learning
Author: Moro, Luana, 1991-
Advisor: Lima-Lopes, Rodrigo Esteves de, 1973-
Abstract: Resumo: Esta pesquisa tem por objetivo elaborar modelos de treinamento de software para o software de transcrição e tradução automática, Skylar, tendo como embasamento teórico a linguística de corpus (LC) (BERBER SARDINHA, 2004) e do processamento de linguagem natural (PLN) (LIDDY, 2001). A ferramenta de inteligência artificial (IA) se estabelece no contexto da educação a distância (EAD) e tem por objetivo analisar as legendas geradas em uma videoaula. Ferramentas que buscam a automatização com o PLN podem contar erros na geração de seus conteúdos (OTHERO, 2006), o que causa um problema no entendimento do consumidor dessas legendas. Para tanto, este treinamento se fez necessário pelo uso da Skylar na transcrição e tradução de videoaulas, pois estes equívocos podem prejudicar o entendimento do aluno que irá assistir a aula com o conteúdo legendado. Para a execução do processo de metodológico, foi selecionada uma videoaula aula de MBA no tema de Agronegócios para análise da transcrição que, como apresentado anteriormente, é o ponto central de análise desta pesquisa. A metodologia é quanti-qualitativa, sendo dividida em três partes: 1) análise quantitativa ¿ aplicação de dois cálculos estatísticos, WER ¿ Word Error Rate (KLAKOW; PETERS, 2002) e LD ¿ Levensthein distance (LEVENSTHEIN, 1966), para se obter o índice de erros e a distância entre as letras certas e erradas, respectivamente; 2) análise qualitativa ¿ os dados obtidos nos cálculos serão analisados com o filtro de melhores e piores segmentos, levantando hipóteses e insumos para o desenvolvimento da interpretação utilizando técnicas de linguística do corpus; e 3) apuração dos conteúdos em modelos padronizados para o treinamento do software, chegando ao objetivo desta pesquisa. Além dos processos citados, durante a aplicação da análise qualitativa, serão isolados termos mais frequentes para análise de contexto, de forma a fornecer ao software as áreas de concentração em que a aula pertence. Foram analisados 406 segmentos de legenda (31 minutos de vídeo), observou-se que o software obteve um resultado positivo através da análise quantitativa, porém ao se aplicar as classificações de erros e na elaboração da análise qualitativa, observou-se a necessidade de um treinamento que voltasse para a apuração de contexto

Abstract: This research aims to develop software training models for the transcription and machine translation software, Skylar, based on corpus linguistics (CL) (BERBER SARDINHA, 2004) and natural language processing (NLP) (LIDDY, 2001). The artificial intelligence tool (AI) is established in the context of distance education (DL) and aims to analyze the subtitles generated in a video class. Tools that seek automation with NLP can count errors in their content generation (OTHERO, 2006), which causes a problem in the consumer's understanding of these subtitles. Therefore, this training was necessary through the use of Skylar in the transcription and translation of video lessons, as these mistakes can undermine the understanding of the student who will attend the class with the subtitled content. For the implementation of the methodological process, an MBA video class was selected on the subject of Agribusiness for transcription analysis, which, as previously presented, is the central point of analysis of this research. The methodology is quantitative and qualitative, being divided into three parts: 1) quantitative analysis - application of two statistical calculations, WER - Word Error Rate (KLAKOW; PETERS, 2002) and LD - Levensthein distance (LEVENSTHEIN, 1966), to obtain the error index and the distance between the right and wrong letters, respectively; 2) qualitative analysis - the data obtained in the calculations will be analyzed with the filter of best and worst segments, raising hypotheses and inputs for the development of interpretation using techniques of corpus linguistics; and 3) verification of the contents in standardized models for software training, reaching the objective of this research. In addition to the processes cited, during the application of qualitative analysis, more frequent terms for context analysis will be isolated, in order to provide the software with the concentration areas in which the class belongs. We analyzed 406 subtitle segments (31 minutes of video), it was observed that the software obtained a positive result through the quantitative analysis, but when applying the error classifications and in the elaboration of the qualitative analysis, it was observed the need for a training that went back to the context investigation
Subject: Linguística de corpus
Processamento eletrônico de dados
Inteligência artificial
Ensino à distância
Language: Português
Editor: [s.n.]
Citation: MORO, Luana. Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância. 2019. 1 recurso online (173 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: http://www.repositorio.unicamp.br/handle/REPOSIP/335832. Acesso em: 27 jan. 2020.
Date Issue: 2019
Appears in Collections:IEL - Tese e Dissertação

Files in This Item:
File SizeFormat 
Moro_Luana_M.pdf3.45 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.