Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância [recurso eletrônico]
DISSERTAÇÃO
Português
T/UNICAMP M828t
[Linguistic training for software in post-edition of automatic transcription and translation machines in distance learning]
Campinas, SP : [s.n.], 2019.
1 recurso online (173 p.) : il., digital, arquivo PDF.
Orientadores: Rodrigo Esteves de Lima-Lopes, Daniel Yokoyama Sonoda
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem
Resumo: Esta pesquisa tem por objetivo elaborar modelos de treinamento de software para o software de transcrição e tradução automática, Skylar, tendo como embasamento teórico a linguística de corpus (LC) (BERBER SARDINHA, 2004) e do processamento de linguagem natural (PLN) (LIDDY, 2001). A...
Resumo: Esta pesquisa tem por objetivo elaborar modelos de treinamento de software para o software de transcrição e tradução automática, Skylar, tendo como embasamento teórico a linguística de corpus (LC) (BERBER SARDINHA, 2004) e do processamento de linguagem natural (PLN) (LIDDY, 2001). A ferramenta de inteligência artificial (IA) se estabelece no contexto da educação a distância (EAD) e tem por objetivo analisar as legendas geradas em uma videoaula. Ferramentas que buscam a automatização com o PLN podem contar erros na geração de seus conteúdos (OTHERO, 2006), o que causa um problema no entendimento do consumidor dessas legendas. Para tanto, este treinamento se fez necessário pelo uso da Skylar na transcrição e tradução de videoaulas, pois estes equívocos podem prejudicar o entendimento do aluno que irá assistir a aula com o conteúdo legendado. Para a execução do processo de metodológico, foi selecionada uma videoaula aula de MBA no tema de Agronegócios para análise da transcrição que, como apresentado anteriormente, é o ponto central de análise desta pesquisa. A metodologia é quanti-qualitativa, sendo dividida em três partes: 1) análise quantitativa ¿ aplicação de dois cálculos estatísticos, WER ¿ Word Error Rate (KLAKOW; PETERS, 2002) e LD ¿ Levensthein distance (LEVENSTHEIN, 1966), para se obter o índice de erros e a distância entre as letras certas e erradas, respectivamente; 2) análise qualitativa ¿ os dados obtidos nos cálculos serão analisados com o filtro de melhores e piores segmentos, levantando hipóteses e insumos para o desenvolvimento da interpretação utilizando técnicas de linguística do corpus; e 3) apuração dos conteúdos em modelos padronizados para o treinamento do software, chegando ao objetivo desta pesquisa. Além dos processos citados, durante a aplicação da análise qualitativa, serão isolados termos mais frequentes para análise de contexto, de forma a fornecer ao software as áreas de concentração em que a aula pertence. Foram analisados 406 segmentos de legenda (31 minutos de vídeo), observou-se que o software obteve um resultado positivo através da análise quantitativa, porém ao se aplicar as classificações de erros e na elaboração da análise qualitativa, observou-se a necessidade de um treinamento que voltasse para a apuração de contexto
Abstract: This research aims to develop software training models for the transcription and machine translation software, Skylar, based on corpus linguistics (CL) (BERBER SARDINHA, 2004) and natural language processing (NLP) (LIDDY, 2001). The artificial intelligence tool (AI) is established in the...
Abstract: This research aims to develop software training models for the transcription and machine translation software, Skylar, based on corpus linguistics (CL) (BERBER SARDINHA, 2004) and natural language processing (NLP) (LIDDY, 2001). The artificial intelligence tool (AI) is established in the context of distance education (DL) and aims to analyze the subtitles generated in a video class. Tools that seek automation with NLP can count errors in their content generation (OTHERO, 2006), which causes a problem in the consumer's understanding of these subtitles. Therefore, this training was necessary through the use of Skylar in the transcription and translation of video lessons, as these mistakes can undermine the understanding of the student who will attend the class with the subtitled content. For the implementation of the methodological process, an MBA video class was selected on the subject of Agribusiness for transcription analysis, which, as previously presented, is the central point of analysis of this research. The methodology is quantitative and qualitative, being divided into three parts: 1) quantitative analysis - application of two statistical calculations, WER - Word Error Rate (KLAKOW; PETERS, 2002) and LD - Levensthein distance (LEVENSTHEIN, 1966), to obtain the error index and the distance between the right and wrong letters, respectively; 2) qualitative analysis - the data obtained in the calculations will be analyzed with the filter of best and worst segments, raising hypotheses and inputs for the development of interpretation using techniques of corpus linguistics; and 3) verification of the contents in standardized models for software training, reaching the objective of this research. In addition to the processes cited, during the application of qualitative analysis, more frequent terms for context analysis will be isolated, in order to provide the software with the concentration areas in which the class belongs. We analyzed 406 subtitle segments (31 minutes of video), it was observed that the software obtained a positive result through the quantitative analysis, but when applying the error classifications and in the elaboration of the qualitative analysis, it was observed the need for a training that went back to the context investigation
Requisitos do sistema: Software para leitura de arquivo em PDF