Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/343671
Type: Artigo
Title: MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
Author: Silva, R. M.
Alberto, T. C.
Almeida, T. A.
Yamakami, A.
Abstract: Muitos usuários do YouTube produzem conteúdo regularmente e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso vem despertando a atenção de usuários mal-intencionados, que propagam comentários indesejados para se autopromoverem ou para disseminar links maliciosos. Neste cenário, métodos tradicionais de categorização de texto podem sofrer limitações devido às características inerentes ao problema: (1) os comentários costumam ser curtos e mal redigidos e (2) o problema de classificação é naturalmente online. Este artigo avalia um método de classificação baseado no princípio da descrição mais simples e compara os resultados com os de métodos tradicionais de aprendizado online. Também é proposta uma técnica ensemble, que combina os métodos de classificação com diferentes técnicas de processamento de linguagem natural. Os experimentos foram cuidadosamente realizados e a análise estatística dos resultados indica que a técnica proposta obteve desempenho superior ao obt
metadata.dc.description.abstractalternative: Several YouTube users regularly produce video content and make thistask their main livelihood activity. However, such success is drawing the at-tention of malicious users which propagate undesired comments, looking forself-promotion or disseminating malicious links. The available text categoriza-tion methods commonly used to address this problem suffer from the followinginherent characteristics: (1) the comments are usually short and poorly writtenand (2) the classification problem is naturally online. In this paper, we evalu-ate a classification method based on the minimum description length principleand compare its results with those of well-established online learning techni-ques. We also propose an ensemble approach which combines the classificationmethods with different natural language processing techniques. The performedexperiments were carefully carried out and statistical analysis of the results in-dicates that the proposed technique was superior than when only the originalcomments were employed
Subject: YouTube (Recurso eletrônico)
Country: Brasil
Editor: Sociedade Brasileira de Computação
Rights: Aberto
Identifier DOI: 10.5753/isys.2017.346
Address: https://sol.sbc.org.br/journals/index.php/isys/article/view/346
Date Issue: 2017
Appears in Collections:FEEC - Artigos e Outros Documentos

Files in This Item:
There are no files associated with this item.


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.