Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/260665
Full metadata record
DC FieldValueLanguage
dc.contributor.CRUESPUNIVERSIDADE ESTADUAL DE CAMPINASpt_BR
dc.descriptionOrientadores: Akebo Yamakami, Tiago Agostinho de Almeidapt_BR
dc.descriptionDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computaçãopt_BR
dc.format.extent97 p. : il.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.typeDISSERTAÇÃOpt_BR
dc.titleContribuições ao combate de web spammingpt_BR
dc.title.alternativeContributions to the battle against web spammingpt_BR
dc.contributor.authorSilva, Renato Moraes, 1988-pt_BR
dc.contributor.advisorYamakami, Akebo, 1947-pt_BR
dc.contributor.coadvisorAlmeida, Tiago Agostinho dept_BR
dc.contributor.institutionUniversidade Estadual de Campinas. Faculdade de Engenharia Elétricapt_BR
dc.contributor.nameofprogramPrograma de Pós-Graduação em Engenharia Elétricapt_BR
dc.subjectSpam (Mensagens eletrônicas)pt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectReconhecimento de padrõespt_BR
dc.subject.otherlanguageSpam (Electronic mail)en
dc.subject.otherlanguageMachine learningen
dc.subject.otherlanguagePattern recognitionen
dc.description.abstractResumo: Com o crescente aumento do volume de informações disponíveis na Web, as ferramentas de busca tornam-se cada vez mais importantes para os usuários da Internet. Consequentemente, com o objetivo de se tornar mais visíveis, os sites concorrem entre si para ganhar melhores posições nos resultados das buscas feitas por esses usuários. Porém, muitos ganham maior visibilidade através de estratégias que enganam as ferramentas de busca. Esses sites, conhecidos como Web spam, causam prejuízos pessoais e econômicos aos usuários. Diante desse cenário, este trabalho apresenta uma análise do desempenho de diversos métodos de aprendizado de máquina aplicados na detecção automática de Web hosts que propagam Web spam. Os experimentos foram realizados usando duas bases de dados reais, públicas e de grande porte, das quais foram extraídos três diferentes conjuntos de vetores de atributos: baseados no conteúdo das páginas Web, baseados nos links das páginas Web e formados pela transformação dos atributos baseados nos links. Também foi analisada a viabilidade da redução de dimensionalidade do espaço dos atributos. Outra contribuição desse trabalho é a proposta de uma abordagem de classificação de Web spam, em que as predições obtidas com cada tipo de vetor de atributos são combinadas e uma decisão final é obtida usando-se voto majoritário simples. Os resultados obtidos indicam que os métodos de bagging de árvores de decisão, redes neurais perceptron de múltiplas camadas, floresta aleatória e boosting adaptativo de árvores de decisão são promissores na tarefa de detecção de Web spam. Além disso, verificou-se que os métodos de aprendizado tem melhor desempenho quando os vetores de atributos baseados no conteúdo e os vetores formados pela transformação dos atributos baseados nos links são combinados. Por fim, a combinação das predições obtidas com cada tipo de vetor de atributos gera bons resultados e por isso, essa é uma abordagem recomendada para o combate de Web spammingpt
dc.description.abstractAbstract: Due to the increasing volume of information available on the Web, search engines become increasingly important to Internet users. Consequently, with the purpose of becoming more visible, the Web sites compete to achieve better positions in the results of the searches made by such users. However, many of them achieve a good visibility through strategies that try to circumvent the search engines. This kind of Web sites are known as Web spam and they are responsible for personal injury and economic losses to users. Given this scenario, this work presents a performance analysis of established machine learning techniques employed to automatically detect Web hosts that disseminate Web spam. The experiments were performed with two real, public and large datasets, from which were extracted three different sets of features vectors: contentbased ones, link-based ones and features vectors generated by the transformation of the link-based features. We also analyzed the viability of the dimensionality reduction of the feature space. Another contribution of this work is the proposal of a Web spam classification approach which combines the predictions achieved by each type of features vector and using a simple majority voting. The results indicate that bagging of decision trees, multilayer perceptron neural networks, random forest and adaptive boosting of decision trees are promising in the task of spam hosts classification. Furthermore, we have conclude that the learning techniques perform better when we have combined the content-based features vectors and the features vectors generated by the transformation of the link-based features. Finally, the combination of the predictions achieved with each type of features vector has achieved superior results and therefore it is a recommended approach to automatically detect Web spamen
dc.publisher[s.n.]pt_BR
dc.date.issued2013pt_BR
dc.identifier.citationSILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/260665>. Acesso em: 22 ago. 2018.pt_BR
dc.description.degreelevelMestradopt_BR
dc.description.degreedisciplineAutomaçãopt_BR
dc.description.degreenameMestre em Engenharia Elétricapt_BR
dc.contributor.committeepersonalnameMontenegro, Sahudypt_BR
dc.contributor.committeepersonalnameAttux, Romis Ribeiro de Faissolpt_BR
dc.date.available2018-08-22T13:22:48Z-
dc.date.accessioned2018-08-22T13:22:48Z-
dc.description.provenanceMade available in DSpace on 2018-08-22T13:22:48Z (GMT). No. of bitstreams: 1 Silva_RenatoMoraes_M.pdf: 4136928 bytes, checksum: 218846058592353cb167c8c2d61e1bfd (MD5) Previous issue date: 2013en
dc.identifier.urihttp://repositorio.unicamp.br/jspui/handle/REPOSIP/260665-
Appears in Collections:FEEC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Silva_RenatoMoraes_M.pdf4.04 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.