Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/334676
Type: DISSERTAÇÃO DIGITAL
Degree Level: Mestrado
Title: Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
Title Alternative: An anonymity-based approach to data privacy in analytical platforms
Author: Silva, Hebert de Oliveira, 1989-
Advisor: Timoteo, Varese Salvador, 1972
Abstract: Resumo: A internet está presente em quase todas as atividades do dia a dia dos indivíduos na sociedade moderna. Para muitas dessas atividades (por exemplo, compras on line), é necessário o compartilhamento de dados pessoais (por exemplo, dados cadastrais, localização geográfica, entre outros) e dados sensíveis (por exemplo, número de cartão de crédito, valor de salário, diagnósticos médicos, entre outros), fazendo com que a privacidade de dados seja uma preocupação de toda a sociedade. É comum que esses dados sejam armazenados em nuvens para que possam ser utilizados em serviços e aplicações Web. Compartilhar informações aumenta a capacidade de operação desses serviços, mas, em contrapartida, exige que sejam utilizados mecanismos de proteção dos dados sensíveis, de forma que esses dados não possam ser indevidamente utilizados por pessoas não autorizadas. Um mecanismo que vem sendo utilizado e indicado, em leis e regulamentações, para prover essa proteção é a anonimização de dados. O processo de anonimização tem como objetivo remover identificadores e ofuscar dados sensíveis, porém sua aplicação não é uma tarefa fácil. É necessário conhecimento em contexto multidisciplinar para analisar os dados e avaliar o impacto que a anonimização traz sobre o processo de mineração de dados. O processo de anonimização, ao suprimir ou alterar os dados de origem, limitam a utilidade desses dados na obtenção de resultados significativos do processo de mineração de dados. Surge, assim, a necessidade de se balancear a proteção e a utilidade dos dados, para que seja mantido um equilíbrio entre a privacidade e a utilidade dos dados em um processo de análise de dados, por exemplo. Outro ponto importante é atender as leis e regulamentações aplicáveis, bem como, as políticas de proteção de dados informadas pelo proprietário dos dados. Neste trabalho é apresentada uma abordagem para plataformas de análise de dados baseada em anonimização, a fim de melhorar o trade-off (relação de perda e ganho) entre utilidade dos dados e a privacidade dos indivíduos. A abordagem inicial foi definida em duas etapas de anonimização: a primeira, menos restritiva, deve ser aplicada durante o processo de ETL (Extração, Transformação e Carga); a segunda etapa, mais restritiva, ocorre antes da divulgação de dados para usuários externos às plataformas analíticas e complementa a primeira etapa de anonimização. Esta divisão do processo em estágios reduz o trade-off entre a proteção e a utilidade dos dados. Apoiada por políticas de anonimização oriundas de leis e regulamentações, a abordagem foi integrada no projeto EUBra-BIGSEA, projeto este com foco no desenvolvimento de serviços avançados na nuvem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades inteligentes, utilizados como estudos de caso. A princípio, foi utilizado um conjunto de dados de transporte público da cidade de Curitiba, no sul do Brasil, para verificar se após o processo de anonimização, a acurácia (precisão e exatidão) e o desempenho (tempo de execução) dos algoritmos de classificação (utilizados no processo de mineração de dados) foram melhorados ou apresentaram piores medidas. Essa avaliação foi posteriormente estendida com o uso de conjuntos de dados analíticos, já em outros contextos, da Universidade Califórnia Irvine (UCI). Os resultados dos experimentos mostraram que, no geral, ao aplicar a implementação da abordagem, houve um baixo impacto nos resultados de desempenho e utilidade na plataforma de análise de dados. Em alguns casos específicos, inclusive, o desempenho e acurácia (precisão e exatidão) dos algoritmos de classificação melhoraram. Todos os conjuntos de dados tiveram as entradas e saídas submetidas à análise e simulação de ataques de violação de privacidade. Considerando os ataques emulados, nenhum indivíduo foi reidentificado, sugerindo que a técnica pode ser satisfatória para lidar com o problema

Abstract: The internet is present in almost every day-to-day activity of individuals in modern society. For many of these activities (for example, on line shopping), it is necessary to share personal data (for example, social security ID, geographic information, among others), making data privacy a concern of the whole society. It is common for such data to be stored in clouds so that web services and software applications can use them. Sharing information increases the ability of these services to operate, but requires that sensitive data protection mechanisms be used so that such data cannot be utilized by unauthorized persons. A mechanism that has been used and indicated as a solution, in laws and regulations, to provide this protection is data anonymization. The anonymization process aims to remove identifiers and sensitive data, but its application is not an easy task. It requires knowledge in a multidisciplinary context to analyze the data and evaluate the impact that the anonymization brings on the data mining process. The anonymization by suppressing or changing the source data limits the usefulness of such data in obtaining significant results from the data mining process, for example. So, it is necessary to balance the protection and utility of the data to maintain a balance between privacy and the usefulness of data. Another important point is to comply with the applicable laws and regulations, as well as the business policies informed by the data owner. In this work, it is presented an anonymization-based approach for use in data analytics platforms in order to improve the trade-off between data utility and the individuals privacy. The initial approach was divided in two steps of anonymization: the first, during the ETL (Extract, Transformation, and Load) process anonymizes only identifiers; the second stage occurs before the dissemination of the results to external users of the analytic platforms and complements the first stage anonymization (now on the data mining results), ensuring the privacy of sensitive data. The proposal, supported by privacy policies stemming from laws and regulations, the approach has been integrated into an EUBra-BIGSEA project, which was focussed on cloud services for big data analysis. The solution was applied in Smart Cities systems, used as case studies. At first, a public transportation data from Curitiba (in the south of Brazil), was used to verify if after the anonymization process, accuracy (precision) and performance (runtime) of the classification algorithms were improved or presented worse measures. This evaluation was later extended, using analytical data sets in other context from University of California Irvine (UCI). In general, the experiments results showed that, when applying the approach implementation, a low impact on performance and utility was observed on the results. In some specific cases, the performance and accuracy (precision) of the classification algorithms have even better results. All data sets had input and output submitted to analysis and simulation of privacy breach attacks. Considering the emulated attacks, no individual was re-identified, suggesting that the technique may be satisfactory to deal with the problem
Subject: Privacidade
Anonimização de dados
Análise de dados
Big data
Language: Português
Editor: [s.n.]
Citation: SILVA, Hebert de Oliveira. Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas. 2019. 1 recurso online (117 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP.
Date Issue: 2019
Appears in Collections:FT - Tese e Dissertação

Files in This Item:
File SizeFormat 
Silva_HebertDeOliveira_M.pdf5.56 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.