Anotação de dados guiada por projeção de características [recurso eletrônico]
Bárbara Caroline Benato
DISSERTAÇÃO
Português
T/UNICAMP B431a
[Data annotation guided by feature projection]
Campinas, SP : [s.n.], 2019.
1 recurso online (76 p.) : il., digital, arquivo PDF.
Orientador: Alexandre Xavier Falcão
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Anotação de dados baseada na inspeção visual do usuário (supervisão) de cada amostra de treinamento pode ser um processo trabalhoso, especialmente quando o número de amostras é alto --- um conhecido problema no aprendizado de parâmetros de redes neurais com muitas camadas escondidas em...
Ver mais
Resumo: Anotação de dados baseada na inspeção visual do usuário (supervisão) de cada amostra de treinamento pode ser um processo trabalhoso, especialmente quando o número de amostras é alto --- um conhecido problema no aprendizado de parâmetros de redes neurais com muitas camadas escondidas em Aprendizado de Máquina. A anotação de dados pelo usuário pode ser ainda mais trabalhosa, particularmente, em áreas que requerem um profissional com conhecimento especializado, como Medicina e Biologia. Tradicionalmente, estudos têm apresentado soluções que empregam o aprendizado semi-supervisionado para lidar com tal questão, a fim de propagar rótulos a partir de poucas amostras supervisionados para amostras não-supervisionadas, explorando a distribuição dessas amostras no espaço de características. Contudo, tais trabalhos não consideram a habilidade cognitiva do usuário para entender projeções do espaço de características com o propósito de aumentar a quantidade de amostras rotuladas para o aprendizado de máquina. Neste trabalho, explorou-se a habilidade cognitiva do usuário assistido por uma ferramenta de analítica visual na tarefa de propagar rótulos para uma grande quantidade de amostras não-supervisionadas. O usuário é guiado pelo conhecimento de rótulo de poucas amostras, bem como pela informação visual da distribuição das amostras na projeção do espaço de características. Além disso, investigou-se uma abordagem de anotação de dados semi-automática, ou seja, que combina as estratégias de propagação de rótulos manual e automática, utilizando uma projeção apropriada do espaço de características e estimação de rótulo semi-supervisionada com medida de certeza para reduzir o esforço do usuário. O método é validado em dois contextos: em uma base conhecida de imagens, MNIST, e em bases de imagens de parasitos intestinais de humanos com e sem impurezas fecais (uma classe adversa que torna o problema mais desafiador). O estudo avaliou duas abordagens automáticas para aprendizado semi-supervisionado nos espaços latente e projetado. Além disso, avaliou dois classificadores supervisionados treinados com os conjuntos rotulados. Por fim, os experimentos visaram escolher a solução que melhor reduz o esforço do usuário para a anotação de dados e, ao mesmo tempo, aumenta os resultados de acurácia na classificação do conjunto de teste. Os resultados sugerem que ferramentas de analítica visual, quando utilizadas para combinar as habilidades complementares de humanos e máquinas, possibilitam um aprendizado de máquina mais eficaz
Ver menos
Abstract: Data annotation using visual inspection (supervision) of each training sample can be a laborious process, especially when the number of samples is high --- a well-known problem in deep learning. The data annotation by the user can be even more laborious, particularly in areas that requires...
Ver mais
Abstract: Data annotation using visual inspection (supervision) of each training sample can be a laborious process, especially when the number of samples is high --- a well-known problem in deep learning. The data annotation by the user can be even more laborious, particularly in areas that requires an expert with specialized knowledge, such as Medicine and Biology. Traditionally, studies have presented solutions that employ semi-supervised learning to deal with such issue to propagate labels from a few supervised samples to unsupervised samples by exploring the distribution of those samples in the feature space. However, such works do not consider the user's cognitive ability to understand feature space projections for the purpose of increasing the number of labeled samples for machine learning. In this work, we present data annotation methods in which the user is assisted by a visual analytics tool in the task of propagating labels to a large number of unsupervised samples. The user is guided by the knowledge of few labeled samples as well as the visual information of the sample distribution in feature space projection. Also, we investigate a semi-automatic data annotation approach. That is, we combine manual and automatic label propagation using an appropriate feature space projection and semi-supervised label estimation based on a certainty measure to reduce user effort in data annotation. We validate the method in two contexts: on a known image database, MNIST, and on images of human intestinal parasites with and without fecal impurities (an adverse class that makes the problem even more challenging). We evaluate two automatic approaches to semi-supervised learning in latent and projected spaces. In addition, we evaluate two supervised classifiers, trained with the labeled sets. Finally, the experiments aim to choose the solution that best reduces the user effort for data annotation and also increases the classification accuracy on test sets. The results suggest that visual analytics tools can provide more effective machine learning whenever they combine the complementary skills of humans and machines
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Anotação de dados guiada por projeção de características [recurso eletrônico]
Bárbara Caroline Benato
Anotação de dados guiada por projeção de características [recurso eletrônico]
Bárbara Caroline Benato