CI-EX : Confident-Inline Extrapolation for rejection inference in financial credit scoring
Athyrson Machado Ribeiro
DISSERTAÇÃO
Inglês
T/UNICAMP R354c
[CI-EX]
Campinas, SP : [s.n.], 2024.
1 recurso online (49 p.) : il., digital, arquivo PDF.
Orientador: Marcos Medeiros Raimundo
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: Um dos principais desafios no campo de pontuação de crédito é a indisponibilidade de informação sobre a capacidade de pagamento de clientes que tiveram suas solicitações de crédito negadas (clientes rejeitados). A maioria dos modelos básicos de pontuação de crédito considera apenas a...
Ver mais
Resumo: Um dos principais desafios no campo de pontuação de crédito é a indisponibilidade de informação sobre a capacidade de pagamento de clientes que tiveram suas solicitações de crédito negadas (clientes rejeitados). A maioria dos modelos básicos de pontuação de crédito considera apenas a população de clientes aceitos, o que pode introduzir viés contra indivíduos fora dessa distribuição. Para enfrentar esse viés, métodos de Inferência de Rejeitados (RI) visam inferir informações faltantes de indivíduos rejeitados e assim integrá-los ao sistema de pontuação de crédito. Métodos tradicionais de inferência de rejeitados na literatura frequentemente presumem a viabilidade da estratégia de extrapolar o comportamento de clientes rejeitados a partir de dados de clientes aceitos. Apesar das possíveis diferenças nas distribuições de dados entre esses grupos. Portanto, para mitigar a extrapolação cega entre clientes aceitos e rejeitados, introduzimos um novo framework de Confident Inlier Extrapolation framework (CI-EX). Primeiramente, o CI-EX identifica distribuições das amostras dos rejeitados de forma iterativa usando um modelo de detecção de outliers. Em seguida, atribui rótulos aos indivíduos rejeitados mais próximos da distribuição da população aceita, com base em probabilidades derivadas de um modelo supervisionado de classificação. Especificamente, apenas as amostras para as quais o modelo fornece maior confiança na previsão são incorporadas ao novo conjunto de dados de treinamento, abordando assim os viéses de extrapolação no processo de inferência. Além disso, propomos o framework Confident Inlier Label Spreading (CI-LS), onde rótulos para amostras rejeitadas são inferidos usando um modelo de classificação semi-supervisionado. A eficácia de nossos métodos propostos é validada através de experimentos realizados nos conjuntos de dados de crédito HomeCredit e Lending Club. Os resultados são avaliados usando a Área Sob a Curva (AUC), uma métrica muito relevante em crédito, e métricas específicas de RI como Kickout e a métrica introduzida neste trabalho, denominada Área Sob o Kickout (AUK). É importante notar que a avaliação da AUC é baseada exclusivamente em amostras de clientes aceitos. Nossos resultados demonstram que os métodos de RI, incluindo os frameworks propostos, geralmente envolvem um trade-off entre as métricas AUC e RI. No entanto, nossos métodos consistentemente superam os modelos de RI existentes na literatura de crédito em termos de métricas específicas de RI na maioria dos experimentos
Ver menos
Abstract: One of the main challenges in the field of credit scoring is the unavailability of the repayment capacity data of clients who have had their credit applications denied (rejected clients). Most basic credit scoring models only consider the population of accepted clients, potentially...
Ver mais
Abstract: One of the main challenges in the field of credit scoring is the unavailability of the repayment capacity data of clients who have had their credit applications denied (rejected clients). Most basic credit scoring models only consider the population of accepted clients, potentially introducing bias against individuals outside of that distribution. To address this bias, Reject Inference (RI) methods aim to infer missing information from rejected individuals and integrate them into the credit scoring system. Traditional reject inference methods from the literature often assume the feasibility of extrapolating the behavior of rejected clients from accepted client data, despite potential differences in data distributions between these groups. Therefore, to mitigate blind extrapolation between accepted and rejected clients, we introduce a novel Confident Inlier Extrapolation framework (CI-EX). Initially, CI-EX iteratively identifies the distributions of samples from rejected clients using an outlier detection model. It then assigns labels to rejected individuals closest to the distribution of the accepted population based on probabilities derived from a supervised classification model. Specifically, only samples for which the model gives higher prediction confidence are incorporated into the new training dataset, thus addressing extrapolation biases in the inference process. Additionally, we propose the Confident Inlier Label Spreading framework (CI-LS), where labels for rejected samples are inferred using a semi-supervised classification model. The effectiveness of our proposed methods is validated through experiments conducted on the HomeCredit and Lending Club credit datasets. Results are evaluated using the Area Under the Curve (AUC), a pertinent metric in credit, and RI-specific metrics such as Kickout and the novel metric introduced in this work, denoted Area under the Kickout (AUK). It is important to note that AUC evaluation is based exclusively on accepted client samples. Our findings demonstrate that RI methods, including the proposed frameworks, generally involve a trade-off between AUC and RI metrics. However, our methods consistently outperform existing RI models from the credit literature in terms of RI-specific metrics across the majority of experiments
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
CI-EX : Confident-Inline Extrapolation for rejection inference in financial credit scoring
Athyrson Machado Ribeiro
CI-EX : Confident-Inline Extrapolation for rejection inference in financial credit scoring
Athyrson Machado Ribeiro