Análise de dados longitudinais relativos ao desempenho acadêmico de estudantes da Unicamp considerando distribuições assimétricas e modelos de efeitos mistos da família GAMLSS
Danielle Aparecida de Fátima Carvalho
DISSERTAÇÃO
Português
T/UNICAMP C253a
[Analysis of longitudinal data relating to the academic performance of Unicamp students considering asymmetric distributions and mixed effects models of the GAMLSS family]
Campinas, SP : [s.n.], 2024.
1 recurso online (224 p.) : il., digital, arquivo PDF.
Orientador: Rafael Pimentel Maia
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Matemática, Estatística e Computação Científica
Resumo: O presente estudo aborda a aplicação de modelos aditivos generalizados com efeitos mistos para locação, escala e forma (GAMLSS com efeitos mistos) no contexto do desempenho acadêmico de alunos da Universidade Estadual de Campinas (Unicamp). Assim, visando entender se as características...
Ver mais
Resumo: O presente estudo aborda a aplicação de modelos aditivos generalizados com efeitos mistos para locação, escala e forma (GAMLSS com efeitos mistos) no contexto do desempenho acadêmico de alunos da Universidade Estadual de Campinas (Unicamp). Assim, visando entender se as características socioeconômicas e acadêmicas dos alunos de graduação estão relacionadas com o seu desempenho acadêmico semestre a semestre, foram considerados dados de ingressantes em cursos de graduação da universidade entre 2016 e 2020, e, a partir deles, foi construída a variável resposta do modelo, denominada CRP (Coeficiente de Rendimento Padronizado). Tal variável se deu a partir do Coeficiente de Rendimento (CR) de cada estudante padronizado por turma, isto é, curso e ano de ingresso, e semestre. Uma vez construída a variável, notou-se que a distribuição da mesma apresentava comportamento não-normal, heterocedástico, e que há dependência entre as observações por se tratar de medidas longitudinais, sendo necessário valer-se de técnicas adequadas para lidar com tais questões. Observou-se então, que a não-normalidade dos dados era proveniente do comportamento assimétrico e com caudas pesadas que a distribuição do CRP apresentava, e que variava de acordo com a área do curso do estudante, sendo necessário considerar uma distribuição flexível que acomodasse tais características. A distribuição escolhida foi a t assimétrica do tipo II, que possui quatro parâmetros: locação, forma, assimetria e curtose da distribuição. Já a dependência foi observada entre as observações de um mesmo estudante mas também, em alguns casos, entre observações de estudantes de uma mesma turma. Para lidar com tal questão, foram propostas três abordagens sendo que as duas primeiras consideravam efeitos aleatórios de forma a inserir uma estrutura de covariância entre os indivíduos (e curso, quando conveniente) e a terceira inseriu uma estrutura de dependência entre as observações de um mesmo indivíduo a partir de um processo auto regressivo AR1. É importante citar que a diferença entre as duas primeiras abordagens consiste no fato de que, na primeira, o semestre foi considerado como uma variável numérica, ou seja, assumiu-se uma relação linear entre o semestre e o CRP; e na segunda, o semestre foi tratado como uma variável categórica. Por sua vez, a heterocedasticidade dos dados foi contornada com a inserção de preditores lineares nos parâmetros de escala, assimetria e curtose, através da aplicação dos modelos GAMLSS. Ao final das análises, foi possível concluir que considerar os modelos GAMLSS mistos foi uma alternativa adequada para o conjunto de dados considerado, uma vez que esta mostrou ser uma classe de modelos flexíveis que permitem considerar diversos tipos de variável resposta, além de conter alternativas que auxiliam a lidar com os casos de dados não normais, heterocedásticos e/ou com algum tipo de dependência entre eles
Ver menos
Abstract: This study presents the application of generalized additive mixed-effects models for location, scale and shape (GAMLSS with mixed effects) in the context of academic performance of students at Universidade Estadual de Campinas (Unicamp). With the aim of understanding whether the...
Ver mais
Abstract: This study presents the application of generalized additive mixed-effects models for location, scale and shape (GAMLSS with mixed effects) in the context of academic performance of students at Universidade Estadual de Campinas (Unicamp). With the aim of understanding whether the socioeconomic and academic characteristics of undergraduate students are related to their academic performance semester by semester, data on new enrollments in the university's undergraduate courses between 2016 and 2020 were considered, and, with this, the model's response variable was constructed, called CRP (Standardized Performance Coefficient). This variable was constructed considering the Performance Coefficient (CR) of each student standardized by class, that is, by course and year of enrollment, and semester. Once the variable was constructed, it was noted that it presented non-normal and heteroscedastic behavior, in addition of dependency between the observations caused by their longitudinal nature, requiring some techniques to deal with this issue. It was then observed that the non-normality of the data came from the asymmetry and heavy tails that the CRP distribution presented, varying according to the student's area of graduation, making it necessary to consider a flexible distribution that accommodated such characteristics. The distribution chosen was Skew t type II, which has four parameters, related to the location, scale, skewness and kurtosis of the distribution. Dependence was observed between student observations and, in some cases, between observations of students in the same class. To deal with this, three approaches were proposed: the first two considered random effects aiming to include a covariance structure between individuals (and course, when convenient), and the third inserted a dependence structure between the observations of a student following an AR1 autoregressive process. It is important to mention that the difference between the first two approaches consists in the fact that the first considered that the semester is a continuous numerical variable, that is, was assumed a linear relationship between semester and CRP; and the second considered that the semester is a factor. In turn, the heteroscedasticity of the data was overcome by inserting linear predictors in the scale, asymmetry and kurtosis parameters, through the application of GAMLSS models. From this analysis it was possible to conclude that the mixed-effects GAMLSS is a suitable alternative for the database considered, since it presents itself as a flexible class of models that allows considering different types of response variables and contains useful tools that help to deal with with cases where the data are non-normal, heteroscedastic and/or with some tyoe of dependency between them
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Maia, Rafael Pimentel, 1983-
Orientador
Demetrio, Clarice Garcia Borges
Avaliador
Kiihl, Samara Flamini, 1980-
Avaliador
Análise de dados longitudinais relativos ao desempenho acadêmico de estudantes da Unicamp considerando distribuições assimétricas e modelos de efeitos mistos da família GAMLSS
Danielle Aparecida de Fátima Carvalho
Análise de dados longitudinais relativos ao desempenho acadêmico de estudantes da Unicamp considerando distribuições assimétricas e modelos de efeitos mistos da família GAMLSS
Danielle Aparecida de Fátima Carvalho