Using principal components for estimating logistic regression with high-dimensional multicollinear data

Aguilera, Ana M.; Escabias, Manuel; Valderrama, Mariano J.

doi:10.1016/j.csda.2005.03.011

Cited by 156 publications

(89 citation statements)

References 18 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Alguns autores propuseram métodos diferentes, com perda de pouca informação a respeito da variância dos dados e redução significativa de variáveis independentes (Wold, 1985;Frank et al, 1993;Aguilera et al, 2006). Camminatiello e Lucadamo (2010) propuseram o modelo de regressão logística multinomial para dados multicolineares, desenvolvendo, a partir de dados simulados, uma extensão do modelo Principal Components Logistc Regression (PCLR).…”

Section: Introductionunclassified

Modelo logit binomial com componentes principais para estimação de preferência por modo de transporte motorizado

Lindner¹,

Pitombo²

2016

J. Transp. Lit.

View full text Add to dashboard Cite

Article Info Resumo IntroduçãoEste trabalho visa apresentar um método sequencial, envolvendo aplicação de Análise em Componentes Principais (ACP) e logit binomial para previsão de escolha por modo de transporte motorizado. A aplicação da ACP permite reduzir o banco de dados multicolinear a componentes não correlacionadas entre si. Tais componentes, extraídas pela ACP, são utilizadas como variáveis explicativas no modelo logit binomial. Desta forma, trata-se de uma abordagem exploratória-confirmatória que permite investigar preferências por modo de transporte motorizado. O método proposto é eficiente, sobretudo para o caso de banco de dados com multicolinearidade.Técnicas de regressão múltipla são versáteis e poderosas. São aplicadas em uma infinidade de casos, onde se deseja encontrar uma relação entre uma única variável dependente e diversas variáveis independentes, com estimação de parâmetros a partir de diferentes critérios. Um estimador de um parâmetro ou um vetor de parâmetros desconhecidos é uma variável aleatória cujo valor pode ser calculado a partir de uma amostra. O vetor de parâmetros pode ser estimado por vários métodos, tais como Método dos Mínimos Quadrados (Regressão Linear Múltipla) e o Método da Máxima Verossimilhança (Regressão Logística -logit), que são os mais utilizados.Multicolinearidade ocorre quando duas ou mais variáveis explicativas são muito correlacionadas entre si. Utilizando-se apenas modelos de regressão, torna-se difícil distinguir suas influências separadamente. Outra suposição do modelo de regressão é que nenhuma relação linear exata pode existir entre quaisquer covariáveis ou combinações lineares destas. Quando se viola esta hipótese têm-se o problema de multicolinearidade perfeita. Por outro lado, se as variáveis não estão correlacionadas entre si, denomina-se, este caso, ausência de multicolinearidade, sendo chamada de ortogonal a regressão com estas variáveis. O caso intermediário, muito comum em problemas reais, ocorre quando a correlação entre duas ou mais variáveis é alta, sendo esta situação chamada de alto grau de multicolinearidade.Geralmente, a multicolinearidade não aumenta o poder preditivo de modelos de regressão, sendo uma tarefa usualmente difícil a seleção de variáveis explicativas multicolineares (Camminatiello e Lucadamo, 2010). Um número alto de variáveis explicativas e correlacionadas pode tornar os modelos de regressão mais redundantes do que realmente bons. Para evitar os problemas provocados pela multicolinearidade o método mais simples é a eliminação, do modelo completo, das variáveis com os coeficientes estatisticamente não significativos para encontrar o melhor subconjunto de variáveis independentes. Outra alternativa, proposta por Hoerl e Kennard (1970), é o método de regressão denominado de "Ridge", que tem o objetivo de melhorar a precisão dos parâmetros estimados, sem o termo constante, por padronizar as variáveis independentes. Neter et al. (1989), no entanto, colocam como principal limitação do modelo anterior, a impossibilidade de fazer inferênc...

show abstract

Section: Introductionunclassified

Modelo logit binomial com componentes principais para estimação de preferência por modo de transporte motorizado

Lindner¹,

Pitombo²

2016

J. Transp. Lit.

View full text Add to dashboard Cite

show abstract

“…It seems that no one variable is important when all the others are included in the model which causes a high-dimensional multicollinearity problem. Like many other regression method, the logistic regression usual to have a very high number of predictor variables so that a reduction dimension method is needed to improve accuracy of the logistic estimation [22]. The following data reduction technique, principal component analysis (PCA), can be introduced to correct this problem.…”

Section: The Multinomial Logit Modelmentioning

confidence: 99%

Heterogeneous Value of Water: Empirical Evidence in South Korea

et al. 2017

View full text Add to dashboard Cite

Anthropogenic pressures have exacerbated self-sustaining river services, and growing concerns over sustaining river system become global problematic issues that lead us to implement river restoration projects. Of those projects, governing diverse needs and desires from stakeholders for those who have various water values are key elements of identifying the success of the project. In fact, the Korean government has had concern over restoring the rivers which brings to construct 16 weirs in four major rivers and may fail to achieve main goal of the project, which is to ameliorate water quality. In this study, principle component analysis and multinomial logit model were executed to investigate major socioeconomic variables to influence water values in terms of sustainability in Korea. Evitable evidences have been found that age, income, education level, and city dwelling are the most effective variables to estimate water values. In addition, a monotonous water development project and a myopic view could cause major dejection across the nation and may lead to the failure of water governance. Unfortunately, the latter may be observed in Korea as one of the reasons for the recent amplification of major conflicts.

show abstract

“…Schaffer et al (1984) [1] proposed Ridge Logistic Regression (RLR). Aguilera et al (2006) [2] proposed Principal Component Logistic Estimator (PCLE). Nja et al (2013) [3] proposed Modified Lo- …”

Section: Introductionmentioning

confidence: 99%

A New Stochastic Restricted Liu Estimator for the Logistic Regression Model

Zuo¹,

Li²

2018

OJS

View full text Add to dashboard Cite

In order to overcome the well-known multicollinearity problem, we propose a new Stochastic Restricted Liu Estimator in logistic regression model. In the mean square error matrix sense, the new estimation is compared with the Maximum Likelihood Estimation, Liu Estimator Stochastic Restricted Maximum Likelihood Estimator etc. Finally, a numerical example and a Monte Carlo simulation are given to explain some of the theoretical results.

show abstract

Using principal components for estimating logistic regression with high-dimensional multicollinear data

Cited by 156 publications

References 18 publications

Modelo logit binomial com componentes principais para estimação de preferência por modo de transporte motorizado

Modelo logit binomial com componentes principais para estimação de preferência por modo de transporte motorizado

Heterogeneous Value of Water: Empirical Evidence in South Korea

A New Stochastic Restricted Liu Estimator for the Logistic Regression Model

Contact Info

Product

Resources

About