An appraisal of convergence failures in the application of logistic regression model in published manuscripts

Resumen

Background: Logistic regression model is widely used in health research for description and predictive purposes. Unfortunately, most researchers are sometimes not aware that the underlying principles of the techniques have failed when the algorithm for maximum likelihood does not converge. Young researchers particularly postgraduate students may not know why separation problem whether quasi or complete occurs, how to identify it and how to fix it.

Objective: This study was designed to critically evaluate convergence issues in articles that employed logistic regression analysis published in an African Journal of Medicine and medical sciences between 2004 and 2013.

Methods: Problems of quasi or complete separation were described and were illustrated with the National Demographic and Health Survey dataset. A critical evaluation of articles that employed logistic regression was conducted.

Results: A total of 581 articles was reviewed, of which 40(6.9%) used binary logistic regression. Twenty-four (60.0%) stated the use of logistic regression model in the methodology while none of the articles assessed model fit. Only 3 (12.5%) properly described the procedures. Of the 40 that used the logistic regression model, the problem of convergence occurred in 6 (15.0%) of the articles.

Conclusion: Logistic regression tends to be poorly reported in studies published between 2004 and 2013. Ourfindings showed that the procedure may not be well understood by researchers since  very few described the process in their reports and may be totally unaware of the problem of convergence or how to deal with it.

Keywords: Logistic regression, convergence, quasi, complete separation, maximum likelihood estimates

Résumé
Introduction: Le model de régression logistique est largement utilisé en recherche de santé pour description et buts prédictif. Malheureusement, plusieurs chercheurs ne sont pas souvent au courant que les principes supposés des techniques ont échoué quand l’algorithme pour une probabilité maximum ne converge pas. Les jeunes chercheurs particulièrement les étudiants au cycle supérieur peuvent ne pas savoir pourquoi le problème de séparation soit quasi ou complet survient, comment l’identifier et comment le fixer.

Objective:Cette étude était désignée pour délicatement évaluer les problèmes de convergence dans les articles qui employaient l’analyse de régression logistique publiés dans un Journal Médical Africain entre 2004 et 2013.

Méthode: Les problèmes de séparation quasi ou complet étaient décrites et étaient illustrer avec les données de l’étude nationale démographique et de santé. Une délicate évaluation des articles qui employaient la régression logistique était conduite.

Résultats : Un total de 581 articles étaient revus, desquels 40 (6,9%) utilisaient la régression logistique binaire. Vingt-quatre (60,0%) énonçaient l’usage du model de régression logistique dans la méthodologie tandis qu’aucun des articles n’imposait la convenance du model. Seulement 3 (12,5%) décrivaient proprement les procédures. Des 40 articles qui employaient le model de régression logistique, le problème de convergence apparu dans 6 (15,0%) de ces articles.

Conclusion: La régression logistique tend à être pauvrement reportée dans les études publiées entre 2004 et 2013. Nos résultats montraient que la procédure peut ne pas être bien comprise par les chercheurs puisque très peu décrivait le procès dans leurs exposés et peuvent être totalement sans connaissance du problème de convergence ou comment s’en occuper de ceci.

Mots clé: Régression logistique, convergence, quasi, séparation complète, estimations de probabilité maximum

Correspondence: Dr. O.B. Yusuf, Department of Epidemiology and Medical Statistics, College of Medicine, University of Ibadan, Ibadan, Nigeria. E-mail: boyusuf@comui.edu.ng; bidemiyusuf1@gmail.com

pdf (inglés)

Referencias

James L. An Insight on the use of Multiple Logistic Regression Analysis to Estimate Association between Risk Factor and Disease Occurrence. International Journal of Epidemiology 1986;15(1): 22-29.

Allison P.D. Convergence Failures in Logistic Regression. SAS Global Forum 2008. Statistics and Data Analysis. Paper 360-2008.

Nigeria Demographic and Health Survey (NDHS) 2008.

StataCorp, Stata Statistical Software: Release 10. College Station, TX: Stata Corp LP, 2007.

Statistical Package for the Social Sciences SPSS Inc., Chicago, IL, USA.

Hirji KF., Mehta CR. and Patel NR. “Computing Distributions for Exact Logistic Regression,” JASA, 1987; 82, 1110–1117.

Cyrus R M and Nitin R. P. Exact logistic regression: theory and examples. Statistics in Medicine. 2007; 14(19): 2143-2160.

Altman M., Jeff G. and McDonald M. Convergence Problems in Logistic Regression In Numerical Issues in Statistical Computing for the social scientist. Allison Paul. A Wiley- Inter-science Publication. 2004 John Wiley and Sons, INC. 219- 233.

Desalu O.O, Oluboyo P.O, Olokoba A.B, et al. Prevalence and determinants of tobacco smoking among HIV patients in North Eastern, Nigeria.2009; 38:103-108.

Kehinde A.O, Baba A, Bakare R.A, et al. Risk factors for pulmonary tuberculosis among health-care workers in Ibadan, Nigeria. 2010; 39:105-112.