Checking for multicollinearity is a routine task while solving a data problem.

Most people rely on pairwise correlations for detecting multicollinearity which is a faulty approach in many scenarios

So what to do? Check this ↓

1/11

Multicollinearity creates a problem in the interpretation of the model when some predictors explain predictors.

Because then we are unable to understand the effect of each predictor in isolation towards the target variable and our coefficients become less useful.

2/11
Variance Inflation Factor or VIF is an efficient method to check for multicollinearity.

Variance Inflation refers to the inflation in the variance of the estimated coefficient of the independent variable because of the presence of multicollinearity.

3/11
We could have low pairwise correlations, but still have high VIF and vice-versa.

A strong relationship is possible between a predictor and other variables together combined, even though there's no high correlation individually.

4/11
Hence we prefer VIF

VIF performs a set of multivariate regression analyses to check the dependence among the independent variables by fitting multiple regression models on the dependent variables.

5/11
In each fit, one of the variables is treated as a target while the rest of them act as regressors.

If we have regressors A,B,C,D, then VIF would fit models like,

A <- B,C,D
B <- A,C,D
C <- A,B,D
D <- A,B,C

and since we are looking for explained variance, we would use...

6/11
...R2 as a metric for each model.

We will calculate the VIF for each predictor by using the R2 given by the model where the predictor has been used as the target.

Putting the values in the following formula we will get our VIF values:

7/11
The high R2 would show that other predictors explain most of the variance in the current predictor (current model target).

And in the formula, high R2 would yield high VIF values as well, suggesting multicollinearity.

8/11
Now that we got the calculated VIF values what to do with them?

VIF values start from 1 and do not have an upper limit.

1 suggests that there's no multicollinearity among the variables,
as a rule-of-thumb, values > 5 or > 10 indicate high multicollinearity but not always.

9/11
Once we know the correlated variables, for removing the multi-collinearity we can,

• either remove all but one of the variables with high VIF or
• combine those variables into a single variable.

and we are good to go!

10/11
That's one good way to check for multicollinearity!

11/11

If you do find a mistake or have any questions, drop them below ↓

More from All

#தினம்_ஒரு_திருவாசகம்
தொல்லை இரும்பிறவிச் சூழும் தளை நீக்கி
அல்லல் அறுத்து ஆனந்தம் ஆக்கியதே – எல்லை
மருவா நெறியளிக்கும் வாதவூர் எங்கோன்
திருவாசகம் என்னும் தேன்

பொருள்:
1.எப்போது ஆரம்பித்தது என அறியப்படமுடியாத தொலை காலமாக (தொல்லை)

2. இருந்து வரும் (இரும்)


3.பிறவிப் பயணத்திலே ஆழ்த்துகின்ற (பிறவி சூழும்)

4.அறியாமையாகிய இடரை (தளை)

5.அகற்றி (நீக்கி),

6.அதன் விளைவால் சுகதுக்கமெனும் துயரங்கள் விலக (அல்லல் அறுத்து),

7.முழுநிறைவாய்த் தன்னுளே இறைவனை உணர்த்துவதே (ஆனந்த மாக்கியதே),

8.பிறந்து இறக்கும் காலவெளிகளில் (எல்லை)

9.பிணைக்காமல் (மருவா)

10.காக்கும் மெய்யறிவினைத் தருகின்ற (நெறியளிக்கும்),

11.என் தலைவனான மாணிக்க வாசகரின் (வாதவூரெங்கோன்)

12.திருவாசகம் எனும் தேன் (திருவா சகமென்னுந் தேன்)

முதல்வரி: பிறவி என்பது முன்வினை விதையால் முளைப்பதோர் பெருமரம். அந்த ‘முன்வினை’ எங்கு ஆரம்பித்தது எனச் சொல்ல இயலாது. ஆனால் ‘அறியாமை’ ஒன்றே ஆசைக்கும்,, அச்சத்துக்கும் காரணம் என்பதால், அவையே வினைகளை விளைவிப்பன என்பதால், தொடர்ந்து வரும் பிறவிகளுக்கு, ‘அறியாமையே’ காரணம்

அறியாமைக்கு ஆரம்பம் கிடையாது. நமக்கு ஒரு பொருளைப் பற்றிய அறிவு எப்போதிருந்து இல்லை? அதைச் சொல்ல முடியாது. அதனாலேதான் முதலடியில், ஆரம்பமில்லாத அஞ்ஞானத்தை பிறவிகளுக்குக் காரணமாகச் சொல்லியது. ஆனால் அறியாமை, அறிவின் எழுச்சியால், அப்போதே முடிந்து விடும்.

You May Also Like