مديریت كیفیت در مراكز آزمایشگاهی

تجزیه و تحلیل رگرسیون: چگونه می توانیم ضریب تعیین و ارزیابی همقوارگی را تفسیر کنیم؟

اشتراک گذاری

همقوارگی خوب (Goodness-of-Fit) برای یک مدل رگرسیونی چیست؟

باقیمانده ها (Residual) در رگرسیون به صورت زیر تعریف می شود:

همقوارگی خوب

مقدار برازش شده – مقدار مشاهده شده = باقیمانده ها

 

رگرسیون، یک معادله را که فاصله بین خط برازش شده و همه نقاط داده شده را به حداقل برساند، ارائه میکند. به طور کلی رگرسیون مجموع مربعات باقیمانده ها را حداقل میکند.

یک مدل برازش شده برای داده ها خوب است اگر تفاوت بین مقادیر مشاهده شده و مقادیر پیش بینی مدل کوچک و نااریب باشند.

قبل از آنکه به مقادیر آماری برای برازش خوب (همقوارگی) نگاه شود بایستی نمودار باقیمانده ها بررسی گردد. نمودارهای باقیمانده می تواند الگوهای موجود در باقیمانده و نتایج اریب را نشان دهند. پس از بررسی نمودار باقیمانده ها و در صورت عدم مشاهده هیچ الگوی خاصی در این نمودار مقادیر آماری برای برازش خوب مثل ضریب تعیین (R۲) را می توان بررسی نمود.

ضریب تعیین R۲ چیست؟

R۲ اندازه گیری آماری نزدیک داده ها به خط رگرسیون برازش شده میباشد. به R۲، ضریب تعیین یا ضریب تشخیص نیز گفته می شود.

تعریف ضریب تعیین (R۲) نسبتاً ساده است: “ضریب تعیین (R۲) نشان میدهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می شود” یا به عبارت دیگر ضریب تعیین نشان دهنده این است که “چه مقدار از تغییرات متغیر وابسته تحت تاثیر متغیر مستقل مربوطه بوده و مابقی تغییرات متغیر وابسته مربوط به سایر عوامل میباشد.”

R-squared = Explained variation / Total variation

ضریب تعیین همیشه بین ۰ و ۱۰۰٪ است:

۰٪ نشان می دهد که مدل هیچ یک از تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین نمی کند.

۱۰۰٪ نشان می دهد که مدل همه تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین می کند.

نمایش گرافیکی از ضریب تعیین (R۲)

نمودار مقادیر برازش شده توسط مقادیر مشاهده به صورت گرافیکی مقادیر ضریب تعیین مختلف برای مدل های رگرسیونی را نشان می دهد.

fittedxobserved

مدل رگرسیون سمت چپ R۲=۳۸.۰% و مدل سمت راست دارای R۲=۸۷.۴%  است. مقدار ضریب تعیین بالاتر نشان می دهد که در مدل رگرسیونی مقدار مشاهده شده به خط برازش شده نزدیک تر هستند. از لحاظ تئوری اگر R۲=۱۰۰.۰% شود تمامی مقادیر مشاهده شده با مقادیر برازش شده یکسان خواهند بود و همه نقاط داده ها بر روی خط برازش شده قرار خواهند گرفت.

 محدودیت های کلیدی ضریب تعیین (R۲)

ضریب تعیین نمی تواند تعیین کند که آیا مدل برازش شده اریب است یا نه، به همین دلیل باید نمودارهای باقیمانده را ارزیابی نمود. ضریب تعیین (R۲) نشان نمی دهد که آیا یک مدل رگرسیون مناسب است یا نه. نکته قابل تأمل آن است که یک مدل رگرسیونی خوب ممکن است ضریب تعیین (R۲) پایین داشته باشید و یک مدل رگرسیونی با مقدار ضریب تعیین  (R۲) بالا ممکن است برای برازش داده ها مناسب نباشد!

 آیا ضریب تعیین (R۲) پایین ذاتاً بد است؟

 نه! دو دلیل مهم که چرا مقادیر ضریب تعیین  (R۲) پایین می تواند بد نباشد، وجود دارد.

در برخی از زمینه ها، به طور کلی انتظار می رود که مقادیر ضریب تعیین  (R۲) پایین باشد. به عنوان مثال، در زمینه تلاش برای پیش بینی رفتار انسان (مانند روانشناسی) معمولا مقادیر ضریب تعیین  (R۲) کمتر از ۵۰٪ است. رفتار انسان ها به سادگی مانند فرآیندهای فیزیکی قابل پیش بینی نیست.

به علاوه، ممکن است ضریب تعیین  (R۲) پایین باشند، اما متغیرهای پیش بینی معنی دار از نظر آماری وجود داشته باشند، در این صورت هنوز هم میتوان نتیجه گیری مهمی در مورد چگونگی تغییر در مقدار متغیر پاسخ در ارتباط به متغیر ورودی ترسیم نمود. صرف نظر از ضریب تعیین  (R۲) ضرایب معنادار آماری مدل رگرسیونی هنوز میانگین تغییر در متغیر پاسخ برای یک واحد تغییر در متغیر ورودی را ارائه می کند. بدیهی است، این نوع از اطلاعات می تواند بسیار با ارزش است.

flp_highvar

در سایت نرم افزار MINITAB نشان داده شده است که ضریب تعیین  (R۲) پایین بر روی تفسیر متغیرهای معنادار تاثیر نمی گذارد.

یک ضریب تعیین  (R۲) پایین زمانی که قصد آن وجود دارد که یک پیش بینی با دقت معقول انجام شود (دارای یک بازه ی پیش بینی به اندازه کافی کوچک) بیشتر مشکل ساز خواهد بود. سئوالی که مطرح می شود آن است که چقدر یک ضریب تعیین  (R۲) برای پیش بینی باید بزرگ باشد؟ این امر بستگی به نیاز مطالعه برای عرض یک بازه پیش بینی و میزان تغییرپذیری در داده ها دارد. مادامی که یک ضریب تعیین  (R۲) بالا برای پیش بینی ها دقیق مورد نیاز است، همانطور که در ادامه نشان داده خواهد شد این امر به خودی خود برای صحت مدل کافی نیست. همچنین زمانی که قصد داریم تمامی جوانب احتمالی متغیر پاسخ را برای جامعه ای با تغییرپذیری بالا بررسی کنیم (مثل پیش بینی تعداد آری احتمالی یک کاندیدا برای ریاست جمهوری)، داشتن یک بازه بزرگ تر برای مقادیر پیش بینی (یعنی ضریب تعیین  (R۲) کوچک) نیز قابل استفاده خواهد بود.

 آیا ضریب تعیین (R۲) بالا ذاتاً خوب است؟

 نه! ضریب تعیین  (R۲) بالا لزوماً نشان نمی دهد که صحت یک مدل مناسب است. ممکن است متعجب شود، اما به دو نمودار زیر (نمودار خط برازش شده و نمودار باقیمانده ها) نگاه کنید. نمودار خط برازش شده رابطه بین تحرک الکترون نیمه هادی و لگاریتم طبیعی چگالی برای داده های تجربی واقعی نشان می دهد.

flplinear

reslinear

مودار نشان می دهد که داده ها با یک تابع با ضریب تعیین ۹۸٫۵٪، که مقدار بزرگی است برازش شده است. با این حال، با نگاه دقیق تر به خط رگرسیون مشخص می شود که در نقاط مختلف در طول منحنی رگرسیون داده های به صورت سیستماتیک زیر و بالای خط برازش شده قرار دارند. این نشان دهند وجود اریبی در معادله برازش شده است. همچنین یک الگو در نمودار باقیمانده ها مشاهده می شود. در این نمودار انتظار می رود در حالت مطلوب هیچ الگوی خاصی وجود نداشته باشد و باقیمانده ها رفتاری تصادفی و توزیع نرمال داشته باشند. لذا وجود این الگوها نشان دهنده یک برازش با صحت نامناسب است. به همین دلیل می باشد که علاوه بر ضریب تعیین (R۲) برای بررسی مناسب بودن صحت یک مدل برازش شده باید روندها در نمودار باقیمانده ها را نیز بررسی نمود.

با این حال هنگامی که مدل رگرسیونی متغیرهای پیش بینی مهمی (مثل اثرات متقابل یا چند جمله ای) را از دست می دهد اریبی های مشابه با نمودار فوق ممکن است، اتفاق بی افتد.

برای کسب اطلاعات بیشتر که چرا یک ضریب تعیین  (R۲) بالا همیشه نشان دهنده خوب بودن مدل نمی باشد پست مربوط به پنج دلیل که چرا ضریب تعیین  (R۲) می تواند بیش از حد بزرگ باشد را ملاحظه نمایید.

 حرف پایانی در خصوص ضریب تعیین  (R۲)

ضریب تعیین (R۲) برای اینکه تعیین کند چقدر خوب یک معادله رگرسیونی داده ها را برازش می کند مفید است. اما همانگونه که ملاحظه شده ضریب تعیین به تنهایی برای بررسی صحت مدل کفایت نمی کند و بایستی علاوه بر ضریب تعیین (R۲)، نرمال بودن داده ها یا باقیمانده ها، ثابت بودن واریاس در سطوح مختلف، استقلال داده ها نسبت به زمان و اریب نبودن مشاهدات برای صحت مدل برازش شده مورد ارزیابی قرار گیرند.

در حالی که ضریب تعیین (R۲) تخمینی از قدرت رابطه بین مدل و متغیر پاسخ فراهم می کند، اما یک آزمون فرضیه رسمی برای این رابطه ارائه نمی دهد. از آزمون F-TEST برای تعیین اینکه رابطه معنادار آماری وجود دارد یک خیر استفاده می شود.

در پست ها بعدی در خصوص تجزیه و تحلیل رگرسیون سعی خواهد شده به این موضوع که ضریب تعیین (R۲) تنها ناقص است دو نوع ضریب تعیین دیگر  adjustedR2 و predictedR2 را نیز مورد بررسی قرار دهیم.

یک دیدگاه در نوشته‌ی “تجزیه و تحلیل رگرسیون: چگونه می توانیم ضریب تعیین و ارزیابی همقوارگی را تفسیر کنیم؟

  1. اشتراک ها: تجزیه و تحلیل رگرسیون: تفسیر ضریب تعیین (R²) و ضریب تعیین تعدیل شده | آموزش

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *