تجزیه و تحلیل رگرسیون: چگونه می توانیم ضریب تعیین و ارزیابی همقوارگی را تفسیر کنیم؟
فهرست محتوایی مقاله
Toggle1- همقوارگی خوب (Goodness-of-Fit) برای یک مدل رگرسیونی چیست؟
باقیمانده ها (Residual) در رگرسیون به صورت زیر تعریف می شود:
مقدار برازش شده – مقدار مشاهده شده = باقیمانده ها
رگرسیون، یک معادله را که فاصله بین خط برازش شده و همه نقاط داده شده را به حداقل برساند، ارائه میکند. به طور کلی رگرسیون مجموع مربعات باقیمانده ها را حداقل میکند.
یک مدل برازش شده برای داده ها خوب است اگر تفاوت بین مقادیر مشاهده شده و مقادیر پیش بینی مدل کوچک و نااریب باشند.
قبل از آنکه به مقادیر آماری برای برازش خوب (همقوارگی) نگاه شود بایستی نمودار باقیمانده ها بررسی گردد. نمودارهای باقیمانده می تواند الگوهای موجود در باقیمانده و نتایج اریب را نشان دهند. پس از بررسی نمودار باقیمانده ها و در صورت عدم مشاهده هیچ الگوی خاصی در این نمودار مقادیر آماری برای برازش خوب مثل ضریب تعیین (R2) را می توان بررسی نمود.
2- ضریب تعیین R2 چیست؟
R2 اندازه گیری آماری نزدیک داده ها به خط رگرسیون برازش شده میباشد. به R2، ضریب تعیین یا ضریب تشخیص نیز گفته می شود.
تعریف ضریب تعیین (R2) نسبتاً ساده است: “ضریب تعیین (R2) نشان میدهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می شود” یا به عبارت دیگر ضریب تعیین نشان دهنده این است که “چه مقدار از تغییرات متغیر وابسته تحت تاثیر متغیر مستقل مربوطه بوده و مابقی تغییرات متغیر وابسته مربوط به سایر عوامل میباشد.”
R-squared = Explained variation / Total variation
ضریب تعیین همیشه بین ۰ و ۱۰۰٪ است:
۰٪ نشان می دهد که مدل هیچ یک از تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین نمیکند.
۱۰۰٪ نشان می دهد که مدل همه تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین میکند.
3- نمایش گرافیکی از ضریب تعیین (R2)
نمودار مقادیر برازش شده توسط مقادیر مشاهده به صورت گرافیکی مقادیر ضریب تعیین مختلف برای مدل های رگرسیونی را نشان می دهد.
مدل رگرسیون سمت چپ R2=38.0% و مدل سمت راست دارای R2=87.4% است. مقدار ضریب تعیین بالاتر نشان می دهد که در مدل رگرسیونی مقدار مشاهده شده به خط برازش شده نزدیک تر هستند. از لحاظ تئوری اگر R2=100.0% شود تمامی مقادیر مشاهده شده با مقادیر برازش شده یکسان خواهند بود و همه نقاط داده ها بر روی خط برازش شده قرار خواهند گرفت.
4- محدودیت های کلیدی ضریب تعیین (R2)
ضریب تعیین نمی تواند تعیین کند که آیا مدل برازش شده اریب است یا نه، به همین دلیل باید نمودارهای باقیمانده را ارزیابی نمود. ضریب تعیین (R2) نشان نمی دهد که آیا یک مدل رگرسیون مناسب است یا نه. نکته قابل تأمل آن است که یک مدل رگرسیونی خوب ممکن است ضریب تعیین (R2) پایین داشته باشید و یک مدل رگرسیونی با مقدار ضریب تعیین (R2) بالا ممکن است برای برازش داده ها مناسب نباشد!
5- آیا ضریب تعیین (R2) پایین ذاتاً بد است؟
نه! دو دلیل مهم که چرا مقادیر ضریب تعیین (R2) پایین می تواند بد نباشد، وجود دارد.
در برخی از زمینه ها، به طور کلی انتظار می رود که مقادیر ضریب تعیین (R2) پایین باشد. به عنوان مثال، در زمینه تلاش برای پیش بینی رفتار انسان (مانند روانشناسی) معمولا مقادیر ضریب تعیین (R2) کمتر از ۵۰٪ است. رفتار انسان ها به سادگی مانند فرآیندهای فیزیکی قابل پیش بینی نیست.
به علاوه، ممکن است ضریب تعیین (R2) پایین باشند، اما متغیرهای پیش بینی معنی دار از نظر آماری وجود داشته باشند، در این صورت هنوز هم میتوان نتیجه گیری مهمی در مورد چگونگی تغییر در مقدار متغیر پاسخ در ارتباط به متغیر ورودی ترسیم نمود. صرف نظر از ضریب تعیین (R2) ضرایب معنادار آماری مدل رگرسیونی هنوز میانگین تغییر در متغیر پاسخ برای یک واحد تغییر در متغیر ورودی را ارائه می کند. بدیهی است، این نوع از اطلاعات می تواند بسیار با ارزش است.
یک ضریب تعیین (R2) پایین زمانی که قصد آن وجود دارد که یک پیش بینی با دقت معقول انجام شود (دارای یک بازه ی پیش بینی به اندازه کافی کوچک) بیشتر مشکل ساز خواهد بود. سئوالی که مطرح می شود آن است که چقدر یک ضریب تعیین (R2) برای پیش بینی باید بزرگ باشد؟ این امر بستگی به نیاز مطالعه برای عرض یک بازه پیش بینی و میزان تغییرپذیری در داده ها دارد. مادامی که یک ضریب تعیین (R2) بالا برای پیش بینی ها دقیق مورد نیاز است، همانطور که در ادامه نشان داده خواهد شد این امر به خودی خود برای صحت مدل کافی نیست. همچنین زمانی که قصد داریم تمامی جوانب احتمالی متغیر پاسخ را برای جامعه ای با تغییرپذیری بالا بررسی کنیم (مثل پیش بینی تعداد آری احتمالی یک کاندیدا برای ریاست جمهوری)، داشتن یک بازه بزرگ تر برای مقادیر پیش بینی (یعنی ضریب تعیین (R2) کوچک) نیز قابل استفاده خواهد بود.
6- آیا ضریب تعیین (R2) بالا ذاتاً خوب است؟
نه! ضریب تعیین (R2) بالا لزوماً نشان نمی دهد که صحت یک مدل مناسب است. ممکن است متعجب شود، اما به دو نمودار زیر (نمودار خط برازش شده و نمودار باقیمانده ها) نگاه کنید. نمودار خط برازش شده رابطه بین تحرک الکترون نیمه هادی و لگاریتم طبیعی چگالی برای داده های تجربی واقعی نشان می دهد.
مودار نشان می دهد که داده ها با یک تابع با ضریب تعیین ۹۸٫۵٪، که مقدار بزرگی است برازش شده است. با این حال، با نگاه دقیق تر به خط رگرسیون مشخص می شود که در نقاط مختلف در طول منحنی رگرسیون داده های به صورت سیستماتیک زیر و بالای خط برازش شده قرار دارند. این نشان دهند وجود اریبی در معادله برازش شده است. همچنین یک الگو در نمودار باقیمانده ها مشاهده می شود. در این نمودار انتظار می رود در حالت مطلوب هیچ الگوی خاصی وجود نداشته باشد و باقیمانده ها رفتاری تصادفی و توزیع نرمال داشته باشند. لذا وجود این الگوها نشان دهنده یک برازش با صحت نامناسب است. به همین دلیل می باشد که علاوه بر ضریب تعیین (R2) برای بررسی مناسب بودن صحت یک مدل برازش شده باید روندها در نمودار باقیمانده ها را نیز بررسی نمود.
با این حال هنگامی که مدل رگرسیونی متغیرهای پیش بینی مهمی (مثل اثرات متقابل یا چند جمله ای) را از دست می دهد اریبی های مشابه با نمودار فوق ممکن است، اتفاق بی افتد.
برای کسب اطلاعات بیشتر که چرا یک ضریب تعیین (R2) بالا همیشه نشان دهنده خوب بودن مدل نمی باشد پست مربوط به پنج دلیل که چرا ضریب تعیین (R2) می تواند بیش از حد بزرگ باشد را ملاحظه نمایید.
7- حرف پایانی در خصوص ضریب تعیین (R2)
ضریب تعیین (R2) برای اینکه تعیین کند چقدر خوب یک معادله رگرسیونی داده ها را برازش می کند مفید است. اما همانگونه که ملاحظه شده ضریب تعیین به تنهایی برای بررسی صحت مدل کفایت نمی کند و بایستی علاوه بر ضریب تعیین (R2)، نرمال بودن داده ها یا باقیمانده ها، ثابت بودن واریاس در سطوح مختلف، استقلال داده ها نسبت به زمان و اریب نبودن مشاهدات برای صحت مدل برازش شده مورد ارزیابی قرار گیرند.
در حالی که ضریب تعیین (R2) تخمینی از قدرت رابطه بین مدل و متغیر پاسخ فراهم می کند، اما یک آزمون فرضیه رسمی برای این رابطه ارائه نمی دهد. از آزمون F-TEST برای تعیین اینکه رابطه معنادار آماری وجود دارد یک خیر استفاده می شود.
در پست ها بعدی در خصوص تجزیه و تحلیل رگرسیون سعی خواهد شده به این موضوع که ضریب تعیین (R2) تنها ناقص است دو نوع ضریب تعیین دیگر adjustedR2 و predictedR2 را نیز مورد بررسی قرار دهیم.
40 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
سلام
با تشکر از مطالب خوبتون
من یه سوال دارم: فرق بین ضریب تعیین و ضریب تعیین تعدیل شده چیه؟
ممنون
جناب آقای زهیر نورمحمدی
با سلام و احترام
در مقاله ارائه شده در لینک زیر به خوبی تفاوت بین ضریب تعیین و ضریب تعیین تعدیل شده تشریح شده است
تجزیه و تحلیل رگرسیون چندگانه: استفاده از ضریب تعیین تعدیل شده و ضریب تعیین پیش بینی برای در بر داشتن تعداد درست متغیرها
موفق باشید
دستمردی
درجه آزادی مدل ازش کم میشه
سلام ببخشید R^2 در رگرسیون همون بتاست؟
با سلام و احترام
خیر.
R^2 ضریب تعیین است
بتا یکی نوع خطا در انجام آزمون فرض آماری است
سلام
اگه امکانش هست یک مفاله درباره R^2 برای بنده ارسال کنید
با سلام، ممنون برای مطالب خوبتون. ببخشید اگه امکانش هست لطفا R2 predicted رو توضیح بدید.
با تشکر
سلام
یک متغیر مستقل داریم :خودکارآمدی شغلی که ضریب تعیینش ۰٫۴۲
یک متغیر وابسته: تعالی سازمانی که ضریب تعیینش ۰٫۵۰
تفسیر این اعداد با توجه به این جمله : چه مقدار از تغییرات متغیر وابسته تحت تاثیر متغیر مستقل مربوطه است و …
چی میشه ؟
مرسی
سلام دوست عزیز
برای تعیین محدوده سطح اطمینان و یا همان prediction bounds اطراف خط رگرسیون در اکسل و یا نرم افزار SPSS بایستی چکار کرد؟
با سلام و خسته نباشید. من در ایویوز برای معنادار بودن رگرسیون مدل توبیت به جای r2 از ازمون والد نیاز دارم استفاده کنم ولی نمیدونم روشش چطوریه. فرمول مورد نظرو میزنم اما در قسمت بعدی date or id نمیدونم چی باید وارد کنم. لطفا راهنمایی بفرمایید. ممنون
باسلام
من فايلي جهت تست فيشر بااستفاده از روش ضريب چندگانه رگرسيون ميخواستم اگر فايلي دارين براي من بفرستين ممنون
[email protected]
با سلام و احترام
در این خصوص فایلی ندارم
سلام
راجع به مرتب کردن داده ها قبل از انجام تحلیل رگرسیون و متغیر ابزاری منابعی داید معرفی بفرمایید لطفا.
ضمن اینکه امکان مشاوره با شما از طریق اسکایپ هست؟
اگر به ایمیل من جواب بدید ممنون میشمو
من ایران حضور ندارم.
با سلام و احترام
سوال ارسالی شما شفاف نیست. دقیقا چه کاری را می خواهید انجام دهید؟
سلام صمیمانه از مطالب خوب تون تشکر میکنم
سلام از لطف شما سپاسگزارم
با سلام .من یه سوال دارم گیر کردم بدجور لطفا کمک کنید
Yi= a0 + a1(X1i) +a2(X2i) + … +an(Xn) + Ci
تو این معادله Ci یک عدد ثابته ک واسه هر مشاهده متفاوته
اگر Ci نبود که به راحتی حل میشد و ai ها براورد میشدن. الان باید چیکار کنیم???
اکه بخوایم Ci هارو بیاریمش این سمت معادله و بعد براورد کنیم باعث میشه بعضی ازy هامون منفی بشه که ما فرض داریم Y ها مثبت باشن.
با سلام و احترام
با استفاده از مدلسازی ریاضی می توانید به راحتی پاسخ بهینه را بیابید.
در مدل ریاضی مربوطه تابع هدف را حداقل مربعات باقیمانده ها به روش معمولی یا وزنی قراردهید.
متغیرهای تصمیم را هم ضرایب معادله های رگرسیونی خود در نظر بگیرد
سپس پاسخ بهینه را با نرم افزارهای بهینه سازی مانند SOLVER در اکسل بیابد.
اگر نیاز به اطلاعات بیشتر داشتین کتاب های برنامه ریزی خطی و غیر خطی را مطالعه نمایید
موفق باشید
دستمردی
سلام منظور از خود رگرسیونی سیستماتیک چیه؟ و همینطور اطلاعاتی راجع به آزمون گرنجر تصحیح شده هشیائو دارین؟
سلام وقت بخیر
ببخشین بین ضرایب رگرسیون همبستگی وجود داره؟ منظور بین B0 و B1 هست
سلام، وقت بخیر، ببخشید من از چندین مدل مختلف برای برازش یک سری داده استفاده کردم و بعد جهت مقایسه دقت مدل ها از R2adj و RMSE استفاده کردم. حالا از من خواسته شده که statistical significant level test که اگه اشتباه نکنم همون آزمون معناداری هست را هم انجام بدهم، چطور میتونم این آزمون رو انجام بدم، اطلاعاتی در مورد این آزمون میخواستم، توسط چه نرم افزاری این آزمون رو میتونم انجام بده، ممنون میشم بنده رو راهنمایی بفرمایید. تشکر
خواهش میکنم اگه امکانش هست کمکم کنین
مدل رگرسیونم خطی چند متغیره y = β0 + β1×1 + β2×2 + β3×3 +e مشاهداتم xها و y توزیع خطی (L(a,b دارند و uncertain هستن .باید β0, β1,β2, β3 براورد کنم.باید از روش حداقل مربعات استفاده کنم.
چیزی که باید از بهینه سازی کنم در انتها تبدیل میشه به مجموع حداقل مربعات یه انتگرال. براتونایمیل کردم خواهش میکنم راهنمایین کنین.
سلام
منظور از sum of squares در آنالیز واریانس چیست؟ که به عنوان شاخصی برا انتخاب بهترین مدل از بین مدل های رشد غیر خطی مانند لجستیک و وان برتالنفی به کار گرفته شده است.
با تشکر
ضمن تشکر از مطالب بسیار ارزشمندتون سوالی داشتم،
بالا بودن r2 اما عدم معنی داری بتا یعنی ضرایب رگرسیونی نشاندهنده چیست؟
با سلام و احترام
فایل مورد نظر بفرستین ببینم
با عرض سلام واحترام
از مطالب بسیار ارزشمندتان خیلی ممنونم.
برازش مدل رگرسیونی نامرتبط(SUR) به چه معناست و در چه زمانی باید از این نوع برازش استفاده نمود؟باتشکر
سلام
محبت می کنید در خصوص مورد زیر مرا راهنمایی بفرمایید.
من یک سری برداشت و نتایج زمایشگاهی دارم که تعداد حدود 750 نقطه را شامل می شود.این برداشت ها دو متغیر A و B هستند. این دو متغیر به هم وابستگی دارند. من به نحوی معادله ای بین این دو پیدا کرده ام که از مقادیر A ازمایشگاهی ، می توانم مقادیر متناظر B را از معادله به دست اورم . بین مقادیر B ازمایشگاهی و B حاصل از معادله تفاوت هایی وجود دارد. من درصد متوسط خطاهای بین ایندو، حداکثر و حداقل خطاها و واریانس را بدست آورده ام . اما نمی دانم چگونه نشان دهم که این معادله ، می تواند معادله خوبی برای تخمین B با شد چرا که در طبیعت من مقادیر A را دارم و اگر معادله مناسب باشد می توانم مقادیر B متناظر را حاصل نمایم.
_ آیا تنها با داشتن متوسط و ماکزیمم و منحنی پراکنده گی خطاها و واریانس و ارزیابی انها، می توان به مناسب بودن رابطه رای داد؟
چه پارامترهای اماری دیگر هستند که لازم است من برای تایید معادله از انها استفاده کنم و طرز استفاده و نتیجه گیری چگونه است؟
بسیار سپاسگزارم . شیبانی
باسلام ضمن تشكر بابت مطالب ارزشمندموجود
موضوع پايان نامه من رفتار جمعي يا گله اي هست و مقدار R-squared ضريب تعيين كمتر از ده درصد شده با توجه به مطلب سايت كه فرمود در حوزه رفتارهاي انساني اين رقم كمتر از 50 درصد مي باشد . آيا. جايي از كار مشكل دارد يا خير ؟ ممنون ميشم پاسخ بديد
ببخشید در چه مواقعی ضریب تعیین منفی میشه؟؟؟االبته غیر از وقتی که عرض از مبدا نداشته باشیم.
اگه حای دیگه ای بلدین بگین
به جواب سوالتون رسیدین که در چه مواقعی ضریب تعیین منفی میشه؟؟
سلام، چرا ضریب بتا بالای 1 میشود؟
با سلام
لطفا در صورت امکان یک توضیح کوتاه در رابطه با شاخص NOF بدید. خیلی ضروری است
با تشکر
سلام میشه لینک داخل مطلبو چک کنید.برای من مشکل داشت.ممنون
سلام. وقت بخیر. لطفا رفرنس این مطالب را ذکر کنید. با تشکر.
با سلام و احترام
مقاله فوق بر گرفته شده از مقالات وبلاگ minitab می باشد
با سلام و درود – عذرخواهم – پایان نامه ارشدم در مورد بررسی عوامل موثر بر کشاورزی قراردادی است . 400 رکورد در 110 سوال جمع اوری شده و 3 فصل اول پایان نامه رو هم نوشته ام وفقط محاسبات پایان نامه ام مونده که با استتا از روش هکمن دو مرحله ای براوردهای زیادی زده ام ولی متاسفانه R2 پائینه ولی آماره p متغیرها در ols معنی دار شد، برای افزایش R2 هم میانگین گرفتم و داده های متغیرها رو با میانگین باربینی و تنظیم کردم و هم داده های نتغیرها رو بردم روی نمودار رگرسیون و داده های پرت رو حذف و بقیه داده های رو هم مجدد تنظیم کردم ولی باز هم r2 بالا نیومد فقط یکبار r2 از 0.2 رسید به 0.5 ولی آماره pمتغیرها بی معنی شد و این R2 با عدد اماره pمتغیرها برعکس شده و هر بار یک کدومشون درست میشه، دیگه موندم گه چه باید کرد، به ذهنم رسید از حالت log متغیرها استفاده کنم . ضمنا” متغیرها همخطی هم ندارن ولی حدس میزنم واریانس ناهمسانی داشته باشند . لذا از محضر جنابعالی درخواست کمک و هم فکری دارم . ارادت و سپاس
با سلام و احترام
بدون دیدن داده ها نمی توانم پاسخ مناسب بدهم.
پیشنهاد می کنم با شرکت های که به عنوان مشاوره آماری فعالیت می کنند تماس بگیرید و دادههای خودتان را برای بررسی به آنها ارسال نمایید.
سلام و ارادت – آیا اجازه می فرمائید داده ها رو خدمتتون تقدیم کنم ؟
متاسفانه زمان کافی برای انجام پروژه های دانشجویی را ندارم.
ببحشید که نمی توانم کمکی کنم.
سلام سوالی داشتم
چه رابطه ای بین تعداد نفاط و ضریب تعیین وجود دارد؟ ممنون میشوم راهنمایی بفرمایید