یک روش ساده برای انجام تجزیه و تحلیل رگرسیون چندگانه با نرم افزار Minitab
۱- مقدمه بر تحلیل رگرسیون چندگانه
شاید شما به تازگی با تجزیه و تحلیل دادههای آماری آشنا شدهاید و در مورد آمار آگاهی زیادی ندارید و به نظر شما انجام این تجزیه و تحلیلها سخت و پیچیده باشد. در این شرایط منوی Assistant در نرم افزار آماری Minitab به شما یک راهنمای تعاملی را از ابتدا تا پایان ارائه میدهد. استفاده از این منو برای افراد که آشنایی زیادی با مسائل آماری ندارند، بسیار مفید است زیرا این منو به شما کمک خواهد کرد که ابزار مناسب را به سرعت انتخاب کنید، دادههای خود را به درستی تجزیه و تحلیل کنید، و حتی نتایج به دست آمده را به شکل مناسبی تفسیر کنید.
یکی نوع از تحلیلهای آماری که بسیاری از محققین و دانشجویان با آن مواجه هستند، تجزیه و تحلیل رگرسیون چندگانه است، به ویژه یک تحلیل که هدف آن بهینه سازی پاسخ با یافتن بهترین سطوح برای متغیرهای مختلف است. در این پست، از منوی Assistant در نرم افزار آماری Minitab برای تکمیل تحلیل رگرسیون چندگانه و بهینه سازی پاسخ استفاده می کنیم.
۲- شناسایی نوع مناسب رگرسیون
برای شناسایی نوع مناسب رگرسیون در ادامه یک مثال آورده تشریح خواهد شد. در مثال ارائه شده، از یک مجموعه از دادهها بر اساس برخی از تحقیقات انرژی خورشیدی استفاده خواهیم کرد (دانلود فایل مثال).
مثال: دانشمندان دریافتهاند از موقعیت نقطههای کانونی میتوانند برای پیشبینی هدایت حرارتی کامل استفاده نمایند. بر این اساس در این مثال هدف از تحلیل دادهها یافتن موقعیت ایده آل برای این نقاط کانونی است.
هنگامی که در نرم افزار minitab از منوی Assistant گزینه Regression را انتخاب می کنید، این نرم افزار به شما یک درخت تصمیم گیری تعاملی را ارائه می دهد. اگر شما نیاز به توضیح بیشتر برای انتخاب روش مناسب برای تجزیه و تحلیل دادههای خود دارید، فقط کافی است با موس بر روی گزینههای ارائه شده در این درخت تصمیم کلیک نمایید.
برای فایل مثال ارائه شده برای بهینه سازی هدایت حرارتی سه متغیر X یا پیشبینی کننده وجود دارد که میخواهیم رابطه بین آنها و متغییر پاسخ (هدایت حرارتی) را بدست آوریم و همچنین پاسخ بدست آمده را بهینهسازی نماییم بدین منظور در درخت تصمیم نشان داده شده دکمه Optimize Response واقع در قسمت پایین سمت راست درخت تصمیم ارائه شده توسط نرمافزار را کلیک مینمایم. با کلیک بر روی این دکمه کادرمحاورهای ساده برای انجام کار ارائه میشود. در این کادر محاورهای مطابق با شکل زیر HeatFlux را به عنوان متغیر پاسخ تعیین میکنیم. متغیرهای X نقاط کانونی در هر جهت (شرق، شمال و جنوب) است. بر اساس دانش قبلی، ما میدانیم که هدایت حرارتی مطلوب ۲۳۴ میباشد، لذا در قسمت مقدار هدف عدد ۲۳۴ را وارد میکنیم، اما برای مسائل یا مثالهای دیگر میتوانیم از نرم افزار بخواهیم که متغیر پاسخ ما را به حداکثر یا حداقل برساندن. از آنجایی که ما کادر محاورهای گزینه “Fit interaction 2-way interaction and quadratic terms” را به حالت انتخاب درآوردهایم، نرمافزار رابطههای درجه بالاتر و اثرات متقابل را نیز مورد بررسی قرار میدهد.
هنگامی که ما “OK” را فشار می دهیم، نرم افزار به سرعت یک مدل رگرسیون برای متغیرهای X با استفاده از رگرسیون گام به گام (stepwise regression) تولید می کند. این نتایج در یک سری از گزارشات به زبان ساده و آسان ارائه میشوند.
۳- گزارش تحلیل رگرسیون ارائه شده توسط نرمافزار
۱-۳- گزارش مختصر در تحلیل رگرسیون
نرم افزار Minitab گزارش خلاصهای مطابق با شکل زیر برای تحلیل نتایج ارائه میدهد. برای مثال ارائه شده برای هدایت حرارتی، مقدار P-Value کمتر از ۰٫۰۰۱ بدست آمده است، این امر نشان میدهد که مدل رگرسیون از لحاظ آماری معنیدار است و مقدار R-squared برابر با ۹۶٫۱۵٪ است. کادر پیشنهادات نشان میدهد که مدل شامل کدامیک از متغیرهای X شرق، جنوب و شمال، و همچنین اثرات متقابل آنها و درجات بالاتر آنها میشود.
۲-۳- گزارش اثرات در تحلیل رگرسیون
گزارش اثرات نشان میدهد تمام اثرات اصلی و اثرات مقابل در مدل وجود دارند. وجود انحناء در منحنیهای رسم شده نشان میدهد که نرم افزار از یک عبارت چندجملهای غیر خطی برای برازش منحنی استفاده نموده است. در این گزارش، اثر متقابل East*South معنادار است. این به این معنی است که اثر یک متغیر در هدایت حرارتی بر اساس متغیر دیگر متفاوت است. اگر متغیر South دارای مقدار کم (۳۱٫۸۴) باشد، هدایت حرارتی با افزایش متغیر East کاهش مییابد. اما اگر متغیر South دارای مقدار زیاد (۴۰٫۵۵) باشد، هدایت حرارتی با افزایش متغیر East افزایش مییابد.
۳-۳- گزارش تشخیصی در تحلیل رگرسیون
گزارش تشخیصی نمودار باقیماندهها در مقایسه با مقادیر برازش شده و همچنین هر گونه نقاط غیر معمول را نشان میدهد که این نقاط غیر معمول بایستی مورد بررسی قرار گیرند. در تصویر زیر همان طور که نشان داده شده است، دارای دو نقطه غیر معمول میباشد، این نقاط لزوماً نشان دهند وجود مشکل در تحلیل دادهها نمیباشند. زیرا براساس معیارهای موجود وقتی تعداد مشاهدات زیاد است، انتظار میرود که تقریبا ۵ درصد از مشاهدات به عنوان نقاط غیر معمول پرچم گذاری شوند. این گزارش همچنین دو نقطهای را که دارای مقادیر غیر معمول X هستند، را شناسایی نموده است؛ با کلیک کردن روی نقاط میتوان ردیف آنها را در پنجره worksheet نرم افزار مشاهده نمود.
۴-۳- گزارش ساختن مدل در تحلیل رگرسیون
گزارش ساختن مدل جزئیات نحوه وارد کردن متغیرها توسط نرم افزار در معادله نهایی را نشان میدهد. همچنین شامل معادله رگرسیون است و متغیرهایی را که بیشترین نقش را در معادله رگرسیونی دارند را تعیین می کند و نشان می دهد که آیا بین متغیرهای X همبستگی وجود دارند یا خیر. در مدل ارائه شده برای شار حرارتی، متغیر North بیشترین اطلاعات را به خود اختصاص می دهد. اگرچه متغیر East معنادار نیست، از آنجایی که درجات بالاتر آن تاثیر معنادار بر روی معادله رگرسیونی دارد، نرمافزار آن را در مدل آورده است.
این یک فرصت خوب برای اشاره این موضوع است که چگونه نرمافزار به شما اطمینان میدهد که بهترین روش تحلیل انجام شده است. برای مثال، نرم افزار از متغیرهای استاندارد شده X برای ایجاد مدل رگرسیون استفاده میکند. به این دلیل که استانداردسازی متغیرهای X بیشترین همبستگی بین شرایط خطی و درجات بالاتر را حذف می کند، این امر احتمال اینکه یک متغییر غیر لازم به مدل شما اضافه شود، را کاهش میدهد. با این حال، نرم افزار مدل نهایی را در واحدهای طبیعی (بدون استاندارد) نمایش می دهد.
۵-۳- گزارش پیشبینی و بهینهسازی
گزارش پیشبینی و بهینهسازی نرمافزار راه حلهایی برای به دست آوردن مقدار هدایت گرمای هدف ۲۳۴ را فراهم میکند. تنظیمات بهینه برای نقاط کانونی به ترتیب به ترتیب East = 37.82 و South = 31.84 و North = 16.01 تعیین شدهاند. مدل پیشبینی میکند که با این تنظیمات هدایت حرارتی ۲۳۴ بدست آید. مقدار پیشبینی شده در سطح اطمینان ۹۵% از مقدار ۲۱۶ تا ۲۵۲ میباشد. همچنین نرم افزار Minitab راهحلهای دیگری نیز برای رسیدن به جواب نزدیک به بهینه ارائه مینماید.
۶-۳- کارت گزارش
در نهایت، کارت گزارش مانع از بین رفتن مشکلات بالقوه شما میشود که میتواند نتایج شما را غیر قابل اعتماد سازد. برای مثال ارائه شده، گزارش پیشنهاد مینماید که برای انجام تجزیه و تحلیل یک نمونه بزرگتر جمعآوری شود و نقاط غیرمعمول مورد بررسی قرارگیرند. همچنین نشان میدهد که نرمال بودن یک مسئله یا مشکل برای دادههای ارائه شده نیست. در نهایت، یادآوری مفید برای صحهگذاری مقادیر بهینه با انجام آزمون تاییدی ارائه میکند.
استفاده از Assistant’s در نرم افزار Minitab براساس عملیات آماری انجام میشود. در ادبیات موضوع راهنماهای مفید بسیاری وجود برای تجزیه و تحلیل رگرسیون چندگانه وجود دارد که جزئیات بیشتری را در خصوص رگرسیون چندگانه ارائه مینمایند خواندگان این پست میتوانند در صورت نیاز برای کسب اطلاعات بیشتر به آنها مراجعه نمایید.
11 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
سلام و وقت بخیر. ممنونم از توضیح خوبتون.
سوالم اینه که اگر ما بجای یک response variable دو تا داشته باشیم و هدفمون افزایش یکی و کاهش دومی باشه. چکار میشه کرد؟ این قسمت که فقط میشه یدونه response انتتخاب کرد. ممنون میشم توضیح بدید
با سلام و احترام
برای انجام این کار ابتدا با استفاده از مسیر زیر در نرم افزار Minitab مدلها را برازش مینمایید
Stat > Regression > Regression > Fit Regression Model
سپس با استفاده از مسیر زیر در نرم افزار Minitab اقدام به بهینه سازی مینمایید:
Stat > Regression > Regression > Response Optimizer.
موفق باشید
دستمردی
تشکر از پاسختون. ممنونم
سلام وقت بخیر
در مدل به دست امده برای بهینه سازی چگونه می توان پارامترهایی رویی که p valueبزرگ تر 0.05 دارند و insignificantهستند از مدل رگروسوینی حذف کرد
با سلام و احترام
در هنگام تحلیل وارد منو زیر شوید
Stat > DOE > …. > Stepwise
به عنوان مثال اگر از روش rsm رفتین
Stat > DOE > Response Surface > Analyze Response Surface Design > Stepwise
در این بخش با انتخاب کزینه Stepwise نرم افزار فاکتورهای که اثر معنادار ندارند را از مدل حذف می کنند
موفق باشید
دستمردی
در این منو می توانید به نرم افزار بگوید
که
ممنون از پاسخگویی ….
این راه رو رفتم ولی حذف نشدند …ممکن هست بیش تر راهنمایی کنید
سلام وقت بخیر
رگرسیون ابرهارت راسل با چه نرم افزاری و چطوری انجام میشه؟
سلام من یک 3 ورودی و یک خروجی اومدم رگرسیون گرفتم الان تحلیل نمودارهامو بلد نیستم و برای دفاع باید حتما بتونم تحلیل کنم مثلا محور افقی و محور عمودی چی هست و جواب خوبه یا نه چطوری از این ها سردربیارم ممنون میشم راهنمایی کنید .
سلام
در این مثال:
ردیف های 23 و 18 دارای باقیمانده لارژ هستند (مربع قرمز)
ردیف های 4 و 1 هم به عنوان مقادیر غیرمعمول شناسایی شدند (لوزی قرمز)
آیا برنامه این نقاط را به عنوان نقاط پرت تشخیص داده و حذف کرده؟
آیا مدل بدون حذف این نقاط ایجاد شده است؟
آیا نباید اول درباره پرت بودن نقاط بررسی می شد؟
با تشکر
با سلام و احترام
معادله داده شده بدون حذف دادههای غیر معمول است.
برای نقاط غیر معمول ابتدا بایستی بررسی شود که داده غیر معمول مشاهده شده، “نقطه خارج افتاده” است یا “نقطه تاثیر گذار”.
اگر نقطه خارج افتاده باشد، تنها وقتی اجازه حذف وجود دارد که علت ایجاد آن شناسایی و پس از انجام اقدام اصلاحی اون نقطه را میتوانیم حذف کنیم.
پاینده و پیروز باشید.
خیلی ممنون از توضیحات شما