پاورپوینت کامل و جامع با عنوان روش ماتریسی مدل رگرسیون خطی در 32 اسلاید

- پاورپوینت کامل و جامع با عنوان روش ماتریسی مدل رگرسیون خطی در 32 اسلاید

پاورپوینت کامل و جامع با عنوان روش ماتریسی مدل رگرسیون خطی در 32 اسلاید

 

 

 

 

 

 

 

 

رگرسیون خطی یا تنازل خطی یا وایازی خطی یکی از روش‌های تحلیل رگرسیون است. رگرسیون یک نوع مدل آماری‌ست برای پیش‌بینی یک متغیر از روی یک یا چند متغیر دیگر. به عنوان مثال برای پیش‌بینی قیمت خانه می‌توان از یک مدل رگرسیون استفاده کرد که در آن از متغیرهایی همچون مساحت خانه (متراژ)، تعداد اتاق‌ها و سرویس‌های بهداشتی، موقعیت خانه (شهر و/یا محله) و سایر اطلاعات استفاده شده‌است. رگرسیون خطی نوعی تابع پیش‌بینی‌کننده خطی است که در آن متغیر وابسته — متغیری که قرار است پیش‌بینی شود — به صورت ترکیبی خطی از متغیرهای مستقل پیش‌بینی می‌شود، بدین معنی که هر کدام از متغیرهای مستقل در ضریبی که در فرایند تخمین برای آن متغیر به‌دست آمده ضرب می‌شود؛ جواب نهائی مجموع حاصل‌ضرب‌ها به علاوه یک مقدار ثابت خواهد بود که آن هم در فرایند تخمین به‌دست آمده‌است. ساده‌ترین نوع رگرسیون خطی، رگرسیون خطی ساده است که بر خلاف رگرسیون خطی چندگانه، تنها یک متغیر مستقل دارد. نوع دیگر رگرسیون خطی رگرسیون خطی چندمتغیره است که در آن به جای پیش‌بینی یک متغیر وابسته چندین متغیر وابسته پیش‌بینی می‌شود.

فرایند تخمین سعی می‌کند ضرایبِ مدل رگرسیون خطی را به گونه‌ای انتخاب کند که با داده‌های موجود همخوانی داشته باشد، یعنی پیش‌بینی‌ها به مقادیر رؤیت شده در داده‌ها نزدیک باشند و یکی از مهم‌ترین مسائل در رگرسیون خطی، به حداقل رساندن اختلاف بین این دو است. راه‌های مختلفی برای حل این مسئله وجود دارد. در روشهای احتمالی، مدل‌های رگرسیون خطی سعی در برآورد توزیع احتمال شرطیِ متغیر وابسته (و نه توزیع احتمال توأم) دارند که از آن طریق آماره‌ای از متغیر وابسته را به عنوان پیش‌بینی نهایی به‌کار می‌برند. از متداولترین آماره‌های مورد استفاده میانگین است، اگر چه سایر آماره‌ها نظیر میانه یا چندک‌ها نیز مورد استفاده قرار می‌گیرند.

یکی دیگر از روشهای متداول تخمین، روش کمترین مربعات است. در این روش برای تخمین ضرایب رگرسیون خطی فرایند یادگیری سعی می‌کند مجموع مربع تفاضل پیش‌بینی‌ها (که از ترکیب خطی داده‌های مستقل به‌دست می‌آید) و داده‌های وابسته را – که در مدل‌سازی آماری به آن تابع هزینه می‌گویند – کمینه کند. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام داده‌های مستقل با ماتریس ترانهادهٔ آن است، فرآیندی که می‌تواند پرهزینه و ناکارا باشد، به خصوص زمانی که تعداد متغیرهای مستقل و داده‌ها زیاد است. علاوه بر این ممکن است ماتریس نهائی وارونه‌ناپذیر باشد. از این رو، برای کمینه‌کردن تابع هزینه عموماً از روش‌های جایگزین مانند گرادیان کاهشی تصادفی استفاده می‌شود. در این روش ابتدا پارامتر مدل را به صورت تصادفی مقداردهی می‌کنند و هر بار به کمک نمونه‌ای تصادفی از داده‌ها در جهت خلاف گرادیان حرکت کرده و پارامتر را به روز می‌کنند. این کار آنقدر ادامه پیدا می‌کند تا گرادیان به اندازهٔ کافی کوچک شود. از آنجا که تابع هزینه‌ای که برای این روش به کار می‌رود محدب است، تنها یک کمینه برایش وجود دارد و روش گرادیان کاهشی حتماً به جواب خواهد رسید.

با اینکه روش کمترین مربعات از متداول‌ترین روشهای تخمین مدل رگرسیون خطی است اما روشهای دیگری مانند کمترین قدرمطلق‌ها (که در آن مجموع قدرمطلق تفاضل پیش‌بینی و داده وابسته به عنوان تابع هزینه در نظرگرفته می‌شود) یا تخمین جریمه یافته کمترین مربعات (مانند جریمه نُرمِ  و جریمه نُرمِ ) نیز مورد استفاده قرار می‌گیرد.

روش تخمین از طریق کمترین مربعات با روش تخمین میانگین از طریق برآورد احتمال شرطی متغیر وابسته با در نظر گرفتن یک سری مفروضات معادل خواهد بود. اگر متغیر وابسته از یک توزیع طبیعی با میانگینی که ترکیبی خطی از متغیرهای مستقل است و واریانسی ثابت پیروی کند، و متغیرهای وابسته نسبت به هم مستقل باشند آنگاه برآورد درست‌نمایی بیشینه با پارامتری که از کمینه کردن تابع هزینه در کمترین مربعات به دست می‌آید یکی خواهد بود. این تعبیر احتمالی برای محافظت مدل از بیش‌برازش مورد استفاده قرار می‌گیرد، به این شکل که با استفاده از قانون بیز فرض می‌شود خود پارامترهای مدل هم از یک توزیع احتمال (که آن را توزیع پیشین می‌نامند) پیروی می‌کنند و سپس با مشاهدهٔ داده‌ها، احتمال پسین محاسبه و بیشینه می‌شود. اگر احتمال پیشین به گونه‌ای باشد که پارامترهایی که نُرمِ کمتری دارند محتمل‌تر باشند، آنگاه مدل نهائی پارامترهایی را فراخواهد گرفت که بزرگ نیستند و این باعث حفاظت مدل از بیش‌برازش می‌شود. روش استفاده برآورد درست‌نمایی احتمال پسین معادل روش تخمین جریمه یافته کمترین مربعات است.

رگرسیون خطی به‌طور گسترده‌ای در علوم زیستی، رفتاری، اجتماعی، دارایی، اقتصاد و محیط زیست مورد استفاده قرار می‌گیرد. همچنین رگرسیون خطی و مشتقات آن یکی از ابزارهای شناخته شده و پرکاربرد در یادگیری ماشین هستند. با وجود کاربرد زیاد رگرسیون خطی در علوم مختلف این روش محدودیتهایی هم دارد. بسیاری از مسائل پژوهشی در علوم اجتماعی در قالب مدلهای رگرسیون نمی گنجد و یک متغیر خروجی ندارند مانند تجزیه و تحلیل خوشه‌ایبرای آشکار ساختن گروه های منسجم در داده‌ها. همچنین رگرسیون خطی برای پیدا کردن علّیت بین متغیرهای مستقل و وابسته ابزار مناسبی نیست.

 

فهرست مطالب:

مدل رگرسیون خطی K متغیره

فروض مدل رگرسیون خطی کلاسیک با استفاده از نماد ماتریسی

تخمین OLS

ماتریس واریانس – کوواریانس

X های غیر استوکاستیک

تخمین زن بدون تورش در معادلات رگرسیون خطی دو و سه متغیره

حداقل واریانس – کوواریانس

ضریب تخمین R2 بر حسب نمادهای ماتریسی

ماتریس همبستگی

آزمون فرضیه ضرایب تکی رگرسیون و نمادهای ماتریسی

آزمون معنی داری کلی رگرسیون (آنالیز واریانس) با استفاده از نماد ماتریسی

جدول AOV، تعداد K متغیر در شکل ماتریسی بر حسب R2

آزمون محدودیتهای خطی: آزمون عمومی F

پیش بینی با استفاده از رگرسیون مرکب

پیش بینی میانگین

واریانس برای پیش بینی میانگین

واریانس برای پیش بینی تکی

و…

برای دانلود کلیک کنید