پاورپوینت کامل و جامع با عنوان روش ماتریسی مدل رگرسیون خطی در 32 اسلاید
رگرسیون خطی یا تنازل خطی یا وایازی خطی یکی از روشهای تحلیل رگرسیون است. رگرسیون یک نوع مدل آماریست برای پیشبینی یک متغیر از روی یک یا چند متغیر دیگر. به عنوان مثال برای پیشبینی قیمت خانه میتوان از یک مدل رگرسیون استفاده کرد که در آن از متغیرهایی همچون مساحت خانه (متراژ)، تعداد اتاقها و سرویسهای بهداشتی، موقعیت خانه (شهر و/یا محله) و سایر اطلاعات استفاده شدهاست. رگرسیون خطی نوعی تابع پیشبینیکننده خطی است که در آن متغیر وابسته — متغیری که قرار است پیشبینی شود — به صورت ترکیبی خطی از متغیرهای مستقل پیشبینی میشود، بدین معنی که هر کدام از متغیرهای مستقل در ضریبی که در فرایند تخمین برای آن متغیر بهدست آمده ضرب میشود؛ جواب نهائی مجموع حاصلضربها به علاوه یک مقدار ثابت خواهد بود که آن هم در فرایند تخمین بهدست آمدهاست. سادهترین نوع رگرسیون خطی، رگرسیون خطی ساده است که بر خلاف رگرسیون خطی چندگانه، تنها یک متغیر مستقل دارد. نوع دیگر رگرسیون خطی رگرسیون خطی چندمتغیره است که در آن به جای پیشبینی یک متغیر وابسته چندین متغیر وابسته پیشبینی میشود.
فرایند تخمین سعی میکند ضرایبِ مدل رگرسیون خطی را به گونهای انتخاب کند که با دادههای موجود همخوانی داشته باشد، یعنی پیشبینیها به مقادیر رؤیت شده در دادهها نزدیک باشند و یکی از مهمترین مسائل در رگرسیون خطی، به حداقل رساندن اختلاف بین این دو است. راههای مختلفی برای حل این مسئله وجود دارد. در روشهای احتمالی، مدلهای رگرسیون خطی سعی در برآورد توزیع احتمال شرطیِ متغیر وابسته (و نه توزیع احتمال توأم) دارند که از آن طریق آمارهای از متغیر وابسته را به عنوان پیشبینی نهایی بهکار میبرند. از متداولترین آمارههای مورد استفاده میانگین است، اگر چه سایر آمارهها نظیر میانه یا چندکها نیز مورد استفاده قرار میگیرند.
یکی دیگر از روشهای متداول تخمین، روش کمترین مربعات است. در این روش برای تخمین ضرایب رگرسیون خطی فرایند یادگیری سعی میکند مجموع مربع تفاضل پیشبینیها (که از ترکیب خطی دادههای مستقل بهدست میآید) و دادههای وابسته را – که در مدلسازی آماری به آن تابع هزینه میگویند – کمینه کند. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام دادههای مستقل با ماتریس ترانهادهٔ آن است، فرآیندی که میتواند پرهزینه و ناکارا باشد، به خصوص زمانی که تعداد متغیرهای مستقل و دادهها زیاد است. علاوه بر این ممکن است ماتریس نهائی وارونهناپذیر باشد. از این رو، برای کمینهکردن تابع هزینه عموماً از روشهای جایگزین مانند گرادیان کاهشی تصادفی استفاده میشود. در این روش ابتدا پارامتر مدل را به صورت تصادفی مقداردهی میکنند و هر بار به کمک نمونهای تصادفی از دادهها در جهت خلاف گرادیان حرکت کرده و پارامتر را به روز میکنند. این کار آنقدر ادامه پیدا میکند تا گرادیان به اندازهٔ کافی کوچک شود. از آنجا که تابع هزینهای که برای این روش به کار میرود محدب است، تنها یک کمینه برایش وجود دارد و روش گرادیان کاهشی حتماً به جواب خواهد رسید.
با اینکه روش کمترین مربعات از متداولترین روشهای تخمین مدل رگرسیون خطی است اما روشهای دیگری مانند کمترین قدرمطلقها (که در آن مجموع قدرمطلق تفاضل پیشبینی و داده وابسته به عنوان تابع هزینه در نظرگرفته میشود) یا تخمین جریمه یافته کمترین مربعات (مانند جریمه نُرمِ و جریمه نُرمِ ) نیز مورد استفاده قرار میگیرد.
روش تخمین از طریق کمترین مربعات با روش تخمین میانگین از طریق برآورد احتمال شرطی متغیر وابسته با در نظر گرفتن یک سری مفروضات معادل خواهد بود. اگر متغیر وابسته از یک توزیع طبیعی با میانگینی که ترکیبی خطی از متغیرهای مستقل است و واریانسی ثابت پیروی کند، و متغیرهای وابسته نسبت به هم مستقل باشند آنگاه برآورد درستنمایی بیشینه با پارامتری که از کمینه کردن تابع هزینه در کمترین مربعات به دست میآید یکی خواهد بود. این تعبیر احتمالی برای محافظت مدل از بیشبرازش مورد استفاده قرار میگیرد، به این شکل که با استفاده از قانون بیز فرض میشود خود پارامترهای مدل هم از یک توزیع احتمال (که آن را توزیع پیشین مینامند) پیروی میکنند و سپس با مشاهدهٔ دادهها، احتمال پسین محاسبه و بیشینه میشود. اگر احتمال پیشین به گونهای باشد که پارامترهایی که نُرمِ کمتری دارند محتملتر باشند، آنگاه مدل نهائی پارامترهایی را فراخواهد گرفت که بزرگ نیستند و این باعث حفاظت مدل از بیشبرازش میشود. روش استفاده برآورد درستنمایی احتمال پسین معادل روش تخمین جریمه یافته کمترین مربعات است.
رگرسیون خطی بهطور گستردهای در علوم زیستی، رفتاری، اجتماعی، دارایی، اقتصاد و محیط زیست مورد استفاده قرار میگیرد. همچنین رگرسیون خطی و مشتقات آن یکی از ابزارهای شناخته شده و پرکاربرد در یادگیری ماشین هستند. با وجود کاربرد زیاد رگرسیون خطی در علوم مختلف این روش محدودیتهایی هم دارد. بسیاری از مسائل پژوهشی در علوم اجتماعی در قالب مدلهای رگرسیون نمی گنجد و یک متغیر خروجی ندارند مانند تجزیه و تحلیل خوشهایبرای آشکار ساختن گروه های منسجم در دادهها. همچنین رگرسیون خطی برای پیدا کردن علّیت بین متغیرهای مستقل و وابسته ابزار مناسبی نیست.
فهرست مطالب:
مدل رگرسیون خطی K متغیره
فروض مدل رگرسیون خطی کلاسیک با استفاده از نماد ماتریسی
تخمین OLS
ماتریس واریانس – کوواریانس
X های غیر استوکاستیک
تخمین زن بدون تورش در معادلات رگرسیون خطی دو و سه متغیره
حداقل واریانس – کوواریانس
ضریب تخمین R2 بر حسب نمادهای ماتریسی
ماتریس همبستگی
آزمون فرضیه ضرایب تکی رگرسیون و نمادهای ماتریسی
آزمون معنی داری کلی رگرسیون (آنالیز واریانس) با استفاده از نماد ماتریسی
جدول AOV، تعداد K متغیر در شکل ماتریسی بر حسب R2
آزمون محدودیتهای خطی: آزمون عمومی F
پیش بینی با استفاده از رگرسیون مرکب
پیش بینی میانگین
واریانس برای پیش بینی میانگین
واریانس برای پیش بینی تکی
و…