پیشرفتها در فیلترینگ همکاری (مترجم تکتم شریفی)
فقط فصل 5 ترجمه شده
53 صفحه
چکیده
رویکرد فیلترینگ همکاری (CF) برای توصیه کنندهها به تازگی از پیشرفتها و منافع بیشتر بهره برده است.این حقیقت که نقش اصلی را به تازگی رقابت کامل شده نتفلیکس بازی کرده است در محبوبیتاش نقش داشته است. این فصل پیشرفتهای اخیر در این زمینه را بررسی میکند. تکنیک فاکتورسازی ماتریکس، که اولین انتخاب برای اجرای CF شده است، با ابتکارات جدید توصیف میشود. همچنین ما چندین گسترش را توصیف کردیم که درستی رقابتی را به روشهای مجاور میآورد، که برای تسلط در این رشته استفاده میشود. این فصل شرح میدهد چگونه مدلهای تمپورال و بازخورد ضمنی را بکار بریم تا درستی مدلها را توسعه دهد. در گذر از این مسیر، ما توصیفات مفصل برخی از روشهای اصلی توسعه یافته برای کار چالشی رقابت جایزه نتفلیکس را در نظر گرفتیم.
- 1 مقدمه
روشهای فیلترینگ همکاری (CF) توصیههای ویژه کاربر از اقلامی براساس الگوهای درجهبندی یا استفاده بدون نیاز برای اطلاعات بیرونی درباره اقلام یا کاربران تولید میکند. در حالیکه روشهای خوب ایجاد شده به اندازه کافی برای خیلی از اهداف کار میکند، ما چندین توسعه اخیر در دسترس را به تحلیلگرانی نشان دادیم که به دنبال بهترین توصیه ممکن بودند.
رقابت جایزه نتفلیکس که در اکتبر سال 2006 شروع شده است تازهترین پیشرفتها در زمینه فیلترینگ همکاری را تقویت کرده است. برای اولین بار، جامعه تحقیقاتی دسترسی به دادههای محکم صنعتی در مقیاس بزرگ مجموعه 100 میلیون درجهبندی سینمایی را کسب کرده است، و هزاران دانشمند، دانشجو، مهندس و علاقمند در این زمینه را جذب کرده است. ماهیت این رقابت رشد سریع را تشویق میکند، جاییکه مبتکران هر نسل از تکنیکها را میسازند تا درستی پیشبینی را بهبود دهند. به دلیلی که همه روشها با همان معیار سخت درباره دادههای مشترک سنجیده میشوند، سیر تکاملی مدلهای قدرتمندتری مخصوصا موثر است.
سیستمهای توصیه کننده بر انواع مختلف ورودی تکیه دارند. کیفیت بالای بازخورد صریح مناسبترین است، جاییکه کاربران مستقیما علاقهشان به محصولات را گزارش میکنند. برای نمونه، نتفلیکس رتبه ستاره برای سینما جمعآوری میکند و کاربران TiVo اولویتهایشان برای شوی تلویزیونی را با ضربه انگشت روی بالا/پایین نشان میدهند.
به دلیلی که بازخورد صریح همیشه در دسترس نیست، برخی توصیه کنندهها اولویتهای کاربر را از بازخورد ضمنی فراوانتر استنباط میکنند، که غیر مستقیم عقیده را از طریق مشاهده رفتار کاربر منعکس میکند. انواع بازخورد ضمنی شامل سابقه خرید، سابقه مرورگر، الگوهای جستجو، یا حتی حرکت موس میشود. برای نمونه، کاربری که کتاب های زیادی از یک نویسنده میخرد شاید آن نویسنده را دوست دارد. این فصل روی مدلهای مناسب برای بازخورد صریح تاکید دارد. با این حال، ما اهمیت بازخورد ضمنی یک منبع اطلاعات ارزشمند مخصوصا برای کاربرانی که بازخورد صریح بیشتری را ایجاد میکنند را تشخیص دادیم. از اینرو، ما نشان دادیم چگونه بازخورد ضمنی را در مدلهای مثل منابع ثانوی اطلاعات بررسی کنیم.
به منظور ایجاد توصیهها، سیستمهای CF باید به دو واحد مختلف بنیادی مرتبط شوند: اقلام و کاربران. دو رویکرد ابتدائی برای تسهیل چنین مقایسهای وجود دارد، که دو تکنیک اصلی CF را تشکیل میدهد: رویکرد مجاورت و مدلهای فاکتور نهفته. روش های مجاورت روی رابطه بین اقلام یا به شکل دیگر بین کاربران تاکید دارد. یک مدل رویکرد کالا-کالا اولویت کاربر برای یک قلم براساس درجهبندی اقلام مشابه توسط همان کاربر است. مدلهای فاکتور نهفته، مثل فاکتور سازی ماتریکس[1]، یک رویکرد دیگر با تغییر شکل هر دوی اقلام و کاربران برای همان فضای فاکتور نهفته را در بر میگیرد. فضای نهفته سعی در توضیح درجه بندی با خصوصیات هم محصول و هم کاربر برای فاکتورهایی به صورت خودکار استنباط شده از بازخورد کاربر دارد.
ایجاد روشهای پیشبینی درستتر نیاز به عمیق شدن فونداسیونشان و کاهش اعتماد در تصمیمات اختیاری دارد. در این فصل، بهبودهای جدید متنوع در تکنیکهای مدلینگ ابتدائی CF را توصیف میکنیم. اما جستجوی مدلهای درستتر طبق این مسئله است. حداقل شناسایی همه علایم یا خصوصیات موجود در این دادهها مهم است. تکنیکهای محاورهای دادههای پراکنده از درجهبندی کاربر-اقلام را بررسی میکنند. درستی به طور قابل توجهای با استفاده از منابع دیگر اطلاعات بهبود پیدا میکند. یک نمونه اولیه شامل همه انواع تاثیرات موقتی منعکس کننده ماهیت تعاملات کاربر- کالای دینامیک، زمانبندی تصادفی میشود. گوش دادن به بازخورد پنهان مثل اینگه چه اقلامی کاربر برای درجه بندی انتخاب میکند اهمیت کمتری دارد (صرفنظر از ارزشهای درجه بندی). اقلام درجه بندی شده به صورت تصادفی انتخاب نمیشوند، اما بیشتر ابعاد جالب اولویتهای کاربر را مشخص میکنند که طبق ارزش های عددی درجه بندی هستند
بخش 5.3 تکنیکهای فاکتورسازی ماتریکس را بررسی میکند، که اجرای تسهیلات با یک درستی نسبتا بالا را ترکیب میکند. این مسئله آنها را تکنیک ترجیحی برای بررسی بزرگترین مجموعه دادههای قابل دسترس یعنی دادههای نتفلیکس میسازد. این بخش تئوری و جزئیات عملی این تکنیک را توصیف میکند. بعلاوه، بیشتر نیروهای مدلهای فاکتورسازی ماتریکس از توانائی طبیعیشان ریشه گرفته است تا خصوصیات اضافی داده مثل بازخورد ضمنی و اطلاعات موقتی را بکار برد. این بخش مفصلا توضیح میدهد چگونه مدلهای فاکتوری ماتریکس را افزایش دهیم تا چنین خصوصیاتی را مورد بررسی قرار دهد.
بخش 5.4 به روشهای مجاورتی توجه میکند. این روشهای اصلی در این خانواده معروف هستند، و تا حدود زیادی براساس اکتشافی هستند. برخی از تکنیکهای پیشنهادی جدید کمبودهای تکنیکهای مجاورت را با پیشنهاد فرمولبندی سختتر بررسی میکند، بنابراین درستی پیشبینی را بهبود میدهد. در بخش 5.5 با روشهای پیشرفتهتری ادامه میدهیم، که دیدگاههای روشهای مشترک مجاورتی را با تکنیکهای بهینهسازی جهانی معمول در مدلهای فاکتور سازی استفاده میکند. این روش امکان بالا بردن سطوح محدودیت در سایز مجاروتی را فراهم میکند، و همچنین بازخورد ضمنی و دینامیک موقتی را بررسی میکند. نتیجه درستی نزدیک به مدلهای فاکتورسازی ماتریکس است، در حالیکه تا حدودی فواید عملی پیشنهاد میکند.
اهمیت شالوده مدلها برای محدودیتهایشان ارتباط عجیب را بین تکنیکهای ظاهرا نامربوط مشخص میکند. ما در این بخش 5.6 به دقت شرح میدهیم تا نشان دهیم با محدودیتهایشان، مدلهای مجاورتی کاربر-کاربر و کالا-کالا ممکن است با یک مدل تکی همگرا شوند. علاوه بر این، در این مرحله، هر دو معادل یک مدل فاکتوری ماتریکس ساده میشوند. این ارتباطات رابطه برخی از امتیازات قبلی مثل دسته بندی گسترده سنتی از فاکتور سازی ماتریکس را به عنوان “مدل محور“ و “مدلهای مجاورتی“ را به عنوان حافظه محور کاهش میدهد.
[1] aka, SVD