پیشرفت‌ها در فیلترینگ همکاری (مترجم تکتم شریفی)

- پیشرفت‌ها در فیلترینگ همکاری (مترجم تکتم شریفی)

پیشرفت‌ها در فیلترینگ همکاری (مترجم تکتم شریفی)

فقط فصل 5 ترجمه شده

فرمت فایل ورد و پی دی اف

53 صفحه

 

 

چکیده

رویکرد فیلترینگ همکاری (CF) برای توصیه کننده‌ها  به تازگی از پیشرفت‌ها و منافع بیشتر بهره برده‌ است.این حقیقت که نقش اصلی  را به تازگی رقابت کامل شده نتفلیکس بازی کرده است در محبوبیت‌اش نقش داشته است. این فصل پیشرفت‌های  اخیر در این زمینه را بررسی می‌کند. تکنیک فاکتورسازی ماتریکس، که  اولین انتخاب برای اجرای CF شده است، با ابتکارات جدید توصیف می‌شود. همچنین ما چندین گسترش را توصیف کردیم که درستی رقابتی را به روش‌های مجاور می‌آورد، که برای تسلط در این رشته استفاده می‌شود. این فصل شرح می‌دهد چگونه  مدل‌های تمپورال  و بازخورد ضمنی را بکار بریم تا درستی مدل‌ها را توسعه دهد. در گذر از این مسیر، ما توصیفات مفصل برخی از روش‌های اصلی توسعه یافته برای کار چالشی رقابت جایزه نتفلیکس را در نظر گرفتیم.

  1. 1 مقدمه

 روش‌های فیلترینگ همکاری (CF) توصیه‌های ویژه کاربر از اقلامی براساس الگوهای درجه‌بندی یا استفاده بدون نیاز برای  اطلاعات بیرونی درباره اقلام یا کاربران تولید می‌کند. در حالیکه  روش‌های خوب ایجاد شده به اندازه کافی برای خیلی از اهداف کار می‌کند، ما چندین  توسعه اخیر در دسترس را به تحلیل‌گرانی نشان دادیم که به دنبال بهترین توصیه ممکن بودند.

رقابت جایزه نتفلیکس که در اکتبر سال 2006 شروع شده است تازه‌ترین پیشرفت‌ها در زمینه فیلترینگ همکاری را تقویت کرده است. برای اولین بار، جامعه تحقیقاتی  دسترسی به داده‌های محکم صنعتی در مقیاس بزرگ مجموعه 100  میلیون درجه‌بندی سینمایی را کسب کرده است، و هزاران دانشمند، دانشجو، مهندس و علاقمند در این زمینه را جذب کرده است. ماهیت این رقابت  رشد سریع را  تشویق می‌کند، جاییکه مبتکران  هر نسل از تکنیک‌ها را می‌سازند تا درستی پیش‌بینی را بهبود دهند. به دلیلی که همه روش‌ها با همان معیار سخت درباره داده‌های مشترک سنجیده می‌شوند، سیر تکاملی مدل‌های قدرتمندتری  مخصوصا موثر است.

سیستم‌های توصیه کننده بر انواع مختلف ورودی تکیه دارند. کیفیت بالای بازخورد صریح مناسب‌ترین است، جاییکه کاربران مستقیما علاقه‌شان به محصولات را گزارش می‌کنند. برای نمونه، نتفلیکس  رتبه ستاره برای سینما جمع‌آوری می‌کند و کاربران TiVo اولویت‌هایشان برای شوی تلویزیونی را با  ضربه انگشت روی بالا/پایین نشان می‌دهند.

به دلیلی که بازخورد صریح همیشه در دسترس نیست، برخی توصیه کننده‌ها اولویت‌های کاربر را از بازخورد ضمنی فراوان‌تر استنباط می‌کنند، که غیر مستقیم عقیده را از طریق مشاهده رفتار کاربر  منعکس می‌کند. انواع بازخورد ضمنی شامل سابقه خرید، سابقه مرورگر، الگوهای جستجو، یا حتی حرکت موس می‌شود. برای نمونه، کاربری که کتاب های زیادی از یک نویسنده می‌خرد شاید آن نویسنده را دوست دارد. این فصل روی مدل‌های  مناسب برای بازخورد صریح تاکید دارد. با این حال، ما اهمیت بازخورد ضمنی یک منبع اطلاعات ارزشمند مخصوصا برای کاربرانی که بازخورد صریح بیشتری را ایجاد می‌کنند را تشخیص دادیم. از اینرو، ما نشان دادیم  چگونه بازخورد ضمنی را در مدل‌های مثل منابع ثانوی اطلاعات بررسی کنیم.

 به منظور ایجاد توصیه‌ها، سیستم‌های CF باید به دو واحد مختلف بنیادی مرتبط شوند: اقلام و کاربران.  دو رویکرد ابتدائی برای تسهیل چنین مقایسه‌ای وجود دارد، که دو تکنیک اصلی CF را تشکیل می‌دهد:  رویکرد مجاورت و مدل‌های فاکتور نهفته. روش های مجاورت روی رابطه بین اقلام یا به شکل دیگر بین کاربران تاکید دارد. یک مدل رویکرد  کالا-کالا اولویت کاربر برای یک قلم براساس درجه‌بندی اقلام مشابه توسط همان کاربر است. مدل‌های فاکتور نهفته، مثل فاکتور سازی ماتریکس[1]، یک رویکرد دیگر با تغییر شکل  هر دوی اقلام و کاربران برای همان فضای فاکتور نهفته  را در بر می‌گیرد. فضای نهفته  سعی در توضیح درجه بندی با خصوصیات هم محصول و هم کاربر برای فاکتورهایی به صورت خودکار استنباط شده از بازخورد کاربر دارد.

ایجاد روش‌های پیش‌بینی درست‌تر  نیاز به عمیق شدن فونداسیون‌شان و کاهش اعتماد در تصمیمات اختیاری  دارد. در این فصل، بهبودهای جدید متنوع در تکنیک‌های مدلینگ ابتدائی CF را توصیف می‌کنیم. اما جستجوی مدل‌های درست‌تر  طبق این مسئله است. حداقل  شناسایی همه علایم یا خصوصیات موجود در این داده‌ها مهم است. تکنیک‌های محاوره‌ای داده‌های پراکنده از درجه‌بندی کاربر-اقلام را بررسی می‌کنند.  درستی به طور قابل توجه‌ای با استفاده از منابع دیگر اطلاعات بهبود پیدا می‌کند. یک نمونه اولیه شامل همه انواع  تاثیرات موقتی منعکس کننده  ماهیت تعاملات کاربر- کالای دینامیک، زمان‌بندی تصادفی می‌شود.  گوش دادن به بازخورد پنهان مثل اینگه چه اقلامی کاربر برای درجه بندی انتخاب می‌کند اهمیت کمتری دارد (صرفنظر از ارزش‌های درجه بندی).  اقلام درجه بندی شده به صورت تصادفی انتخاب نمی‌شوند، اما بیشتر ابعاد جالب اولویت‌های کاربر را مشخص می‌کنند که طبق ارزش های عددی درجه بندی هستند

بخش 5.3  تکنیک‌های فاکتورسازی ماتریکس را بررسی می‌کند، که اجرای تسهیلات با یک درستی نسبتا بالا را ترکیب می‌کند. این مسئله آنها را  تکنیک ترجیحی برای بررسی بزرگترین مجموعه داده‌های قابل دسترس یعنی داده‌های نتفلیکس می‌سازد.  این بخش تئوری و جزئیات عملی این تکنیک را توصیف می‌کند. بعلاوه، بیشتر نیروهای  مدل‌های فاکتورسازی ماتریکس از  توانائی طبیعی‌شان ریشه گرفته است تا  خصوصیات اضافی داده مثل بازخورد ضمنی و اطلاعات  موقتی را بکار برد. این بخش مفصلا توضیح می‌دهد چگونه مدل‌های فاکتوری ماتریکس را افزایش دهیم تا چنین خصوصیاتی را مورد بررسی قرار دهد.

 بخش 5.4  به روش‌های مجاورتی توجه می‌کند. این روش‌های اصلی در این خانواده معروف هستند، و تا حدود زیادی براساس اکتشافی هستند. برخی از تکنیک‌های پیشنهادی جدید  کمبودهای تکنیک‌های مجاورت را با پیشنهاد فرمول‌بندی سخت‌تر بررسی می‌کند، بنابراین درستی پیش‌بینی را بهبود می‌دهد. در بخش 5.5 با روش‌های پیشرفته‌تری ادامه می‌دهیم، که دیدگاه‌های روش‌های مشترک مجاورتی را با تکنیک‌های بهینه‌سازی جهانی  معمول در مدل‌های فاکتور سازی  استفاده می‌کند. این روش امکان بالا بردن سطوح محدودیت در سایز مجاروتی را فراهم می‌کند، و همچنین بازخورد ضمنی و دینامیک موقتی را بررسی می‌کند. نتیجه درستی نزدیک به مدل‌های فاکتورسازی ماتریکس است، در حالیکه تا حدودی فواید عملی پیشنهاد می‌کند.

اهمیت شالوده مدل‌ها برای محدودیت‌هایشان ارتباط عجیب را بین تکنیک‌های ظاهرا نامربوط مشخص می‌کند. ما در این بخش 5.6 به دقت شرح می‌دهیم تا نشان دهیم با محدودیت‌هایشان، مدل‌های مجاورتی کاربر-کاربر و کالا-کالا ممکن است با یک مدل تکی همگرا شوند. علاوه بر این، در این مرحله، هر دو معادل یک مدل فاکتوری ماتریکس ساده  می‌شوند. این ارتباطات رابطه برخی از امتیازات  قبلی  مثل دسته بندی گسترده سنتی از فاکتور سازی  ماتریکس را  به عنوان مدل محور و مدل‌های مجاورتی را به عنوان حافظه محور  کاهش می‌دهد.

[1] aka, SVD

برای دانلود کلیک کنید