هدف این پروژه طراحی و پیادهسازی یک مدل یادگیری ماشین برای پیشبینی فروش آتی فروشگاههای زنجیرهای Rossmann است. علاوه بر پیشبینی دقیق فروش، دانشجویان باید بتوانند ویژگیهای پیشرفتهتر مدلسازی، مانند برآورد عدم قطعیت، دستهبندی فروش، و تحلیل مدل را پیادهسازی کرده و تحلیل دقیقی از عملکرد ارائه دهند.
- دادهها از رقابت فروش فروشگاههای Rossmann استخراج شده است.
- تعداد نمونهها: بیش از ۱ میلیون ردیف فروش روزانه برای بیش از ۱۱۰۰ فروشگاه
- ستون هدف:
Sales - فایلهای جانبی:
store.csv(حاوی مشخصات هر فروشگاه شامل نوع فروشگاه، فاصله تا رقیب، نوع سرویسدهی و ...) - ویژگیها: ترکیبی از عددی، باینری و زمانی (تاریخ، روز هفته، ماه و ...)
- رسم نمودارهای روند فروش در طول زمان برای چند فروشگاه منتخب
- بررسی تأثیر ویژگیهای مختلف (
StateHoliday،SchoolHoliday،Promoو ...) بر فروش - نمودار همبستگی متغیرها و تحلیل آن
- مقایسه روند فروش در فروشگاههای مختلف
- ترکیب جداول
salesوstoreبر اساسStore ID - ایجاد ویژگیهای زمانی جدید (روز هفته، ماه، تعطیلی، میانگین متحرک و ...)
- ایجاد
lag featuresو آمارههای متحرک (فروش روز قبل، میانگین ۷ روز اخیر، انحراف معیار و ...) - استخراج ویژگیهای دورهای (مثل
Fourier termsبرای فصلها) و فاصله تا تعطیلات رسمی - نرمالسازی و مدیریت دادههای گمشده
- تفکیک داده به آموزش / اعتبارسنجی / تست با حفظ ترتیب زمانی
توجه: در این فاز باید کامل مدل را پیادهسازی کرده و استفاده از کتابخانهها مجاز نیست.
- پیادهسازی مدل
baselineساده (رگرسیون خطی یا میانگین متحرک) و ارزیابی آن - آموزش مدلهای کلاسیک مانند
XGBoostیاLightGBMبا تنظیمhyperparameter - استفاده از اعتبارسنجی زمانی مبتنی بر فروشگاه (
store-aware CV) و گزارشRMSEدر هر مرحله - تحلیل
feature importanceبا استفاده ازSHAP - تحلیل خطا: بررسی مواردی که مدل در آنها عملکرد ضعیفی داشته به طور دقیق با تفسیر و مدرک
- پیادهسازی پیشبینی چندگام (
multi-step forecasting) (فروش ۷ روز آینده) با مدیریت انتشار خطا - تخمین
uncertaintyبا روشهایی مثلquantile regressionیاensemble - دستهبندی فروش به سه کلاس (کم، متوسط، زیاد) و آموزش مدل طبقهبند چندکلاسه با
ROC-AUCوF1-score
- پیادهسازی دقیق
uncertainty estimation+multi-step forecasting+SHAP - استفاده از مدلهای یادگیری عمیق
LSTMوTCNبا مستندات کامل - بهینهسازی هایپرپارامترها با
OptunaیاRay Tune
- گزارش کامل نتایج پیشبینی، تحلیل خطاها، نمودارها و تفسیر نهایی
- مستندسازی مرتب، ساختارمند و قابل فهم
- معیار اصلی:
Root Mean Squared Errorمدل نهایی بر روی مجموعه تست - معیارهای مکمل:
Mean Absolute Percentage ErrorوR2 - برای طبقهبندی:
ROC-AUCوF1 Score