Skip to content

Nima-Enigma/ML_Project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

پروژه شماره ۴ (۱۰۰ نمره)

تعریف مسئله

هدف این پروژه طراحی و پیاده‌سازی یک مدل یادگیری ماشین برای پیش‌بینی فروش آتی فروشگاه‌های زنجیره‌ای Rossmann است. علاوه بر پیش‌بینی دقیق فروش، دانشجویان باید بتوانند ویژگی‌های پیشرفته‌تر مدل‌سازی، مانند برآورد عدم قطعیت، دسته‌بندی فروش، و تحلیل مدل را پیاده‌سازی کرده و تحلیل دقیقی از عملکرد ارائه دهند.

مشخصات دیتاست

  • داده‌ها از رقابت فروش فروشگاه‌های Rossmann استخراج شده است.
  • تعداد نمونه‌ها: بیش از ۱ میلیون ردیف فروش روزانه برای بیش از ۱۱۰۰ فروشگاه
  • ستون هدف: Sales
  • فایل‌های جانبی: store.csv (حاوی مشخصات هر فروشگاه شامل نوع فروشگاه، فاصله تا رقیب، نوع سرویس‌دهی و ...)
  • ویژگی‌ها: ترکیبی از عددی، باینری و زمانی (تاریخ، روز هفته، ماه و ...)

مراحل پروژه و نمره‌بندی

فاز ۱: Data Visualization − تحلیل اکتشافی و شناخت داده‌ها (۵ نمره)

  • رسم نمودارهای روند فروش در طول زمان برای چند فروشگاه منتخب
  • بررسی تأثیر ویژگی‌های مختلف (StateHoliday ،SchoolHoliday ،Promo و ...) بر فروش
  • نمودار همبستگی متغیرها و تحلیل آن
  • مقایسه روند فروش در فروشگاه‌های مختلف

فاز ۲: Feature Engineering − مهندسی ویژگی و آماده‌سازی داده (۱۵ نمره)

  • ترکیب جداول sales و store بر اساس Store ID
  • ایجاد ویژگی‌های زمانی جدید (روز هفته، ماه، تعطیلی، میانگین متحرک و ...)
  • ایجاد lag features و آماره‌های متحرک (فروش روز قبل، میانگین ۷ روز اخیر، انحراف معیار و ...)
  • استخراج ویژگی‌های دوره‌ای (مثل Fourier terms برای فصل‌ها) و فاصله تا تعطیلات رسمی
  • نرمال‌سازی و مدیریت داده‌های گمشده
  • تفکیک داده به آموزش / اعتبار‌سنجی / تست با حفظ ترتیب زمانی

فاز ۳: Learn & Estimate − آموزش و ارزیابی مدل‌ها (۳۰ نمره)

توجه: در این فاز باید کامل مدل را پیاده‌سازی کرده و استفاده از کتابخانه‌ها مجاز نیست.

  • پیاده‌سازی مدل baseline ساده (رگرسیون خطی یا میانگین متحرک) و ارزیابی آن
  • آموزش مدل‌های کلاسیک مانند XGBoost یا LightGBM با تنظیم hyperparameter
  • استفاده از اعتبار‌سنجی زمانی مبتنی بر فروشگاه (store-aware CV) و گزارش RMSE در هر مرحله
  • تحلیل feature importance با استفاده از SHAP
  • تحلیل خطا: بررسی مواردی که مدل در آن‌ها عملکرد ضعیفی داشته به طور دقیق با تفسیر و مدرک

فاز ۴: Uncertainty & Sales Classification − تحلیل عدم قطعیت و طبقه‌بندی فروش (۲۵ نمره)

  • پیاده‌سازی پیش‌بینی چندگام (multi-step forecasting) (فروش ۷ روز آینده) با مدیریت انتشار خطا
  • تخمین uncertainty با روش‌هایی مثل quantile regression یا ensemble
  • دسته‌بندی فروش به سه کلاس (کم، متوسط، زیاد) و آموزش مدل طبقه‌بند چندکلاسه با ROC-AUC و F1-score

فاز ۵: Deep − قسمت عمیق پروژه (۲۵ نمره)

  • پیاده‌سازی دقیق uncertainty estimation + multi-step forecasting + SHAP
  • استفاده از مدل‌های یادگیری عمیق LSTM و TCN با مستندات کامل
  • بهینه‌سازی هایپرپارامترها با Optuna یا Ray Tune

فاز ۵ + ۱: مستندسازی و ارائه نتایج

  • گزارش کامل نتایج پیش‌بینی، تحلیل خطاها، نمودارها و تفسیر نهایی
  • مستندسازی مرتب، ساختار‌مند و قابل فهم

معیار رقابت بین تیم‌ها

  • معیار اصلی: Root Mean Squared Error مدل نهایی بر روی مجموعه تست
  • معیارهای مکمل: Mean Absolute Percentage Error و R2
  • برای طبقه‌بندی: ROC-AUC و F1 Score

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors