背景
交通拥挤是交通运输中最严重的的问题之一。尽可能早地预测道路拥堵程度是有价值的,这样司机和行人就可以通过预测来规避拥堵。
数据描述
The GCM (Gary-Chicago-Milwaukie) Corridor包含16座城镇之间的所有主干道。在所有路口共放置855个传感器,来收集一天中的交通数据流,其格式为每5分钟记录一个拥堵状态,一天有288条数据。每个传感器都实时收集交通状态,并通过无线通讯将路口位置和拥堵信息传输到中央服务器。每一条流数据包含下列属性(date, time, direction, type, linkID, length, travelTime, volumn, speed, occupancy, and congestionLevel)。拥堵状态共有四种,non, light, medium, and heavy(通畅、轻微拥堵、中度拥堵、重度拥堵)。以下是一条数据流的样例:
707,0000,NORTH_BOUND,FREEWAY,WI-MNT_XML_V001-21012,1268,40,218,31.292915,2.4,NON_CONGESTION
问题描述
我们下载了5天的交通数据,其中4天数据给大家作为模型训练。请基于训练集建立模型来预测未来的交通拥堵状态。
对数据进行预处理操作是必要的。可以使用各种数据挖掘算法和机器学习方法建立预测模型。
评估
提交模型预测 将第5天的数据作为测试集进行模型评估。助教将提供几个时间区段内所有传感器收集的实际的交通拥堵状态。请预测接下来30分钟内所有传感器的拥堵状态。
请提交实验报告来阐述你的实验方案、方法和性能分析。
为了便于测试,拥堵预测的输出格式如下:
WI-MNT_XML_V001-21012(传感器ID):0,1,2,3,3,2(0 表示通畅,1表示轻微拥堵、2表示中度拥堵、3表示重度拥堵,连续6个数字代表30分钟内的拥堵状态)
训练集、测试集网盘地址:
https://pan.baidu.com/s/1GcIzkOylHtMYMdOVilZeCg
提取码:6xz8
如有问题,请于本人联系:951747104@qq.com