发信人: bootstrap (精壮暴死,久病延年), 信区: Notice
标 题: 【通知】首届全国大学生数据挖掘邀请赛数据开放下载
发信站: 瀚海星云 (2011年03月21日20:56:05 星期一), 站内信件 WWWPOST
首届全国大学生数据挖掘邀请赛现开始提供建模数据集下载。数据包约67M,包含建模用
数据及验证程序样例。由于注册队伍已突破200,下载高峰时可能会出现网络拥堵现象。
若下载速度过慢,请另选时段下载。本数据集不含碘,请不要哄抢。
本届竞赛的注册截止日期为4月15日。从4月16日起,数据下载将关闭,请有意参加的同
学在注册截止日前注册参赛。模型预测文件的提交功能暂未开通。
竞赛主页:http://www.statmodelingcompetition.com
全国大学生数据挖掘邀请赛竞赛委员会
2011年3月21日 ◎ 数据说明数据下载
某婚恋网站在会员访问其网站时,会按照一定规则在页面的特定位置,给会员A推荐(rec)他/她可能感兴趣的会员B,此时A仅仅能看到B的头像(真人照片)。如果A进入B的主页进行查看,则发生了点击(click),此时A能浏览B的详细资料。在浏览B的资料后,如果A觉得有进一步的兴趣,则会通过站内信件(msg)与B联络。会员A对同一会员B的click、msg行为有可能多次发生。同一会员B也可能被系统多次推荐给会员A。另外,会员A本身也可能被系统推荐给其他会员。参赛队员在数据中自行验证这些数据特征,在此不一一赘述。
竞赛委员会将为注册参赛队提供该网站中某城市会员在最近三个月内完整的交互行为数据以及相关会员资料。共包含4个数据集:train.txt,profile_f.txt,profile_m.txt和test.txt。
train.txt包含约860万条交互记录,每条记录包括4个属性,涉及近6万名会员。格式如下:
USER_ID_A | USER_ID_B | ROUND | ACTION |
100033 | 375879 | 1 | rec |
100033 | 381720 | 1 | rec |
… | … | … | … |
100033 | 381720 | 18 | rec |
100033 | 417848 | 18 | rec |
100033 | 417848 | 18 | click |
… | … | … | … |
100033 | 327685 | 19 | click |
100033 | 327685 | 19 | msg |
在上例中,该网站在第1轮推荐中为会员100033推荐了会员375879,但会员100033并没有点击会员375879的资料进行查看(rec),系统也没有将会员375879再次推荐给会员100033。同样在第1轮中,会员381720被推荐给会员100033,虽然没有被点击,系统仍然在第18轮推荐在再次重复了这一推荐。在第18轮推荐中,会员100033在获得推荐后,仅仅查看了会员417848的资料(click),但没有进一步的行为。在第19轮推荐时,会员100033在查看了会员327685的资料后,发出了站内信件(msg)。对同一会员的不同推荐批次间存在时间顺序,即:第2批推荐发生的时间要晚于第1批推荐发生的时间。两批推荐之间的时间间隔由很多因素决定,通常取决于会员登录网站的频率,以及浏览不同页面的数量等。这些因素还会影响会员获得的推荐批次总数。
一般而言,同一位会员B会被推荐给多位不同的会员,也可能在不同批次中,多次被推荐给同一位会员A。另外,A没有点击B的资料进行查看(rec),通常是由于多种原因造成的。有可能A对B的第一印象(推荐列表中显示的头像)不佳,或者A对在即将下线时获得的推荐不予理睬,又或者是A已经找到合适的交往对象而对其余推荐置之不理,甚至是会员当时的心情,都有可能造成rec(即不发生click)。总之,婚恋网站的用户浏览行为具有较大的随意性,多次推荐同一会员有时会增加点击的概率。对rec类样本的深入分析或许有助于提升推荐系统性能。
在实际情况中,两位会员间较少发生多次msg的行为,这可能是经过线上交流后的两位会员常常会转为线下交流的原因造成的(如在站内信件中互留联系电话等)。参赛队可以自行通过数据证实或分析这一点。对线上多次发生msg交流的样本进行分析能否提升模型性能,尚不明确。
男女会员资料(包括部分择偶要求)分别记录在profile_m.txt和profile_f.txt中。每位会员包含34个特征变量(feature),我们提供了字段列表来说明不同特征变量的含义。
test.txt文件中包含了用来在线验证推荐算法效果的会员配对(interaction),及每对会员在三个月内的推荐次数。如下表所示:
USER_ID_A | USER_ID_B | REC_TIMES |
96 | 8871 | 1 |
… | … | … |
96 | 16235 | 3 |
… | … | … |
412 | 85322 | 6 |
在上例中,三个月内,系统总共将会员8871和会员16235向会员96分别推荐了1次和3次。同样,会员85322被6次推荐给会员412。参赛队需要评估test.txt中USER_ID_A对相应USER_ID_B的喜爱程度。对建模目标的详细说明见竞赛任务。
为防止过度拟合现象的发生,在竞赛窗口,竞赛排名系统仅仅从test.txt中随机选择约40%的USER_ID_A及相应样本进行NDCG的计算(见数据集信息汇总表中的Validation),据此进行排名。在竞赛结束后,系统会基于所有会员配对重新计算各参赛队模型的NDCG,并给出最终排名。因此,竞赛窗口期的排名可能与最终排名不同。请各参赛队注意这一点。NDCG的详细说明见评价标准。
本次竞赛的数据集信息汇总如下:
| Training | Validation* | Test |
# USER_ID_A | 15,000 | 4,200 | 10,433 |
# USER_ID_B | 55,871 | 50,459 | 54,409 |
# INTERACTION | 8,599,012 | 2,247,217 | 5,509,312 |
# FEATURE | 34 |
*Validation是Test的子集
本数据集为真实数据,虽然经过人工处理,但数据中出现少数错误在所难免。如果对构造模型没有影响,请自行处理。
注意:本数据集由上海花千树信息科技有限公司提供,仅能用于本次竞赛的分析、建模用途。不得用于任何其他商业用途。以学术研究和论文发表为目的的,请与上海花千树信息科技有限公司联系并获取授权。竞赛委员会不具有授权权力。
◎ 提交方式【预测文件】
参赛队可在竞赛时间窗口内,随时及多次提交预测结果,以检验模型效果。每天每队提交的次数不超过10次。NDCG的计算结果会即时反馈到排行榜中。提交文件必须为纯文本格式(.txt),文件名不包含中文,每行对应一位USER_ID_A,包含对即将推荐给会员A的候选会员集的预测排序。文件内容用空格符间隔。在上例中,5位候选会员的评分分别为
1.2, 0.7, -2.5, 0.2, 4.0
因此在提交文件中的对应行应为:
2 3 5 4 1
每一行对应一个USER_ID_A(及相应候选会员USER_ID_B)。行顺序应该与test.txt文件中USER_ID_A的顺序保持一致。列顺序应该与test.txt文件中同一个USER_ID_A对应的USER_ID_B的顺序保持一致。关于格式的例子可以参考下载数据集中提供的提交文件样例。
参赛队在竞赛页面中提交预测文件时,可以添加注释,以区分不同算法的测试结果。比赛结束前,参赛队需要从提交的所有预测文件中,确定并选择一个文件作为最终的预测文件。最终排名将基于该最终文件计算得出。
预测文件提交后,将能看到NDCG的计算结果反馈,同时会更新排行榜。
【学术论文】
进入最终答辩环节的16支参赛队(其中本科生队伍8支,非本科生队伍8支),需要在比赛结束后、答辩开始前,向竞赛组委会提交用于描述完整算法的论文及算法源代码。答辩时间待定。只有进入答辩环节且提交论文和源代码的参赛队伍才能获得竞赛奖励。竞赛委员会将负责答辩队伍的差旅费用(每队限一人)。