【通知】首届全国大学生数据挖掘邀请赛数据开放下载

altf · 发表于 2011-3-22 16:33:03

发信人: bootstrap (精壮暴死，久病延年), 信区: Notice
标  题: 【通知】首届全国大学生数据挖掘邀请赛数据开放下载
发信站: 瀚海星云 (2011年03月21日20:56:05 星期一), 站内信件 WWWPOST

首届全国大学生数据挖掘邀请赛现开始提供建模数据集下载。数据包约67M，包含建模用
数据及验证程序样例。由于注册队伍已突破200，下载高峰时可能会出现网络拥堵现象。
若下载速度过慢，请另选时段下载。本数据集不含碘，请不要哄抢。

本届竞赛的注册截止日期为4月15日。从4月16日起，数据下载将关闭，请有意参加的同
学在注册截止日前注册参赛。模型预测文件的提交功能暂未开通。

竞赛主页：http://www.statmodelingcompetition.com

                                       全国大学生数据挖掘邀请赛竞赛委员会
                                                2011年3月21日 ◎ 数据说明

数据下载

　　某婚恋网站在会员访问其网站时，会按照一定规则在页面的特定位置，给会员A推荐（rec）他/她可能感兴趣的会员B，此时A仅仅能看到B的头像（真人照片）。如果A进入B的主页进行查看，则发生了点击（click），此时A能浏览B的详细资料。在浏览B的资料后，如果A觉得有进一步的兴趣，则会通过站内信件（msg）与B联络。会员A对同一会员B的click、msg行为有可能多次发生。同一会员B也可能被系统多次推荐给会员A。另外，会员A本身也可能被系统推荐给其他会员。参赛队员在数据中自行验证这些数据特征，在此不一一赘述。

　　竞赛委员会将为注册参赛队提供该网站中某城市会员在最近三个月内完整的交互行为数据以及相关会员资料。共包含4个数据集：train.txt，profile_f.txt，profile_m.txt和test.txt。

　　train.txt包含约860万条交互记录，每条记录包括4个属性，涉及近6万名会员。格式如下：

USER_ID_A	USER_ID_B	ROUND	ACTION
100033	375879	1	rec
100033	381720	1	rec
…	…	…	…
100033	381720	18	rec
100033	417848	18	rec
100033	417848	18	click
…	…	…	…
100033	327685	19	click
100033	327685	19	msg

　　在上例中，该网站在第1轮推荐中为会员100033推荐了会员375879，但会员100033并没有点击会员375879的资料进行查看（rec），系统也没有将会员375879再次推荐给会员100033。同样在第1轮中，会员381720被推荐给会员100033，虽然没有被点击，系统仍然在第18轮推荐在再次重复了这一推荐。在第18轮推荐中，会员100033在获得推荐后，仅仅查看了会员417848的资料（click），但没有进一步的行为。在第19轮推荐时，会员100033在查看了会员327685的资料后，发出了站内信件（msg）。对同一会员的不同推荐批次间存在时间顺序，即：第2批推荐发生的时间要晚于第1批推荐发生的时间。两批推荐之间的时间间隔由很多因素决定，通常取决于会员登录网站的频率，以及浏览不同页面的数量等。这些因素还会影响会员获得的推荐批次总数。

　　一般而言，同一位会员B会被推荐给多位不同的会员，也可能在不同批次中，多次被推荐给同一位会员A。另外，A没有点击B的资料进行查看（rec），通常是由于多种原因造成的。有可能A对B的第一印象（推荐列表中显示的头像）不佳，或者A对在即将下线时获得的推荐不予理睬，又或者是A已经找到合适的交往对象而对其余推荐置之不理，甚至是会员当时的心情，都有可能造成rec（即不发生click）。总之，婚恋网站的用户浏览行为具有较大的随意性，多次推荐同一会员有时会增加点击的概率。对rec类样本的深入分析或许有助于提升推荐系统性能。

　　在实际情况中，两位会员间较少发生多次msg的行为，这可能是经过线上交流后的两位会员常常会转为线下交流的原因造成的（如在站内信件中互留联系电话等）。参赛队可以自行通过数据证实或分析这一点。对线上多次发生msg交流的样本进行分析能否提升模型性能，尚不明确。

　　男女会员资料（包括部分择偶要求）分别记录在profile_m.txt和profile_f.txt中。每位会员包含34个特征变量（feature），我们提供了字段列表来说明不同特征变量的含义。

　　test.txt文件中包含了用来在线验证推荐算法效果的会员配对（interaction），及每对会员在三个月内的推荐次数。如下表所示：

USER_ID_A	USER_ID_B	REC_TIMES
96	8871	1
…	…	…
96	16235	3
…	…	…
412	85322	6

　　在上例中，三个月内，系统总共将会员8871和会员16235向会员96分别推荐了1次和3次。同样，会员85322被6次推荐给会员412。参赛队需要评估test.txt中USER_ID_A对相应USER_ID_B的喜爱程度。对建模目标的详细说明见竞赛任务。

　　为防止过度拟合现象的发生，在竞赛窗口，竞赛排名系统仅仅从test.txt中随机选择约40%的USER_ID_A及相应样本进行NDCG的计算（见数据集信息汇总表中的Validation），据此进行排名。在竞赛结束后，系统会基于所有会员配对重新计算各参赛队模型的NDCG，并给出最终排名。因此，竞赛窗口期的排名可能与最终排名不同。请各参赛队注意这一点。NDCG的详细说明见评价标准。

　　本次竞赛的数据集信息汇总如下：

	Training	Validation*	Test
# USER_ID_A	15,000	4,200	10,433
# USER_ID_B	55,871	50,459	54,409
# INTERACTION	8,599,012	2,247,217	5,509,312
# FEATURE	34

　　*Validation是Test的子集

　　本数据集为真实数据，虽然经过人工处理，但数据中出现少数错误在所难免。如果对构造模型没有影响，请自行处理。

　　注意：本数据集由上海花千树信息科技有限公司提供，仅能用于本次竞赛的分析、建模用途。不得用于任何其他商业用途。以学术研究和论文发表为目的的，请与上海花千树信息科技有限公司联系并获取授权。竞赛委员会不具有授权权力。

◎ 提交方式

【预测文件】
参赛队可在竞赛时间窗口内，随时及多次提交预测结果，以检验模型效果。每天每队提交的次数不超过10次。NDCG的计算结果会即时反馈到排行榜中。提交文件必须为纯文本格式（.txt），文件名不包含中文，每行对应一位USER_ID_A，包含对即将推荐给会员A的候选会员集的预测排序。文件内容用空格符间隔。在上例中，5位候选会员的评分分别为
1.2, 0.7, -2.5, 0.2, 4.0
因此在提交文件中的对应行应为：
2 3 5 4 1
每一行对应一个USER_ID_A（及相应候选会员USER_ID_B）。行顺序应该与test.txt文件中USER_ID_A的顺序保持一致。列顺序应该与test.txt文件中同一个USER_ID_A对应的USER_ID_B的顺序保持一致。关于格式的例子可以参考下载数据集中提供的提交文件样例。

　　参赛队在竞赛页面中提交预测文件时，可以添加注释，以区分不同算法的测试结果。比赛结束前，参赛队需要从提交的所有预测文件中，确定并选择一个文件作为最终的预测文件。最终排名将基于该最终文件计算得出。

　　预测文件提交后，将能看到NDCG的计算结果反馈，同时会更新排行榜。

【学术论文】
进入最终答辩环节的16支参赛队（其中本科生队伍8支，非本科生队伍8支），需要在比赛结束后、答辩开始前，向竞赛组委会提交用于描述完整算法的论文及算法源代码。答辩时间待定。只有进入答辩环节且提交论文和源代码的参赛队伍才能获得竞赛奖励。竞赛委员会将负责答辩队伍的差旅费用（每队限一人）。

步微月 · 发表于 2011-3-22 16:36:41

楼主这是什么、、、

altf · 发表于 2011-3-24 21:30:54

各参赛队，

由于竞赛委员会的失误，在python脚本附带的说明文件中，存在一些关于提交文件的不一致描述。现已更正，见附件。

本次更新的目的在于厘清说明文件中关于train.txt的某些不一致信息带来的误解，以保证参赛队提交文件时的格式正确。

需要强调的是，所有建模数据均没有错误，也不受此更新的影响，因此不会影响各参赛队的建模工作。

另外，竞赛网站的提交功能和排行榜均已于昨天正式启用，欢迎各参赛队提交模型预测结果进行在线测试。

敬请随时关注竞赛网站的通知栏区域。对于特别重要的，我们会第一时间通过注册邮件地址与您联系。

--

第一届数据挖掘邀请赛组委会
http://www.statmodelingcompetition.com/

///以下为附件内容///

本程序为计算NDCG的示例程序。

----------------------------

本示例程序演示的是：假设已有某个模型，需要在train.txt上进行预测时，在线提交的模型预测的文件格式。

注意：实际上，对于各参赛队构建的模型，应该在test.txt上进行预测，并提交相应的预测文件。

注意：为叙述方便，从现在起，假设train.txt已事先按照USER_ID_A及USER_ID_B升序排序。实际提供的train.txt并未作此操作。

----------------------------

附带的labels_train.txt由本次竞赛提供的train.txt转换而来，转换格式为：

1、每行依次对应train.txt中一个USER_ID_A，顺序需与train.txt的USER_ID_A出现顺序保持一致
2、同一行中数字依次表示USER_ID_A在对应的USER_ID_B（已排序）上的ACTION（同一人被多次推荐的，只算出现过的最高级别ACTION：msg = 2 > click = 1 > rec = 0）
3、数字间用空格符间隔

test.txt对应的上述labels文件放置在服务器端，用作在线评估使用。不提供给各参赛队。但参赛队可以从train.txt中预留部分样本用于本地测试，此时需要自行抽取labels_train.txt中的对应行，再使用本脚本。

提供给各参赛队的test文件已经事先按照USER_ID_A和USER_ID_B升序排序。

----------------------------

附带的yourranks.txt为采用完全随机推荐策略，对train.txt中涉及的USER_ID_A及对应USER_ID_B进行预测所得，仅用于演示预测提交文件的格式：

1、每行依次对应train.txt中一个USER_ID_A，顺序需与train.txt的USER_ID_A出现顺序保持一致
2、同一行中数字依次表示参赛队模型在对应的USER_ID_B上的预测序。该行数字的顺序需与train.txt中同一个USER_ID_A下USER_ID_B的出现顺序保持一致
3、数字间用空格符间隔
4、文件名可以自拟，但不能是中文，且提交的预测文件需要包含后缀名.txt

在线提交时，各参赛队应基于自己的模型和test.txt，按上述格式构造预测文件。因此上述格式说明中涉及train.txt的描述需相应改为test.txt。

更详尽的格式说明请参考竞赛网页中【竞赛数据下载】-【提交方式】里的说明，以确保在提交时能够正确获取系统的NDCG@10反馈。

----------------------------

evaluate.py的执行方法：

在配置好python环境后，在命令行下输入：

python evaluate.py yourranks.txt

本脚本在python 2.6下调试通过。输出的两个结果分别表示NDCG@10和NDCG@20（本例中分别约为0.08660和0.11637）。其中NDCG@10为本届竞赛的主要排名标准，NDCG@20则为候选标准，在NDCG@10不能充分区分各参赛队算法时使用。

使用NDCG@20前会发布通知。
///附件内容结束///

altf · 发表于 2011-3-24 21:32:49

回复 2# 步微月

这是数据挖掘大赛，主要是面向计算机、理工科相关专业以及其他感兴趣的同学。关于数据挖掘，请google。

		自动登录	找回密码
密码			注册

[理科大类基础] 【通知】首届全国大学生数据挖掘邀请赛数据开放下载

相关帖子

浏览过的版块

每日推荐 /1