第三届“登峰杯”大赛 数据挖掘竞赛决赛题目

2018-05-31 16:14:03 来源: 您是第位浏览者

各省市参赛学校及选手:
     第三届“登峰杯”全国中学生学术科技创新大赛数据挖掘竞赛决赛以现场答辩的形式进行比赛,详情如下:
(一)比赛时间
      2018年8月6日-10日
(二)比赛地点
      北京市
(三)比赛形式
      现场答辩
(四)决赛参赛选手
     第三届“登峰杯”全国中学生学术科技创新大赛数据挖掘竞赛(初赛)一、二等奖获得者
(五)决赛参赛作品
1. 决赛作品题目;
2. 针对决赛题目的参赛论文;
3. 决赛论文的答辩PPT;
4. 初赛论文的答辩PPT。
(六)决赛作品提交资料说明
(1) 决赛参赛论文:根据官网公布的决赛题目提交决赛参赛论文,决赛论文命名格式:“参赛编号-作品名称-决赛作品”,如“111222333-如何利用经济杠杆促进城市生活垃圾分类-决赛作品”;
(2) 答辩时间:15分钟/队,团队陈述10分钟,专家评审提问5分钟/队;
(3) “答辩PPT”必须围绕决赛参赛作品进行答辩,作品名称须与决赛参赛作品保持一致;
(4) “答辩PPT” 必须使用登峰杯通用答辩PPT模板,内容根据作品内容自行设计。
(5) 初赛答辩PPT命名格式:“参赛编号-作品名称-初赛作品”,如“111222333-如何利用经济杠杆促进城市生活垃圾分类-初赛作品”;
(6) 决赛答辩PPT命名格式:“参赛编号-作品名称-决赛作品”,如“111222333-如何利用经济杠杆促进城市生活垃圾分类-决赛作品”
(7) “答辩PPT”内容中不允许出现“学校”“姓名”“参赛编号”等信息;在答辩过程中也不允许出现“自我介绍”“感谢某某老师”等环节,如出现上述违规情况,将取消比赛成绩;
“决赛论文题目”、“决赛论文”、初赛答辩PPT”决赛答辩PPT”是决赛参赛的必须条件,者缺一不可未在规定时间内提交参赛论文、答辩PPT视为自动弃权。
(七)决赛作品提交截止时间
决赛作品提交截止时间为2018年710日中午12:00,在截止日期之前,决赛作品可以重复上传,修改。
(八)参赛作品提交入口
决赛选手请进入官网(www.dengfengbei.com)登录“学生入口”——点击“上传作品入口”——分别填写“决赛作品题目”,并上传“决赛参赛论文”、“决赛答辩PPT”和“初赛答辩PPT”。“初赛答辩PPT”需压缩成一个压缩包,在“附加材料”项目中上传即可。
(九)具体决赛流程,详见官网参赛手册

教育众筹的成败预测
 
教育是民族振兴、社会进步的重要基石。自党的十八大以来,我国教育事业不断加快发展,提高了全民族素质,推动了创新驱动发展,为全面建成小康社会作出了重要贡献。然而,在全球范围内,依然存在大量的贫困人民因资金、设备限制得不到全面的教育。幸运的是,在2000年,纽约一高中的一名老师建立了一个教育众筹的网站(www.donorschoose.org),通过互联网方式帮助有需要的老师发布筹款项目并向网友募集资金,以此为学生提供更好的基础设施。相对于传统的融资方式,众筹更为开放,能否获得资金也不再是由项目的商业价值作为唯一标准。只要是网友喜欢的项目,都可以通过众筹方式获得项目所需的资金,为更多贫困地区的教育提供了向前发展的可能。由于互联网的普及,该众筹平台得到了广大人民的赞同与支持,每年都有数十万来自世界各地的老师在该众筹平台上发出请求书以此来获得一些社会上的帮助。因此,预测这些请求书能否被社会人士认同并成功获得相应的教育资源成为了众筹平台、老师迫切关注的问题。它既能帮助众筹平台更关注高质量的请求,减少由于审核这些请求所带来的人力成本,又能帮助老师更好的发布请求来获得社会人士的支持。请你利用自己所学的知识,通过实践研究,从以下角度做出探讨。
 
问题1:通常一个请求书上存在大量相关的信息,包括学生的情况、需要的教育资源以及发起请求的原因等等,这些信息大多以文本描述的形式呈现给大众,讨论哪些文本信息通常会被大众所关注,以及如何能从这些文本中提取出关键词,帮助大众快速了解请求书上的具体内容。
问题2:除了文本信息,讨论还有哪些因素会影响一个请求书是否被大众支持并成功募集到请求书上涉及的教育资源。
问题3:结合以上讨论内容,建模模型,预测一个请求书最终能够获得社会人士的支持。
问题4:给出至少3个最重要的因素,并具体说明这3个因素是如何影响一个请求书能否被大众支持。
 
提示:
文本格式:英文
常用开源工具:word2vec;doc2vec;http://www.nltk.org/
分词工具:nltk https://nlp.stanford.edu/projects/glove/ 
 
解题思路提示:
问题1可形式化为数据挖掘(自然语言理解)中关键词提取的问题,
问题2是一个开放式问题,可以通过引入外部多源数据或者迁移学习进行分析学习;
问题3可建模为预测问题,可以利用经典的或者自己设计的机器学习模型实现;
问题4是在问题3预测的基础上,实现特征分析。
 
数据说明:
本次数据来自于众筹网站www.donorschoose.org
数据下载:链接:https://pan.baidu.com/s/1-Srs-fB1Z5jaB2f9qXQc2Q 密码:umu3
 
File descriptions
· data.csv - the real dataset
· resources.csv - resources requested by each proposal
 
data.csv:
· id - unique id of the project application
· teacher_id - id of the teacher submitting the application
· teacher_prefix - title of the teacher's name (Ms., Mr., etc.)
· school_state - US state of the teacher's school
· project_submitted_datetime - application submission timestamp
· project_grade_category - school grade levels (PreK-2, 3-5, 6-8, and 9-12)
· project_subject_categories - category of the project (e.g., "Music & The Arts")
· project_subject_subcategories - sub-category of the project (e.g., "Visual Arts")
· project_title - title of the project
· project_essay_1 - first essay*
· project_essay_2 - second essay*
· project_essay_3 - third essay*
· project_essay_4 - fourth essay*
· project_resource_summary - summary of the resources needed for the project
· teacher_number_of_previously_posted_projects - number of previously posted applications by the submitting teacher
· project_is_approved - whether DonorsChoose proposal was accepted (0="rejected", 1="accepted"); 
 
* Note: Prior to May 17, 2016, the prompts for the essays were as follows:
· project_essay_1: "Introduce us to your classroom"
· project_essay_2: "Tell us more about your students"
· project_essay_3: "Describe how your students will use the materials you're requesting"
· project_essay_4: "Close by sharing why your project will make a difference"
Starting on May 17, 2016, the number of essays was reduced from 4 to 2, and the prompts for the first 2 essays were changed to the following:
· project_essay_1: "Describe your students: What makes your students special? Specific details about their background, your neighborhood, and your school are all helpful."
· project_essay_2: "About your project: How will these materials make a difference in your students' learning and improve their school lives?"
For all projects with project_submitted_datetime of 2016-05-17 and later, the values of project_essay_3 and project_essay_4 will be NaN.
 
resources.csv:
Proposals also include resources requested. Each project may include multiple requested resources. Each row in resources.csv corresponds to a resource, so multiple rows may tie to the same project by id.
· id - unique id of the project application; joins with test.csv. and train.csv on id
· description - description of the resource requested
· quantity - quantity of resource requested
· price - price of resource requested
 
 
 登峰杯决赛试题_教育众筹.docx