竞赛邀请 | 第一届青云杯IT技术挑战赛大幕揭开
竞
(相关资料图)
赛
开
启
2023年第一届
青云杯IT技术挑战赛
竞赛邀请函
青云杯IT技术挑战赛由尚硅谷教育主办,目的是鼓励大学生和大数据开发人员发挥创造力和实践能力,构建实际有用的数据仓库,推广大数据科学技术,提高数据科学的知名度和影响力,加强学术和产业界之间的交流合作,促进数据科学的发展。面向广大大学生和大数据开发群体发布邀约,诚邀您的参加。
1
参赛对象
全日制普通高校在读的研究生、本科生,以及各互联网企业的大数据开发人员,要求参赛人员组队参加比赛,小组人数要求1至5人。
2
赛程安排
报名时间
2023年3月8日至4月1日。
截至2023年4月1日18:00停止接收参赛报名。
比赛时间
2023年3月8日至5月8日。
截至2023年5月8日18:00停止接收比赛作品提交。
评分时间
2023年5月8日至6月1日。
颁奖时间
2023年7月
3
比赛规则
比赛内容
参赛选手可以使用比赛组委会提供的多行业数据集中的其中一个,也可以自行收集脱敏数据集,以数据集为基准,构建一个功能完备的离线数据仓库,包括数据采集、数据清洗、数据建模、任务调度、可视化等多个环节。
比赛提交
参赛选手需要在比赛截止日期前提交一份内容详尽的报告文件,报告内容包括但不限于参赛作品各环节的安装说明文档、数仓搭建过程的说明文档、最终可视化页面截图、所有脚本文件、功能演示及全流程调度的视频等。详情参见评分标准。
比赛评估
比赛结果由专业评委根据比赛规则和评分标准进行评估,结果公布后不可更改。
4
评分标准
1. 数据采集(20%):数据源种类的多样性、数据采集的完整性、正确性等;
2. 数据清洗(10%):数据清洗考虑的全面性、数据归一化处理、去重和脱敏处理等方面;
3. 数据建模(45%):数据建模的创新性、准确性、稳定性等方面。
4. 可视化(5%):指标可视化完整、美观、全面。
5. 报告(20%):报告的完整性、清晰度、论证力、创新性和贡献度等方面。
6. 附加分(60%):使用自备的完整数据集、更加丰富的数据仓库功能设计、更加全面复杂的指标体系等可获得酌情加分。
在评估报告时,评委会将会关注参赛者对数据清洗、数据预处理和数据建模环节的详细说明,以及对分析结果的分析报告。同时,参赛者需要在报告中对他们所采用的方法和算法进行充分地解释和论证。评委会将根据参赛者在报告中的论证力、创新性和贡献度等方面进行评估,以确定最终得分。
详情见评分细则
5
奖项设置
一等奖1组,奖金5000元+尚硅谷大厂学苑全套课程+获奖证书
二等奖2组,奖金3000元+获奖证书
三等奖3组,奖金1000元+获奖证书
追求卓越奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书
优秀团队奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书
特殊贡献奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书
6
报名方式
官方报名QQ群1:661827902
官方报名QQ群2:748100631
群2为备用群,请优先添加群1
QQ群内通知内容相同,请勿重复添加
7
联系赛方
组委会官方QQ:3578283292
联系电话/微信:18604506683(梁老师)
联系邮箱:3578283292@qq.com
8
评分细则
本次比赛采用百分制,完成各项基本要求可获得100分,完成各项附加要求,可获得加分,加分项共60分。
1. 数据采集(20分)
采集是数仓搭建的前提,采集得分为零则总分为零。
1)数据集(5分)
可选用比赛官方提供数据集,亦可自行搜集数据集。若选用官方数据集,此项得分为0。此外,组委会会提供电商数仓搭建的全套资料,若选择电商数据集,将失去一、二、三等奖评选资格。若自行收集数据集,可申请技术支持,辅助开发数据模拟器。
以下均为自备数据集的要求。
① 要求原始数据表结构完整,至少有20个字段的业务表不少于10张(3分)。
② 至少提供一天以上的数据,若涉及用户隐私、商业机密等,必须脱敏处理(2分)。
2)同步策略(2分)
为每张原始表选择合理的同步策略,并说明原因。
3)数据目的地(3分)
分布式文件系统目标路径可以看到数据,此项是搭建采集通道的前提(不满足此项采集部分得分为0)。须在验收视频中完整演示由数据源至分布式文件系统的数据流转过程,如采用flume-kafka-hdfs架构采集日志数据,需要满足:
(1)启动Kafka命令行消费者,消费目标主题数据,上游注入数据后可以消费到数据;
(2)通道打通后,HDFS目标路径、文件可以自动生成,且文件大小可随时间变化。
(3)文件系统必须为HDFS这样的高可靠分布式文件系统。
不满足上述三点,此项得分为零。
4)目录滚动规则要求(3分)
分布式文件系统可以按天自动生成数据目标路径,须在验收视频中展示跨天时目标路径的生成。
5)文件滚动规则要求(4分)
(1)目标路径文件可以按照大小滚动(2分)。
(2)目标路径文件可以按照时间滚动(2分)。
以上应在验收视频中展示效果。
6)压缩要求(3分)
采用合理的方式压缩,此处的合理是指用户不需要额外的操作即可直接读取压缩文件。
2. 数据清洗
1)脏数据处理(1分)
处理结构不完整、无法解析的数据。
2)空值处理(1分)
处理非空字段的空值。
3)重复数据处理(2分)
对于可能重复的数据做去重处理。
4)脱敏(3分)
对用户姓名、邮箱、手机号等脱敏处理,应选择合理的匹配规则。
5)数据格式校验(1分)
处理日期、币种等字段格式错误的数据。
6)非法值处理(2分)
检测并修正取值范围异常的字段,如取值小于零的金额字段。
3. 数仓搭建
1)业务总线矩阵构建及DIM、DWD层搭建(20分)
(1)业务总线矩阵构建(10分)
① 要求明确数据域,明确事实、维度对应的原始表名称,示例如下(4分)。
② 业务总线矩阵为业务驱动,自下而上构建,应涵盖数据集中的所有事实与维度(3分)。
③ 明确事实与维度的关联关系(通过√体现)(3分)。
(2)DIM层构建(5分)
① 应涵盖业务总线矩阵中的所有维度(从日志中提取的和退化的维度不必形成维表)(1分)。
② 维度表字段尽可能完善,应包含所有与该维度相关原始表的信息,还应剔除无法用于统计的字段如“问题内容(文本)”等(1分)。
③ 应做维度整合,明确主维表及相关维表(1分)。
④ 缓慢变化维应构建拉链表(1分)。
⑤ 提供首日装载和每日装载语句(1分)。
(3)DWD层构建(5分)
① 应对业务总线矩阵中列出的所有业务过程建立事实表,粒度为该业务过程的原子操作(1分)。
② 事实表应包含尽可能丰富的字段,并剔除无法用于统计的字段,如“评价内容(文本)”等(1分)。
③ 对于字段极少的维度,要做维度退化(1分)。
④ 对于特殊需求,特殊的业务场景,应按照实际情况构建周期型快照事实表或累积型快照事实表(1分)。
⑤ 提供首日装载和每日装载语句(1分)。
2)指标体系构建及DWS、ADS层搭建(20分)
(1)指标体系构建(10分)
① 提供思维导图(导出为PDF)和Excel版本的指标体系。指明指标类型(思维导图指明,Excel不必),(如果有)指明依赖的指标,示例如下(3分)。
② 指标不可少于20,仅统计周期不同的算作一个指标(如最近1/7/30日各省份下单金额算作一个指标)(3分)。
③ 最大化公共粒度汇总表的调用次数,尽可能减少重复计算(2分)。
④ 思维导图应明确所有指标的依赖关系,不可存在逻辑错误(2分)。
(2)DWS层搭建(5分)
① 汇总表的字段应足够丰富,须整合指标体系中列出的统计周期、统计粒度、业务过程相同的所有派生指标(2分)。
② SQL可执行,且没有逻辑错误(2分)。
③ 提供首日装载和每日装载语句(1分)。
(3)ADS层搭建(5分)
① 包含提交的指标说明文档中的所有指标(2分)。
② SQL可执行,且没有逻辑错误(2分)。
③ 提供首日装载和每日装载语句(1分)。
3)整体要求(5分)
(1)明确数仓上线首日,进而确定采集目标路径、装载语句及调度脚本的日期(2分)。
(2)数仓各层明确表名、字段名称命名规范(2分)。
(3)数仓建表语句应指明正确的存储、压缩格式,规范存储路径(1分)。
4. 可视化
使用任意工具完成数据可视化。
① 为所有ADS层指标选择合适的图表(2分)。
② 提供报表建表语句(如MySQL报表)(2分)。
③ 效果酷炫(1分)
5. 提交材料
1)资料(5分)
(1)提供数仓搭建需要的所有组件安装包及安装说明文档(1分)。
(2)EZDML或其它工具完成的业务库表关系模型(1分)。
(3)组件启停脚本、数仓各层调度脚本、采集脚本、报表数据导出脚本等(1分)。
(4)业务总线矩阵及指标体系(1分)。
(5)数仓各层数据装载语句、调度工具工作流执行成功截图及可视化大屏截图(1分)。
2)文档(15分)
(1)业务流程说明文档(3分)
详细介绍业务流程,对业务库建模,说明所有原始表之间的关系。
(2)需求说明文档(3分)
按照主题划分,阐明指标的统计思路。
(3)数仓文档(9分)
① 包含采集、各层建表、装载语句及说明、全流程调度及可视化模块(4分)。
② 行文流畅,思路清晰,用词严谨(3分)。
③ 排版规范(与模板一致),无错别字(2分)。
3)验收视频(不单独计分)
此项不计分,但会作为其它评判规则的参考。
录制10-15分钟的视频,要求完整演示从采集到可视化的数据流转过程。其中,要包含调度工作流上线、执行、完成的全过程,以及可视化工具数据源的配置、图表的选择等内容。视频可加速,总长压缩至指定范围即可。
6. 加分项
1)数据集(20分)
此项仅面向参赛团队自行收集的数据集。
(1)业务流程完善,数据集包含一个完整业务流程所涉及的所有事实和维度(5分)。
(2)业务丰满,原始表字段多,数量多。大于20个字段的原始表大于20张可获得附加分,至多10分,100张封顶(10分)。
(3)数据源多样性,至少提供一种数据源(如Mysql、Oracle、MongoDB、Excel、TXT等)的原始数据,每多一种加一分,上限5分(5分)。
2)指标(15分)
(1)阐明指标的经济价值(5分)。
(2)指标丰富,达到30可以获得附加分,至多10分,100个封顶(10分)。
3)数据质量监控(5分)
4)元数据管理(5分)
5)数据治理(5分)
6)权限管理(5分)
7)用户认证(5分)
9
资料下载
度盘链接
https://pan.baidu.com/s/1YJdbSlw3kXMlTp9FdC1boA?pwd=43sl
提取码
43sl
END
标签:
- 竞赛邀请 | 第一届青云杯IT技术挑战赛大幕揭开
- 北京香山
- 退休工资计算方式2022-2023 养老金怎么计算退休领取金额2023
- 工厂食堂菜谱怎么设计_工厂食堂菜谱 世界通讯
- 杨惠婷
- 酒精闪点是什么意思_酒精闪点的含义_新动态
- 李润东 通讯
- 路桥信息大幅下调 IPO 发行底价 前两轮问询回复被指前后矛盾
- 当前焦点!国皂零售价多少钱一块(国皂)
- 快看点丨画蛇添足这个寓言的意思是什么
- 环球资讯:全成本水价与运行水价-全成本水价和运行成本水价
- 热门:集成主板
- 2023年河南最低工资多少钱一个月?河南最低工资标准2023是多少
- 买重疾险是不是智商税?几个方面分析_全球要闻
- 干法脱硫技术
- 千人一面的意思和造句_千人一面
- 2020肇庆中考总分多少
- 今天最新消息 360放弃增资不到一个月,哪吒汽车宣布完成超30亿元D3轮融资|天天热闻
- 外长发布会|秦刚答中俄关系:世界越是动荡不安,中俄关系就越要稳步前行 世界快资讯
- 荣石
- 精炼植物油_说一说精炼植物油的简介-全球微动态
- 税额加计抵减账务处理_加计抵减账务处理|世界热资讯
- 我们体内很多必需元素都是从食物中摄取的尤其是各种维生素 焦点热讯
- 供需格局变换,油价今年重回100美元?
- 绥化市公安局
- 世界热议:hcg值多少是没有怀孕_HCG值多少是没怀孕
- 2020微信头像圣诞帽子怎么弄 全球动态
- 全球观焦点:长沙采暖品牌_长沙采暖
- 简讯:百世
- 今日讯!回味胜利!利物浦官方社媒晒双红会照片:早安,红军
- 今日热闻!关于调整2023年宁德市初中毕业升学体育与健康考试的公告
- 焦点短讯!新浪天津
- 娃字组词_汉字娃怎么组词
- 王熙凤怎么死的-天天速看
- “鱼你在一起”创始人魏彤蓉:挺过餐饮业至暗时刻,我把门店开到1600家
- 世界热资讯!中科创达:为更有效的使用募集资金并发挥募投项目对公司研发项目的引领作用,拟延长募投项目的实施时间
- 中国豫剧曲谱网简谱大全_中国豫剧曲谱网简谱
- exhibition怎么读_exhibit
- 全球今日报丨逍遥红尘的全部小说_逍遥红尘
- 视讯!孙綝与孙权是什么关系_孙綝
- 怎么区分1类2类3类医疗器械_怎样区分一类二类三类医疗器械
- 袁小彬委员:建议成立执行专门法院 切实解决执行难_世界热文
- 视讯!银杏树介绍
- 每日讯息!难兄难弟的意思的读法
- 3d试机号对应码金码是什么_3d试机号对应吗和金码
- 偷税漏税是怎么判刑的
- psd啥意思
- 资讯推荐:牛肉和鸭蛋可以一起吃吗 牛肉和鸭蛋能不能一起食用
- 北京考生:数学“难哭了” 到底是怎么回事
- 九州缥缈录演员表及人物介绍|当前独家
- 中国式民主的广东实践丨二十多万人的通勤路 新动态
- 环球热点!压岁钱的禁忌
- 赤司征十郎扣篮_赤司征十郎|全球新资讯
- 天天即时看!武汉有机3年合计获得政府补助3160万元
- 2023北京昌平区汽车消费券优惠力度是多少?
- 1938-1941重庆大轰炸
- 赤灵芝可以长期煮水喝吗_赤灵芝|天天亮点
- 今天正式开始!网友凌晨蹲守,有人甚至拿到4万多! 世界观天下
- 中国美女排行榜前50名模特_中国美女排行榜前50名 观速讯
- 【世界播资讯】怎么使用Ps制作灯光的效果_ps做灯光效果有几种方法
- 「1日资金路线图」两市主力资金净流入110亿元 计算机、电子等科技板块实现净流入
- ST路通“追讨”在路上 实控人及关联方仍欠7364万元
- 环球快看:76751游戏平台
- 华测检测: 关于回购股份的进展公告|环球实时
- 营业外收入缴纳增值税_营业外收入要交增值税吗 天天微动态
- 怎么使用百度掘金挣钱_百度掘金能赚多少 环球资讯
- 手机怎么批量删除qq好友_怎么删除qq好友
- 打造以西安市为中心的关中城市建筑业集群 陕西具体这样做→
- 小米双肩包男_小米双肩包质量好不-世界简讯
- 快播:渤海轮渡:融资净买入44.36万元,融资余额1.69亿元(02-28)
- 【环球聚看点】Excel/PPT2010商务办公全攻略
- 摩尔勇士魔法师斗技场攻略_摩尔勇士魔法师技能-快资讯
- 今天最新消息 湖北十堰:500架无人机“夜秀武当”
- 最新快讯!空调挂机和风管机的优缺点_风管机的优缺点
- 甘肃特色优势产业招商推介会在厦门举办
- 【环球新要闻】五十六个民族五十六朵花的歌词到底怎么回事
- 我的学神男友小说全本_我的学神男友|全球快播
- 热消息:丹东新型冠状病毒肺炎疫情:2月28日丹东疫情最新消息今天数据统计情况通报
- 2023年龙华区民治街道和风社康免费两癌筛查预约指南-全球焦点
- 厉以宁的传奇人生具体详细内容是什么_世界今头条
- 世界快看点丨财务出纳年终总结和工作计划_财务出纳年终工作总结范文
- 世界排名:科克夺冠攀至32位 西姆破荒上升到256位-天天快讯
- 每日消息!撒谎鼻子变长的故事是什么_撒谎鼻子变长的故事介绍
- 天天快看:もう自分が自分に嘘をつかないように
- 若不听从中国立场后果会“非常严重”!_环球热门
- 环球热推荐:金隅集团400亿元债务融资工具获交易商协会接受注册
- 汇丰考虑将伦敦总部办公面积减半,凸显疫情对办公格局影响
- 工商部网站备案查询官网_工商部网站备案查询
- 业绩快报:联迪信息2022年净利润1875.18万 同比下降37.79%
- 天天要闻:盛讯达董秘回复:为保证信息披露的公平性,公司会在定期报告中对股东情况作出统一披露
- 什么是汇票承兑自由原则
- 后心背疼是什么原因女性_后心背疼是什么原因-世界新视野
- 中元股份:公司医疗信息化业务聚焦智慧医共体、智慧医院、AI+大数据及互联网服务+运营四大方向
- 中国自行车运动协会训练基地落户光明
- 麦宗禹
- 今日观点!该地官宣:明天起,不要求佩戴口罩
- 全球实时:迷你鲨怎么合成巨兽鲨_迷你鲨
- 佐川一政
- 广灵县文物旅游局
- 希尔巴贡
广告
广告
- 期货概念板块12月20日涨0.11%,中科金财领涨,主力资金净流入1416.93万元 动态焦点
- 确成股份: 关于回购注销部分限制性股票通知债权人的公告-天天动态
- 中国神华:99.65亿元竞得子公司锦界能源剩余30%股权|每日简讯
- 中迪投资: 中迪投资第十届董事会第十五次临时会议相关事项的独立董事意见
- 麒盛科技:公司暂未产生与卡塔尔世界杯相关业务合作
- 每日关注!异动快报:海源复材(002529)12月7日10点10分触及涨停板
- 闰秒终于要取消了!一文详解其来源及影响_环球看点
- 18分逆转!快船掀翻开拓者 鲍威尔32+4西蒙斯37分 最新资讯
- 天天速递!大牛证券&#129商贸零售:11 月培育钻石进口额环比回暖
- 同在一个群,就如一家人!物流不畅,群友爱心接力送药
- 宁波银行: 宁波银行股份有限公司第七届董事会第十二次会议决议公告
- 天天动态:酒店及餐饮板块下挫 西安旅游跌超7%
- 定增热!私募基金参与上市公司定增需关注哪些要点?
- 巴比食品(605338)12月15日主力资金净卖出660.52万元
- 环球微资讯!加量价不变,央行12月续做6500亿元MLF呵护流动性
- 借条借款利息怎么计算
- 娄底轻微工伤赔偿标准|环球通讯
- 【机构调研记录】惠升基金调研南网科技、龙磁科技 每日播报
- 濮耐股份(002225.SZ):中标12.48亿元八一钢铁炼钢耐材整体承包项目
- 创业环保董秘回复:公司内部有严格的合规法务系统,业务合同的签署一般按照公司内网审核+纸板签署盖章|全球独家