分享
AI夏令营第三期 - 用户新增预测挑战赛教程
输入“/”快速插入
AI
夏令营第三期 - 用户新增预测挑战赛教程
飞书用户2838
飞书用户7861
2023年8月4日创建
💡
本教程会带领大家项目制学习,由浅入深,逐渐进阶。从竞赛通用流程与跑通最简的Baseline,到深入各个竞赛环节,精读Baseline与进阶实践技巧的学习。
千里之行,始于足下,从这里,开启你的 AI 学习之旅吧!
—— Datawhale贡献者团队
赛题解析与解题思路
💡
用户新增预测挑战赛:
https://challenge.xfyun.cn/topic/info?type=subscriber-addition-prediction&ch=ymfk4uU
举办方:科大讯飞
赛题背景
讯飞开放平台针对不同行业、不同场景提供相应的AI能力和解决方案,赋能开发者的产品和应用,帮助开发者通过AI解决相关实际问题,实现让产品能听会说、能看会认、能理解会思考。
用户新增预测是分析用户使用场景以及预测用户增长情况的关键步骤,有助于进行后续产品和应用的迭代升级。
赛事任务
本次大赛提供了讯飞开放平台海量的应用数据作为训练样本,参赛选手需要基于提供的样本构建模型,预测用户的新增情况。
赛题数据集
赛题数据由约
62万条训练集、20万条测试集数据
组成,共包含
13个字段
。其中
uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性,如项目名、项目id等相关字段,common_ts为应用访问记录发生时间(毫秒时间戳),其余字段x1至x8为用户相关的属性,为匿名处理字段。target字段为预测目标,即是否为新增用户。
评价指标
本次竞赛的评价标准采用
f1_score
,分数越高,效果越好
解题思路
参赛选手的任务是基于训练集的样本数据,构建一个模型来预测测试集中用户的新增情况。这是一个二分类任务,其中目标是根据用户的行为、属性以及访问时间等特征,预测该用户是否属于新增用户。
具体来说,选手需要利用给定的数据集进行特征工程、模型选择和训练,然后使用训练好的模型对测试集中的用户进行预测,并生成相应的预测结果。
我们Baseline选择使用机器学习方法,在解决机器学习问题时,一般会遵循以下流程:
画板
思考:这里为什么选择机器学习算法?为什么不考虑深度学习?
在许多机器学习问题中,特征工程的重要性不容忽视。如果特征工程能够充分捕捉数据的关键特征,那么机器学习算法也能够表现很好。深度学习在某种程度上可以自动学习特征,但对于特定问题,手动设计特征可能会更有效。
思考:这里从逻辑回归和决策树中选择,哪一个模型更加合适?
•
决策树能够处理非线性关系,并且可以自动捕获特征之间的交互作用。
•
它可以生成可解释的规则,有助于理解模型如何做出决策。
•
决策树能够处理不同类型的特征,包括分类和数值型。
任务1:跑通Baseline
快速跑通
快速跑通Baseline
,我们基于百度
AI
Studio,将本教程Baseline部署在线上平台,可一键fork运行代码,提交结果,看到成绩。
一键运行:
https://aistudio.baidu.com/aistudio/projectdetail/6618108?contributionType=1&sUid=1020699&shared=1&ts=1691406191660
•
运行时,可以选择
CPU2核8G
或
V100 16G
的配置
•
总运行时间大约需要
5
min
或
1
min
,请耐心等待
•
视频讲解
◦
baseline运行操作演示视频
@魏庆伟
助教贡献
https://meeting.tencent.com/user-center/shared-record-info?id=939ff28e-1108-49e4-89cf-bdd637e8067d&from=3&is-single=true&reload=1
◦
用户新增预测挑战赛Baseline讲解
飞书用户8296
助教贡献
◦
Python与
机器学习
新手快速入门导引
飞书用户941
助教贡献