分享
手把手打一场AI for Science赛事实践
输入“/”快速插入
手把手打一场AI for Science赛事实践
飞书用户896
飞书用户480
飞书用户2838
飞书用户6359
2023年9月4日创建
💡
项目来源:
首届世界科学智能大赛:量子化学赛道——分子属性预测B赛道
https://tianchi.aliyun.com/s/8ded2048ee5e7160820c770ec2d12e98
赛题背景
宏观世界是由大量的微观粒子组成,了解微观粒子的运动和性质,才能更好的认识宏观世界。借助计算机模拟技术和量子力学的基本原理,
量子化学计算
应运而生,从电子层面阐明分子的能量、性质以及分子间相互作用的本质。量子化学计算在生物、化学、医药和材料科学等领域中具有广泛应用,例如:预测化学反应的热化学性质、分析分子的光谱学特性、优化材料的物理性质等。然而,量子化学计算存在计算量大、成本昂贵、耗时长等缺点,这限制了其在科学研究和技术创新领域的进一步发展。
为了推动量子化学与基础科学研究的深度融合,我们需要积极探索计算成本更低、更高效的求解方法。为此,我们联合天池团队共同发起了本届
《量子化学分子属性预测大赛》
。
本次大赛中,我们开源了国内首个采用高精度QM方法计算的分子构象数据集,其中包含了12万个分子和1000多万个构象。这些分子的构象包括了旋转、振动、弯曲等不同形式的构象,覆盖了多种不同的单分子性质,具有高精度、高可靠性和高实用性等特点,能够为参赛者提供准确、丰富和具有代表性的数据资源。
此外,我们还会提供详细的数据集说明和相关文献,帮助参赛者更好地理解和使用这个数据集,从而更好地完成赛题任务。我们相信这个数据集的开源将促进量子化学计算领域的进一步发展和应用,也将为更广泛的科学研究和工程实践提供更多的可能性和机会。
赛事任务
本届赛题为图属性回归问题,目标是预测不同构象下分子的总能量和力两种性质。数据集将包含一系列分子的构象和量子化学计算得到的能量、力等属性信息,参赛者需要从中选择合适的特征,并使用适当的算法来建立预测模型,快速准确的预测分子的属性。
赛题数据集
初赛提供训练集数据文件 ,其中包含约500w训练样本。
单个分子中各字段说明如下:
评价指标
本次任务采用多个指标来进行评测,初赛和复赛评价指标有差异,作为本次教程仅介绍初赛评价指标。
初赛阶段,选手仅需要提交结果文件,只采用准确率进行评分。
复赛阶段,选手的评分将在准确率的基础上考虑同时计算效率。
解题思路
本题初赛任务是预测能力和力,属于回归问题,不过输入数据比较复杂,给出了原子之间的关系和坐标位置,可以构建空间结构。
模型方面可以选择机器学习模型或图神经网络模型,如果使用类似xgboost这类机器学习模型,无法深入挖掘图结构信息,仅能提取简单的图信息,如出度入读、边数量等。如果选择图神经网络模型,则能够有效挖掘图结构信息。
鉴于上面的对比,我们Baseline选择使用机器学习方法,在解决机器学习问题时,一般会遵循以下流程:
画板
Baseline实践
刚刚我们完成了基本的问题分析,接下来会带领大家跑通数据加载、
特征工程
、模型训练、模型验证、结果输出的全部竞赛实践流程。精读Baseline
云环境配置与数据下载
介于本赛事的数据规模比较庞大,推荐大家使用赛事官方推荐的阿里云的云环境,提供免费V100与A10算力
AI for Science 量子化学赛道阿里云DSW-Baseline
qmb_baseline_v1_注释版.ipynb
301.24KB