分享
从零入门多模态大模型数据合成
输入“/”快速插入内容
🎞️
从零入门多模态大模型数据合成
2024年8月3日创建
10133
14084
8
53
学习第一步:报名赛事!(点击即可跳转)
赛事链接
:
https://tianchi.aliyun.com/competition/entrance/532251
💡
直接报名即可,然后可以尝试自己阅读赛题,
尝试理解和学习赛事要求
50%
50%
💡
天池Better Synth多模态大模型数据合成挑战赛
是 Datawhale 2024 年 AI 夏令营第四期的学习活动——
•
适合想
入门并实践 多模态大模型、数据处理、模型训练
的学习者参与
温馨提示
:
本赛事需要耗费大量的算力,
跑通此baseline至少需要
120G内存
以上的
A10/4090
,
整个流程可能需要5小时,大家请自行寻找算力,预留好时间,
下面我们会以
autoDL平台
为例——
有各种排坑指南 & 全网编辑的版本可以查看:
从零入门多模态大模型数据合成-大家评论版
学习内容提要
:跑通官方给定
数据处理 + 模型训练&微调 + 模型评测 baseline
(需充值或自备算力),学习
Data-Juicer数据处理系统
,探索
多模态大模型的训练数据合成
方案。
画板
60%
内容速览
40%
300 分钟
baseline指南!
💡
教程贡献者说:
我们整个学习活动,将带你 ——
•
跑通最简单的Baseline
(相信我,当前baseline已经写到最简单了,但需要的算力和学习实在不是常人&免费方案能hold住的)
•
了解竞赛核心考察点和难点
•
精读Baseline与了解进阶思路