分享
Task2:赛题评测方法
输入“/”快速插入内容
🥊
Task2
:赛题评测方法
2024年10月10日修改
3594
3935
1
0
💡
在上一个教程中,我们了解到了大模型的思路,并逐步通过大模型完成了提示词的改写。 大模型本身拥有很强的语言表达能力,但其表达能力还是依赖于人工提示词。此外大模型的生成结果也有很多随机性,这都会影响到赛题最终的精度。
1万读者有1万个哈姆雷特。在本教程中,我们将继续从解题的角度来挖掘如何更好地地参赛,我们将会介绍赛季的评价方法,介绍如何通过大模型生成更加多样的提示词。
赛题评价方法
结合赛题的要求,赛题文生图大模型服务的全链路框架如下所示:
1、给定文本prompt,前置文本安全检测模块(
ShieldLM-7B-internlm2
)会判断prompt是否有风险;
2、文生图大模型会基于文本prompt进行图片生成(中文prompt送入
Kolors
,英文prompt则送入
FLUX.1-schnell
);
3、后置图像安全检测模块(
InternVL2-2B
)会判断生成的图片是否有风险;
4、最后,将有自动阅卷模型判断生成的图片内容是否符合任务要求;
单条prompt评分标准如下:
文本检测原理
ShieldLM-7B-internlm2
我们首先来看赛题所使用的ShieldLM模型。ShieldLM的构建原理可以分为三个主要步骤:标签收集(Label Collection)、分析生成(Analysis Generation)和训练与推理(Training & Inference)。
1.
为了能够检测LLMs回答中的安全性问题,研究者们收集并构建了一个新的数据集。这个数据集包括了从BeaverTails数据集和SafetyPrompts数据集中随机抽取的英文和中文的对抗性查询(red teaming queries),并从多种LLMs中抽取相应的回答。
对于每对查询-回答(query-response pairs),研究者们让人类标注者(annotators)评估回答的安全性,将其分类为安全(safe)、不安全(unsafe)或有争议的(controversial)。如果回答被标记为不安全,标注者需要进一步识别特定的安全问题类别,如毒性(Toxicity)、偏见(Bias)、身心伤害(Physical & Mental Harm)、非法和不道德行为(Illegal & Unethical Activities)、隐私和财产(Privacy & Property)以及敏感话题(Sensitive Topics)。
2.
为了提高ShieldLM的可解释性,研究者们希望为每个回答编写自然语言分析,解释回答为什么被归类为安全、不安全或有争议。为了高效地生成这些分析,研究者们利用了GPT-4的语言生成能力,通过精心设计的提示(prompts),让GPT-4为每个样本生成与标签一致的分析。
3.
收集完标签、规则和分析后,研究者们构建了用于训练ShieldLM的输入-输出对。训练过程中,ShieldLM学习如何识别在推理时应该应用哪些规则。为了实现这一点,研究者们在训练时引入了不相关的规则,并将它们与原始规则结合,使ShieldLM能够通过预测损失区分有效的规则。
自定义文本检测方法
结合ShieldLM在论文中的分享,我们发现ShieldLM在对文本安全性检测检测效果较好。当然ShieldLM为什么性能较好的原因,我们不去深究。其精度无外乎来源以下两点:
•
通过很多大模型(特别是GPT4)生成了安全和不安全的文本输入。
•
通过微调大模型得到了领域的文本安全检测模型。
在赛题如果想要得到类似的文本安全性检测模型,可以有如下方法: