🥊
Task2：赛题评测方法

2024年10月10日修改

3594

3935

💡

 在上一个教程中，我们了解到了大模型的思路，并逐步通过大模型完成了提示词的改写。 大模型本身拥有很强的语言表达能力，但其表达能力还是依赖于人工提示词。此外大模型的生成结果也有很多随机性，这都会影响到赛题最终的精度。​

1万读者有1万个哈姆雷特。在本教程中，我们将继续从解题的角度来挖掘如何更好地地参赛，我们将会介绍赛季的评价方法，介绍如何通过大模型生成更加多样的提示词。​

赛题评价方法

结合赛题的要求，赛题文生图大模型服务的全链路框架如下所示：​

common.docs_name - LarkCCM_Docs_Menu_Image

1、给定文本prompt，前置文本安全检测模块（ShieldLM-7B-internlm2）会判断prompt是否有风险；

2、文生图大模型会基于文本prompt进行图片生成（中文prompt送入Kolors，英文prompt则送入FLUX.1-schnell）；

3、后置图像安全检测模块（InternVL2-2B）会判断生成的图片是否有风险；

4、最后，将有自动阅卷模型判断生成的图片内容是否符合任务要求；

单条prompt评分标准如下：

文本检测原理

ShieldLM-7B-internlm2

我们首先来看赛题所使用的ShieldLM模型。ShieldLM的构建原理可以分为三个主要步骤：标签收集（Label Collection）、分析生成（Analysis Generation）和训练与推理（Training & Inference）。​

1.
为了能够检测LLMs回答中的安全性问题，研究者们收集并构建了一个新的数据集。这个数据集包括了从BeaverTails数据集和SafetyPrompts数据集中随机抽取的英文和中文的对抗性查询（red teaming queries），并从多种LLMs中抽取相应的回答。​

对于每对查询-回答（query-response pairs），研究者们让人类标注者（annotators）评估回答的安全性，将其分类为安全（safe）、不安全（unsafe）或有争议的（controversial）。如果回答被标记为不安全，标注者需要进一步识别特定的安全问题类别，如毒性（Toxicity）、偏见（Bias）、身心伤害（Physical & Mental Harm）、非法和不道德行为（Illegal & Unethical Activities）、隐私和财产（Privacy & Property）以及敏感话题（Sensitive Topics）。​

2.
为了提高ShieldLM的可解释性，研究者们希望为每个回答编写自然语言分析，解释回答为什么被归类为安全、不安全或有争议。为了高效地生成这些分析，研究者们利用了GPT-4的语言生成能力，通过精心设计的提示（prompts），让GPT-4为每个样本生成与标签一致的分析。​

3.
收集完标签、规则和分析后，研究者们构建了用于训练ShieldLM的输入-输出对。训练过程中，ShieldLM学习如何识别在推理时应该应用哪些规则。为了实现这一点，研究者们在训练时引入了不相关的规则，并将它们与原始规则结合，使ShieldLM能够通过预测损失区分有效的规则。​

自定义文本检测方法

结合ShieldLM在论文中的分享，我们发现ShieldLM在对文本安全性检测检测效果较好。当然ShieldLM为什么性能较好的原因，我们不去深究。其精度无外乎来源以下两点：​

•
通过很多大模型（特别是GPT4）生成了安全和不安全的文本输入。​

•
通过微调大模型得到了领域的文本安全检测模型。​

在赛题如果想要得到类似的文本安全性检测模型，可以有如下方法：​