💾
Task1：了解模型获取和IPEX-LLM部署工具

2024年7月4日创建

5473

6915

💡

教程贡献者说：

在今天的学习中，你将和我一起成为 Intel 大模型推理专家，让我们一起来拥有让大语言模型走进千家万户的能力。你会发现，原来我们可以让大语言模型不再是 GPU 的专属，我们能够让他在 CPU 上同样高效运行。​

写在开头

欢迎大家来到从零入门CPU部署大模型夏令营学习的 task1 环节，在本环节，我们将一起学习如何从零部署一个大语言模型。​

很多朋友可能想过，是否只有英伟达显卡，才能运行现如今大家所熟知的大语言模型。但我们需要注意一点，计算机的世界没有魔法，深度学习的世界可能有但并不多——对于任意一个深度学习模型，他所需要的仅仅是对权重的加载、对权重的推理，就可以得到你想要的推理结果。那么对于一个大语言模型也是如此，只要我们支持机器和硬件设备支持加载权重到实时缓存中，再提供权重推理所需要的计算单元的支持，也就是算子的支持，那么他就一定能在任意所选设备上运行；而基于这一原理，我们也自然能够在 CPU 上运行任意深度学习模型，包括大语言模型，只要 CPU 支持了对应的模型算子实现。​

但是，世界上没有白给的午餐；如果没有强大的软件栈的支持，我们也无法高效的推理神经网络，不同计算内核和过程的实现会让推理速度天差地别；我们需要高效利用硬件设备访存缓存特性、指令集计算加速特性才能让神经网络拥有更高效的推理速度。幸运的是，今天我们将介绍大家学会 Intel 针对大语言模型加速的神经网络加速框架 IPEX-LLM，有了强大的加速框架的支持，我们可以让 1.5B 甚至 7B 大语言模型在 8 核 CPU 上流畅运行。​

让我们抱着愉快的心情进入今天的学习。

赛题解读

🏖️

1.
赛题简介​

参赛者基于推荐或自选的开源大语言模型，开发及展示面向通用或特定领域的应用/服务的原型进行提交，并在基于阿里云服务平台的英特尔至强可扩展处理器的实例上完成部署及高效运行。​

2.
推荐使用工具​

基于开源大语言模型：

作品开发应基于开源大语言模型进行，可以同时使用其他适合的辅助模型及数据集。模型可使用原始发布的模型或经过微调后的模型，包括但不局限于以下模型：​

•
通义千问Qwen系列​

•
智谱ChatGLM及GLM4系列​

•
百川2系列​

•
英特尔发布的各种模型的微调版本​

基于intel部署及优化工具：

提交作品中，需至少使用1个下方给出的部署及优化工具（不分先后）​

•

OpenVINO™ Toolkit

•

++IPEX-LLM (Intel® LLM Library for PyTorch)++

•

Intel® Extension for Transformers ++或其组件 (Neural Chat)++

•

xFasterTransformer

•

Intel Extension for Pytorch

可选微调及部署技术：

•
权重调整​

•
低精度量化​

•
RAG​

•
其他各种模型微调及优化技术​

3.
硬件平台​

初赛阶段：

开发者在部署时，可使用魔搭社区的云环境（参赛者可到魔搭社区，注册并申请使用基于英特尔硬件的免费CPU环境，进行代码原型开发及测试）；开发者也可使用自备的基于英特尔处理器的设备或云环境。​

使用魔搭社区云环境步骤：

•
通过登录并使用魔搭平台及注册时关联阿里云账号获得的免费CPU云计算资源​