🌊
Task4案例：AI简历助手

2024年7月6日创建

4913

5593

1.
项目背景​

随着数字化转型的加速和人工智能技术的发展，人力资源管理领域也在寻求更加高效和智能的方法来处理大量的求职申请。​

对于企业而言，筛选合适的候选人是一项耗时且复杂的任务，尤其是在收到成百上千份简历的情况下。同样地，对于求职者来说，如何让自己的简历在众多竞争者中脱颖而出也是一大挑战。​

因此，开发一款能够帮助企业自动抽取简历关键信息，并帮助个人优化简历的AI助手，将大大提升招聘流程的效率和质量。​

2.
产品功能​

•
企业端：​
◦
简历信息抽取：利用自然语言处理技术自动识别并提取简历中的关键信息（如姓名、教育背景、工作经历等）。​
◦
简历信息匹配：根据职位需求与简历内容进行匹配度分析，推荐最合适的候选人。​
◦
批量处理能力：支持批量上传和处理大量简历，节省HR的时间和精力。​

•
个人端：​
◦
简历润色与建议：提供个性化简历改进建议，包括用词优化、结构调整等。​
◦
匹配度评估：评估简历与目标职位的匹配程度，并给出改进意见。​
◦
模板与案例分享：提供高质量的简历模板和成功案例供用户参考。​

3.
应用价值​

•
提高效率：自动化处理简历可以显著减少HR的工作量，使他们有更多时间专注于面试和评估候选人。​

•
提升质量：精准的信息抽取和匹配有助于找到更适合岗位的人才，提高招聘成功率。​

•
增强用户体验：个性化的建议和反馈可以让求职者更好地展示自己，增加获得面试机会的可能性。​

4.
技术方案​

数据：https://hf-mirror.com/datasets/BAAI/COIG-PC-Lite

技术架构图

本项目通过微调源大模型使其获得信息抽取能力来解决用户的问题。​

具体来说，项目主要包含一个Streamlit开发的客户端，以及一个部署好微调后的浪潮源大模型的服务端。​

客户端接收到用户请求后，首先进行Prompt拼接，然后输入到服务端的浪潮源大模型，得到模型输出结果后，返回给客户端进行结构化，然后展示给用户。​

画板

核心代码

依赖安装

代码块

pip install streamlit==1.24.0

启动脚本

代码块

streamlit run Task\ 4\ 案例：AI简历助手.py --server.address 127.0.0.1 --server.port 6006​

源代码

代码块

# 导入所需的库​
from transformers import AutoTokenizer, AutoModelForCausalLM​
import torch​
import streamlit as st​
from peft import PeftModel​
import json​
import pandas as pd​
​
# 创建一个标题和一个副标题​
st.title("💬 Yuan2.0 AI简历助手")​
​
# 源大模型下载​
from modelscope import snapshot_download​
model_dir = snapshot_download('IEITYuan/Yuan2-2B-Mars-hf', cache_dir='./')​
​
# 定义模型路径​
path = './IEITYuan/Yuan2-2B-Mars-hf'​
lora_path = './output/Yuan2.0-2B_lora_bf16/checkpoint-51'​
​
# 定义模型数据类型​
torch_dtype = torch.bfloat16 # A10​
# torch_dtype = torch.float16 # P100​
​
# 定义一个函数，用于获取模型和tokenizer​
@st.cache_resource​
def get_model():​
    print("Creat tokenizer...")​
    tokenizer = AutoTokenizer.from_pretrained(path, add_eos_token=False, add_bos_token=False, eos_token='<eod>')​
    tokenizer.add_tokens(['<sep>', '<pad>', '<mask>', '<predict>', '<FIM_SUFFIX>', '<FIM_PREFIX>', '<FIM_MIDDLE>','<commit_before>','<commit_msg>','<commit_after>','<jupyter_start>','<jupyter_text>','<jupyter_code>','<jupyter_output>','<empty_output>'], special_tokens=True)​
​
    print("Creat model...")​
    model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch_dtype, trust_remote_code=True).cuda()​
    model = PeftModel.from_pretrained(model, model_id=lora_path)​
​
    return tokenizer, model​
​
# 加载model和tokenizer​
tokenizer, model = get_model()​
​
template = '''​
# 任务描述​
假设你是一个AI简历助手，能从简历中识别出所有的命名实体，并以json格式返回结果。​
​
# 任务要求​
实体的类别包括：姓名、国籍、种族、职位、教育背景、专业、组织名、地名。​
返回的json格式是一个字典，其中每个键是实体的类别，值是一个列表，包含实体的文本。​
​
# 样例​
输入：​
张三，男，中国籍，工程师​
输出：​
{"姓名": ["张三"], "国籍": ["中国"], "职位": ["工程师"]}​
​
# 当前简历​
query​
​
# 任务重述​
请参考样例，按照任务要求，识别出当前简历中所有的命名实体，并以json格式返回结果。​
'''​
​
# 在聊天界面上显示模型的输出​
st.chat_message("assistant").write(f"请输入简历文本：")​
​
# 如果用户在聊天输入框中输入了内容，则执行以下操作​
if query := st.chat_input():​
​
    # 在聊天界面上显示用户的输入​
    st.chat_message("user").write(query)​
​
    # 调用模型​
    prompt = template.replace('query', query).strip()​
    prompt += "<sep>"​
    inputs = tokenizer(prompt, return_tensors="pt")["input_ids"].cuda()​
    outputs = model.generate(inputs, do_sample=False, max_length=1024) # 设置解码方式和最大生成长度​
    output = tokenizer.decode(outputs[0])​
    response = output.split("<sep>")[-1].replace("<eod>", '').strip()​
​
    # 在聊天界面上显示模型的输出​
    st.chat_message("assistant").write(f"正在提取简历信息，请稍候...")​
​
    st.chat_message("assistant").table(pd.DataFrame(json.loads(response)))​
​