赞
踩
import pandas as pd
导入pandas,用于后续读取和处理CSV数据。pandas为处理表格和时间序列数据提供了高效的数据结构。
train_df = pd.read_csv('./csv_data/train.csv')
test_df = pd.read_csv('./csv_data/test.csv')
print(train_df.info())
res = [] for i in range(len(train_df)): # 构造每一项 tmp = { "instruction": "判断是否医学论文", "input": "标题:"+title+" 摘要:"+abstract, "output": label } res.append(tmp) # 保存到json文件 import json with open('paper_label.json', 'w') as f: json.dump(res, f)
from peft import PeftModel
from transformers import AutoTokenizer, AutoModel
model_path = "./chatglm2-6b"
model = AutoModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = PeftModel.from_pretrained(model, 'output_dir')
def predict(text):
input = f"判断是否医学论文:{text}"
response = model.chat(tokenizer, input)
return response
predictions = []
for i in range(len(test_df)):
text = 获取测试集论文信息
pred = predict(text)
predictions.append(pred)
submit = test_df[['id', 'keywords', 'predictions']]
submit.to_csv('submit.csv', index=False)
ChatGLM2-6B是一个基于Transformer架构预训练的巨大语言模型,它通过在大规模文本语料上进行自监督学习,获得了强大的语言理解和生成能力。
通过微调+Prompt设计,ChatGLM2-6B可以高效地进行文本二分类,完全利用了其强大的语言理解能力,并优于传统的分类模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。