中文大模型数据集

avatar
作者
筋斗云
阅读量:2

中文端到端数据集

CATSLU

2、完成融合coig以及catslu数据的指令微调,在catslu测试数据集上效果验证domain acc=0.646,

中文指令数据集

BELLE

贝壳发布了多个指令数据集,包括多轮对话、数学题、角色对话等指令数据。
350万条多轮对话数据:BelleGroup/train_3.5M_CN · Datasets at Hugging Face
80万条多轮对话数据: BelleGroup/multiturn_chat_0.8M · Datasets at Hugging Face
25万条中文数学题:BelleGroup/school_math_0.25M · Datasets at Hugging Face
40万条角色对话数据:BelleGroup/generated_chat_0.4M · Datasets at Hugging Face
200万条中文指令数据: BelleGroup/train_2M_CN · Datasets at Hugging Face
100万条中文指令数据: BelleGroup/train_1M_CN · Datasets at Hugging Face
50万条中文指令数据: BelleGroup/train_0.5M_CN · Datasets at Hugging Face

COIG

由北京智源研究院等机构发布。其特点是数据类型非常丰富、数据量非常大。
17万条中文指令数据COIG:BAAI/COIG · Datasets at Hugging Face
238GB大小的指令数据COIG-PC:BAAI/COIG-PC · Datasets at Hugging Face
COIG-PC-Lite是COIG-PC的子集,每个任务只包含200条数据: BAAI/COIG-PC-Lite · Datasets at
Hugging Face

Firefly

115万条指令数据,包含23个类别。数据长度也几乎在400以内。
huggingface 链接:YeungNLP/firefly-train-1.1M · Datasets at Hugging Face

MOSS

110万中英文多轮对话数据 fnlp/moss-003-sft-data · Datasets at Hugging Face
安全性指令数据,指令是参考self-instruct的方式构建,回应是调用text-davinci-003生成的: fnlp/moss-002-sft-data · Datasets at Hugging Face

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!