超全大模型资源汇总|30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!

原文约5500字,阅读约需13分钟。发表于:

该数据集包含 23,659 个人工翻译的 PAWS 评估对,以及 296,406 个机器翻译的训练对,采用 6 种不同的语言:法语、西班牙语、德语、中文、日语和韩语。LongAlign-10k 由清华大学提出,是一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。可用于训练高质量的对话模型。该数据集来自讯飞 AIUI开放平台,包含真实用户的语料和专家构造的语料(比例约为 3:7),共 59 个真实域,是目前域最多的对话数据集之一。

HyperAI超神经为开发者提供了15个优质公共数据集、15个优质开源模型和8个优质教程,方便选择和下载适配开发需求的模型和数据集。资源包括各领域数据集和大模型,如序列猴子数据集、大规模信息抽取语料库、大模型长上下文对齐数据集、Mixtral-8x7B、C4AI Command-R、金融大模型deepmoney-34B-chat等。还提供了一些教程,如在线运行通义千问Qwen1.5-MoE、Qwen-14B-Chat-Int4模型Gradio Demo等。

相关推荐 去reddit讨论