分类 语言大模型 下的文章

大型语言模型的培训依赖于海量且多样化的数据资源。构建高品质的训练数据集对于这些模型的开发至关重要。尽管对于大规模模型的理论分析和解释仍不甚完善,且对于训练所用语言数据的精确说明和界定尚显不足,但广泛的研究共识认为,训练数据对于提升语言模型的性能和样本的泛化能力起着核心作用。为了增强模型的泛化和适应性,预训练数据应包含多种形式,如互联网内容、书籍、学术论文、百科全书以及社交媒体内容等,并且应尽可能广泛地覆盖不同的领域、语种、文化背景和不同的观点。

一、数据来源

大型语言模型所需的数据资源大致可分为通用数据和专业数据两类。通用数据涵盖了网页内容、图书、新闻报道、对话文本等,以其庞大的规模、多样性和易于获取的特点,为大型语言模型提供了基础的语言建模和泛化能力。而专业数据则包括多语言资料、科学文献、编程代码以及特定领域的专有信息等,这些在预训练阶段的引入,能够显著增强大型语言模型解决特定任务的能力。

1.通用数据

通用数据在大型语言模型训练数据中占比通常非常高,主要包括网页、书籍、对话文本等类型,为大型语言模型提供了大规模且多样的训练数据。

(1)网页数据
(Webpages)是通用数据中数量最大的一类。随着互联网的大规模普及,人们通过网站、论坛、博客、APP等各种类型网站和应用,创造了海量的数据。

维基百科:高质量。

(2)书籍
作为训练材料,语言模型得以接触丰富的词汇资源,这极大地提升了模型对不同领域和主题的理解力。与其他类型的语料相比,书籍通常提供了更加丰富和完整的长篇文本材料,它们是获取长文本书面语数据的主要,有时甚至是唯一来源。书籍中的完整句子和段落结构使得语言模型能够学习并理解上下文之间的联系,这对于模型把握句子的复杂结构、逻辑关系以及语义连贯性至关重要。书籍内容包括了多种文体和风格,如小说、科学论著、历史文献等,训练时使用这些书籍数据能够让模型掌握多样的写作风格和表达技巧,从而增强模型在处理各类文本时的能力。

2.专业数据

专业数据虽在大型通用语言模型的训练数据中所占比重不高,但其对于提升模型在特定下游任务中的表现具有关键性作用。专业数据的类型繁多,而目前大型语言模型训练中常用的专业数据主要包括以下三类:

(1). 多语言数据:
这类数据包含了除英语以外的多种语言资源,它们对于构建能够理解和生成多语言文本的模型至关重要。多语言数据的引入能够帮助模型更好地服务于全球用户,提高其跨语言的交流能力和文化敏感性。

(2). 科学文本:
科学文本包括但不限于学术论文、研究报告、专业期刊等,这些文本通常包含专业术语和复杂概念。通过训练模型理解和处理这类文本,可以显著提高模型在学术研究和专业知识领域的应用能力。

(3). 代码:
代码数据涉及各种编程语言的源代码,这对于开发能够理解和生成代码的模型尤为重要。模型通过学习代码的结构和语法,可以在软件开发、代码审查和自动编程等任务中发挥作用。

二、数据处理

1.书籍

书籍按照格式一般分为:word、pdf(扫描版、非扫描版)、txt、网页。

txt和网页版本相对好处理。word版本也好处理一些,占比最多和最难处理的就是pdf格式,pdf格式书籍又分为扫描版、非扫描版,扫描版需要做ocr识别,准确率会更低,本文不在研究。主要研究非扫描版的pdf格式。

较好的预训练数据要求:
1.知识层次划分
同一个知识点要在一个样本中,不要切分,例如可以按照章节切分

2.段落之间要有换行符\n (有争议)
多个段落拼接要有换行符"\n",

3.同一段落不要切分
pdf识别成txt过程中,容易将一个段落切分成多个,需要识别拼接。

4.模型支持长度
如果模型预处理最长能处理4096个token,那么样本的长度在4096以内。

5.特殊符号处理
将\t 、URL、图片链接、表格、表情符号、流程图等和语义无关的都清洗掉

比较好的样本如下:


{"text": "气管旁淋巴结,再进入颈深下淋巴结。\n第一章喉的应用解剖学及生理学313\n颈深淋\n结上群/1酱它百订日喉前淋巴结\n颈总动脉\n颈内静脉气管前淋巴结\n(1)喉矢状断面内面观(2)喉的淋巴
引流\n八、喉的神经\n喉的神经为喉上神经和喉返神经(图5-1-11、图5-1-12),两者均为迷走神经分支。\n结状神经节喉上神经喉上神经喉上神经喉上神经喉内支喉上神经喉外支迷走神经迷走押经迷走神经迷走神经图5-1-11喉的神经(正面观)图5-1-12喉的神经(背面观)\n喉上神经(superior laryngeal nerve)是迷走神经在结状神经节发出的分支,下行约2cm到达舌骨大角平面处分为内、外两>支。内支主要司感觉,外支主要司运动。内支和喉上动、静脉伴行穿过舌甲膜,分布于声门上区黏膜,司该处黏膜的感觉。外支在胸骨甲状肌肌健附着的深面行走,支配环甲肌的运动。\n喉返神经(recurrent laryngeal nerve)是喉的主要运动神经。迷走神经进入胸腔后在胸腔上部分出喉返神经,左侧喉返神经绕主动脉弓,右侧绕锁骨下动脉,继而上行,走行于甲状腺深面的气管食管沟处发出数个分支支配颈段气管食管>黏膜,主干在环甲关节后方入喉。支配除环甲肌以外的喉内各肌的运动,但亦有一些感觉支司声门下区黏膜的感觉。\n九、小儿喉部的解剖特点\n小儿喉部的解剖与成入有不同之处,其主要特点是:\\朴岔1.小儿
喉部黏膜下组织较疏松,炎症时容易发生肿胀。小儿喉腔尤其是声门区又特别窄小,所以小儿发生急性喉炎时容易发生喉阻塞,引起呼吸困难。2.小儿喉的位置较成入高,3个月的婴儿,其环状软骨弓相当于第4颈椎下缘水平;6岁时降至第5颈椎。3.小儿喉软骨尚未钙化,较成人软,行小儿甲状软骨和环状软骨触诊时,其感觉不如成人的明显。\n第二节喉的生理学\n喉的生理功能主要有四个方面,现分述如下:\n1呼吸功>
能喉是呼吸通道的重要组成部分,喉的声门裂又是呼吸通道最狭窄处,正常情况下中枢神经系统通过喉神经控制声带运动,调节声门裂的大小。当人们运动时声带外展,声门裂变大,以便吸入更多的空气。反之,
安静时声门裂变小,吸入的空气减少。\n2.发声功能喉是发声器官,人发声的主要部位是声带。喉如何发出各种声音的机制较为复杂,目前多数学者认为:发声时中枢神经系统通过喉神经使声带内收,再通过从肺呼出气体使声带发生振动形成基频,经咽、口、鼻腔的共鸣,舌、软腮、齿、颊、唇的构音器官运动,从而发出各种不同声音和言语。\n关于声带如何振动有不同的学说,目前比较公认的是“体-被覆层(body-cover)"黏膜波学说。其主要原理是:声带内收,声门闭合;声韧带和其下肌层构成声带体部(body),起固定声带、保持声带一定张力、维持声门一定阻力的作用。由于声门下气流的压力作用,冲开上皮层和浅固有>层构成的被覆层(cover),引起声门开放,由千伯努利效应(Bernoulli effect)声带靠拢声门又闭合,再开放、再闭合反复进行。被覆层在开放关闭时形成的黏膜波可经动态喉镜观察到。由于声带有规律地关闭产>生一系列振动,造成空气疏密相间的波动,形成声门波,即形成人发音的基频。\n3.保护下呼吸道功能喉对下呼吸道有保护作用。吞咽时,喉被上提,会厌向后下盖住喉入口,形成保护下呼吸道的第一道防线。两
侧室带内收向中线靠拢,形成第二道防线。声带也内收、声门闭合,形成第三道防线。在进食时,这三道防线同时关闭,食管口开放,食物经梨状窝进入食管。偶有食物或分泌物进入喉腔或下呼吸道,则会引起剧烈的反射性咳嗽,将其咳出。\n4.屏气功能当机体在完成某些生理功能时,例如咳嗽、排便、分挽、举重物等时,需增加胸腔和腹腔内的压力,此时声带内收、声门紧闭,这就是通常所说的屏气。屏气多随吸气之
后,此时呼吸暂停,胸腔固定,脯肌下移,胸廓肌肉和腹肌收缩。声门紧闭时间随需要而定,咳嗽时声门紧闭时间短,排便、分挽、举重物等时声门紧闭时间较长。"}

一、背景

阐述了时下主流的预训练框架及其区别。主要有三种:
1、autoregressive自回归模型(AR模型):代表作GPT。本质上是一个left-to-right的语言模型。通常用于生成式任务,在长文本生成方面取得了巨大的成功,比如自然语言生成(NLG)领域的任务:摘要、翻译或抽象问答。当扩展到十亿级别参数时,表现出了少样本学习能力。缺点是单向注意力机制,在NLU任务中,无法完全捕捉上下文的依赖关系。

2、autoencoding自编码模型(AE模型):代表作BERT。是通过某个降噪目标(比如MLM)训练的双向文本编码器。编码器会产出适用于NLU任务的上下文表示,但无法直接用于文本生成。

3、encoder-decoder(Seq2seq模型):代表作T5。采用双向注意力机制,通常用于条件生成任务,比如文本摘要、机器翻译等。

三种预训练框架各有利弊,没有一种框架在以下三种领域的表现最佳:自然语言理解(NLU)、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点。

二、GLM预训练框架
GLM有什么特点?又是如何将其他框架的优势巧妙融合的呢?

1、自编码思想:在输入文本中,随机删除连续的tokens。

2、自回归思想:顺序重建连续tokens。在使用自回归方式预测缺失tokens时,模型既可以访问corrupted文本,又可以访问之前已经被预测的spans。

3、span shuffling + 二维位置编码技术。

4、通过改变缺失spans的数量和长度,自回归空格填充目标可以为条件生成以及无条件生成任务预训练语言模型。

2.1 预训练任务1: 自回归空格填充任务(Autoregressive Blank Infilling)

a05fb0289ffc1e7b1164d029530111b1.png

1、输入x可以被分成两部分:

Mask的token方面:
一个句子随机抽连续的几个token出来,用一个Span盖住,再把Span随机打乱(为了充分捕捉不同Span之间的相互依赖关系,我们随机排列跨度的顺序,类似于排列语言模型)

  • A是原始序列,B是被Span的序列
  • 被mask的部分:
    1.单向注意力(只能前面预测后面)

2.不参与预测没有被Mask的部分

  • 没有被Mask的部分:
    1.双向注意力(前后双向预测)
  • 有两点很关键:前面的Span会参与后面的Span的预测中,考虑了Span和Span之间的关系

2、二维位置编码:

Transformer使用位置编码来标记tokens中的绝对和相对位置。在GLM中,使用二维位置编码,第一个位置id用来标记Part A中的位置,第二个位置id用来表示跨度内部的相对位置。这两个位置id会通过embedding表被投影为两个向量,最终都会被加入到输入token的embedding表达中。

3、观察GLM中自定义attention mask的设计,非常巧妙:

(1)Part A中的tokens彼此可见,但是不可见B中的任意tokens。

(2)Part B tokens可见Part A。

(3)Part B tokens可见B中过去的tokens,不可见B中未来的tokens。

4、采样方式:文本片段的采样遵循泊松分布,重复采样,直到原始tokens中有15%被mask。

5、总结:模型可以自动学习双向encoder(Part A)以及单向decoder(Part B)。

2.2 多目标预训练

上述方法适合于NLU任务。作者希望可以训练一个既可以解决NLU任务,又具备文本生成能力的模型。因此除了空格填充目标之外,还需要增加一个生成长文本目标的任务。具体包含以下两个目标:

1、文档级别。从文档中采样一个文本片段进行mask,且片段长度为文档长度的50%~100%。这个目标用于长文本生成。

2、句子级别。限制被mask的片段必须是完整句子。多个片段需覆盖原始tokens的15%。这个目标是用于预测完整句子或者段落的seq2seq任务。

2.3 模型结构

GLM在原始single Transformer的基础上进行了一些修改:

1)重组了LN和残差连接的顺序;

2)使用单个线性层对输出token进行预测;

3)激活函数从ReLU换成了GeLUS。

但我觉得这部分的修改比较简单常见。核心和亮点还是空格填充任务的设计。

2.4 GLM微调

对于下游NLU任务来说,通常会将预训练模型产出的序列或tokens表达作为输入,使用线性分类器预测label。所以预训练与微调之间存在天然不一致。

作者按照PET的方式,将下游NLU任务重新表述为空白填充的生成任务。具体来说,比如给定一个已标注样本(x, y),将输入的文本x转换成一个包含mask token的完形填空问题。比如,情感分类任务可以表述为:"{SENTENCE}. It’s really [MASK]"。输出label y也同样会被映射到完形填空的答案中。“positive” 和 “negative” 对应的标签就是“good” 和 “bad。

其实,预训练时,对较长的文本片段进行mask,以确保GLM的文本生成能力。但是在微调的时候,相当于将NLU任务也转换成了生成任务,这样其实是为了适应预训练的目标。但难免有一些牵强。

参考:
https://blog.csdn.net/RandyHan/article/details/132722289
https://blog.csdn.net/weixin_42878111/article/details/134017313
https://zhuanlan.zhihu.com/p/630134021

文档可以参考:
https://juejin.cn/post/7301909180230074420

基于ChatGPT Training Pipeline,融入领域增量知识,进行训练预训练,需要进行四阶段训练:

第一阶段:PT(Continue PreTraining)增量预训练,在海量领域文档数据上二次预训练GPT模型,以注入领域知识
第二阶段:SFT(Supervised Fine-tuning)有监督微调,构造指令微调数据集,在预训练模型基础上做指令精调,以对齐指令意图
第三阶段:RM(Reward Model)奖励模型建模,构造人类偏好排序数据集,训练奖励模型,用来对齐人类偏好,主要是"HHH"原则,具体是"helpful, honest, harmless"
第四阶段:RL(Reinforcement Learning)基于人类反馈的强化学习(RLHF),用奖励模型来训练SFT模型,生成模型使用奖励或惩罚来更新其策略,以便生成更高质量、更符合人类偏好的文本

一、模型介绍

1、 训练数据集

50 万条中文 ChatGPT 指令 Belle 数据集:BelleGroup/train_0.5M_CN:https://huggingface.co/datasets/BelleGroup/train_0.5M_CN
100 万条中文 ChatGPT 指令 Belle 数据集:BelleGroup/train_1M_CN:https://huggingface.co/datasets/BelleGroup/train_1M_CN
5 万条英文 ChatGPT 指令 Alpaca 数据集:50k English Stanford Alpaca dataset:
https://github.com/tatsu-lab/stanford_alpaca#data-release
2 万条中文 ChatGPT 指令 Alpaca 数据集:shibing624/alpaca-zh:
https://huggingface.co/datasets/shibing624/alpaca-zh
69 万条中文指令 Guanaco 数据集 (Belle50 万条 + Guanaco19 万条):Chinese-Vicuna/guanaco_belle_merge_v1.0 :
https://huggingface.co/datasets/Chinese-Vicuna/guanaco_belle_merge_v1.0
240 万条中文医疗数据集 (包括预训练数据和指令微调数据集):shibing624/medical:
https://huggingface.co/datasets/shibing624/medical

2、继续预训练 Continual pretraining

参考 LLaMA 模型的增量预训练方法、资源和时间:
原始数据包含英文和中文,其中英文数据来自 openwebtext、Books、Wikipedia 和 Code,中文数据来自清洗后的悟道数据集、自建的中文数据集。在对原始数据进行去重、模型打分、数据分桶、规则过滤、敏感主题过滤和数据评估后,最终得到 125B tokens 的有效数据。
为了解决 LLaMA 原生分词对中文编解码效率低下的问题,我们在 LLaMA 词表的基础上增加了 7k + 个常见中文字,通过和 LLaMA 原生的词表去重,最终得到一个 39410 大小的词表,并通过复用 Transformers 里 LlamaTokenizer 来实现了这一效果。
在增量训练过程中,我们使用了 160 张 40GB 的 A100,采用 2.6M tokens 的训练集样本数量和 FP 16 的混合精度,吞吐量达到 118 TFLOP per GPU per second。因此我们能够在 8 天的时间里在原生的 LLaMA-13B 模型基础上,增量训练 110B tokens 的数据。
训练期间,虽然遇到了机器宕机、底层框架 bug、loss spike 等各种问题,但我们通过快速调整,保证了增量训练的稳定性。我们也放出训练过程的 loss 曲线,让大家了解可能出现的问题。

微信截图_20231124111636.png

Training Pipeline

Training Stage:

StageIntroductionPython scriptShell script
Continue Pretraining增量预训练pretraining.pyrun_pt.sh
Supervised Fine-tuning有监督微调supervised_finetuning.pyrun_sft.sh
Direct Preference Optimization直接偏好优化dpo_training.pyrun_dpo.sh
Reward Modeling奖励模型建模reward_modeling.pyrun_rm.sh
Reinforcement Learning强化学习rl_training.pyrun_rl.sh

一、基座模型选择指标

(1)模型大小 9分 :
(2)Token size 6分 :模型包含知识的能力
(3)各种官方测评 10分 :以中文测评为主
(4)支持上下文长度 3分:4K基本上都能满足要求
(5)base 7分 :生态支持
(6)测评排名 7分:模型综合能力体现
(7)开发难度 3分:预训练代码是否开源,官方是否有多机多卡示例
(8)可持续更新的前景8分 :是否满足本公司的生态
(9)基座公司实力:4分
(10)github的star数量 5分:模型受欢迎程度
(11)语言 2分 :所选模型都支持中英文

二、生态角度分类

1.LLaMa系列

(1)baichuan
(2)Yi
(3)TigerBot
(4)XuanYuan-70B
(5)Chinese-LLaMA-Alpaca、Chinese-LLaMA-Alpaca-2

2.bloom系列

(1)bloom
(2)Yuan-2.0
(3)BELLE

3.自研修改系列

(1)ChatGLM
(2)Qwen

三、官方测评排名

https://opencompass.org.cn/leaderboard-llm

微信截图_20240125172018.png

今年7月,上海AI实验室联合多家机构发布“书生通用大模型体系” ,包含三大基础模型及贯穿数据、预训练、微调、部署和评测五大环节的全链条工具体系。此次正式推出的OpenCompass,从评测角度进一步巩固了大模型创新的技术基石,以纯粹技术及中立视角为产学研界提供客观的大模型能力参考。

   加入评测及查看报告,可访问:

   官网链接 https://opencompass.org.cn

   开源链接 https://github.com/open-compass/opencompass

   六大亮点功能,提供专业模型评测
   作为高效、全面的大模型评测体系及开放平台,OpenCompass提供完整开源可复现的评测框架,支持大语言模型、多模态模型的一站式评测,基于分布式技术,对大参数量模型亦能实现高效评测。同时,通过零样本评测、小样本评测和思维链评测等多样化评测,OpenCompass可全方位量化模型在各个的维度能力。

底座选择

Model NameModel SizeToken size语言长度base选择
BLOOMZ560M/1.1B/1.7B/3B/7.1B/176B 多种,1%-bloomX
LLaMA7B/13B/33B/65B0.13%, LLaMaX
LLaMA-27B/13B/70Bllama2LLaMaX
Chinese-LLaMA-Alpaca7B/13B/33B120G LLaMaX
Baichuan7B/13B1.4 万亿 tokens LLaMaX
Baichuan27B/13B2.6 万亿 Tokens LLaMaX
InternLM2-Chat-20B 书生7B/20B3T tokens中英20kColossalAIX
XVERSE13B3.2 万 40多 X
ChatGLM6B1.4T中英-ChatGLMX
ChatGLM26B1.4T中英-ChatGLMX
ChatGLM36B1.4T中英-ChatGLMX
Yi6B/34B3T中英20kLLaMa
SUSChat-34B6B/34B3T中英20kLLaMa
OrionStar-Yi-34B-Chat6B/34B3T中英20kLLaMa
DeepSeek7B/67B2T中英4kLLaMa?
Yuan-2.02B/50B/102B288B中英4kbloom
TigerBot7B/13B/70B300B中英4kLLaMa
Qwen1.8B/7B/ 14B/74B3T tokens中英32kQwen
XuanYuan-70B13B/70B60G中英8kbloom->LLaMa
Yayi2-30B30B2T多语言8k?

首先可以排除几个备选模型:

(1)SUSChat-34B

SUS-Chat-34B模型是南方科技大学联合IDEA研究院CCNL团队开源的通用大模型, 2023-12-05在Huggingface的权威榜单上open_llm_leaderboard取得了同级别模型最好成绩。

SUS-Chat-34B是一个340亿参数规模的双语模型,基于01-ai/Yi-34B预训练模型通过数百万高质量、多语言的指令数据进行了微调。 在保持基础模型强大的语言能力的同时,SUS-Chat-34B模型通过高质量指令微调改善了模型对人类指令的响应方式,并擅长通过思维链的方式模仿人类思考过程。 与Yi-34B和Yi-34B-chat相比,它不仅在几乎所有基准测试中提升了性能,而且能够更好地满足了复杂多语言任务的实际需求。 在指令微调阶段,我们加入了大量高质量长文本和多轮对话指令数据,将文本窗口从基础模型的4K扩展到8K。 这种扩展有助于模型更有效地遵循多轮对话中的指令,显著减少在扩展对话和长文本理解中上下文丢失的问题。

SUS-Chat-34B模型具有以下亮点:

大规模复杂指令跟随数据:使用1.4B token的高质量复杂指令数据进行训练,涵盖中英文、多轮对话、数学、推理等多种指令数据;
强大的通用任务性能:SUS-Chat-34B模型在众多主流的中英文任务上表现出色,其效果超越了相同参数规模的其他开源的指令微调模型。即使与更大参数规模的模型相比,SUS-Chat-34B模型也具有不错的竞争力;
更长的上下文窗口与出色的多轮对话能力:目前,SUS-Chat-34B原生支持8K的上下文窗口,在大量多轮指令以及单多轮混合数据中进行训练,具有出色的长文本对话信息关注与指令跟随能力。
SUS-Chat-34B模型有力地证明了通过正确的指令微调,学术机构可以在不增加模型参数的情况下,通过开源的数据集和模型,获得更好的性能, 这弥合了学术界和工业界的在大语言模型上的差距,为学术界和工业界的合作提供了新的可能性。

(3)OrionStar-Yi-34B-Chat

OrionStar-Yi-34B-Chat 是猎户星空基于零一万物开源的Yi-34B模型,使用 15W+ 的高质量语料训练而来微调大模型,旨在为大模型社区用户提供卓越的交互体验。

Yi系列模型是由零一万物团队开源的大模型,在多个权威的中文、英文及通用领域 benchmark 上取得不错的效果。今天我们推出的Orionstar-Yi-34B-Chat更进一步挖掘了Yi-34B的潜力。通过对大量高质量微调语料库的深度训练,Orionstar-Yi-34B-Chat在评估数据上表现出色,我们致力于将其打造成为ChatGPT领域中的杰出开源替代品!

(4)XuanYuan-70B

第一版用了bloom,第二版用了llama,只是增量预训练的金融领域数据。
最懂金融领域的开源大模型“轩辕”系列,继176B、70B之后推出更小参数版本——XuanYuan-13B。这一版本在保持强大功能的同时,采用了更小的参数配置,专注于提升在不同场景下的应用效果。我们将在之后继续推出XuanYuan-13B量化版本
主要特点:

“以小搏大”的对话能力:在知识理解、创造、分析和对话能力上,可与千亿级别的模型相媲美
金融领域专家:在预训练和微调阶段均融入大量金融数据,大幅提升金融领域专业能力。在金融知识理解、金融业务分析、金融内容创作、金融客服对话几大方面展示出远超一般通用模型的优异表现
人类偏好对齐:通过人类反馈的强化学习(RLHF)训练,在通用领域和金融领域均与人类偏好进行对齐

30B左右模型选择

还剩下两个:(1)Yi (2) yayi-30B
从以下几个指标:基座模型选择指标 看Yi完胜

50B以上模型选择

可选的还剩下:
(1)Yuan-2.0(50B)
(2)DeepSeek(67B)、TigerBot(70B)、Qwen(74B)

DeepSeek(67B)

40126090036.png

四个模型的对比

英文:

1. MMLU:多任务语言理解:

“Mean Multi-Language Understanding”,中文意为“多语言理解均值(大规模多任务语言理解)是一种新的基准,旨在通过在zero-shot和few-shot设置中专门评估模型来衡量在预训练期间获得的知识。这使得基准更具挑战性,更类似于我们评估人类的方式。该基准涵盖 STEM、人文科学、社会科学等 57 个科目。它的难度从初级到高级专业水平不等,它考验着世界知识和解决问题的能力。科目范围从传统领域,如数学和历史,到更专业的领域,如法律和道德。主题的粒度和广度使基准测试成为识别模型盲点的理想选择。
MMLU是一个包含 57个多选问答任务的英文评测 数据集【多样性基准】,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平的人类知识,是目前主流的LLM评测数据集。

2、GSM8K :小学数学题

8.5千道高质量小学数学题,由人工编写答案。其中7.5K是训练集,1K是测试集。
论文:https://arxiv.org/pdf/2110.14168.pdf
排行榜:https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k
一句话点评:GSM8K 由数学题组成,主要考察模型的理解和推理能力。

3、MATH

数据集包含 12,500 个数学问题(其中 7500 个属于训练集,5000 个属于测试集),这些问题收集自 AMC 10、AMC 12、AIME 等数学竞赛。

**4、HumanEval数据集
包括164个人工手写的编程问题,其中每个编程问题包括函数头、docstrings、函数体和几个unittests。HumanEval中的编程问题可以用来评估语言理解能力、推理能力、算法能力和简单的数学能力。
整个设计是标准数答案,设定通过的checkpoint。aigc类的task是不是可以借鉴这样的思路去评测。**

5、MBPP数据集
包含974个编程任务,人给出所需程序的描述,引导模型生成正确的代码。
与HumanEval不一样的是,H主要是通过docString,而MBPP是通过description来生产,更加接近自然语言的instruction。

6、BBH
BBH 是一个挑战性任务 Big-Bench 的子集。Big-Bench 目前包括 204 项任务。任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面。

中文:
1.CEval:学科知识评测集

范围广泛:人文、社科、理工等52个学科。
数据形式:13948道单选题,涉及52个学科,4类不同难度(初中、高中、大学、专业)。
论文:https://arxiv.org/pdf/2305.08322.pdf
评测代码:https://github.com/hkust-nlp/ceval
排行榜:C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
一句话评价:C-Eval整体围绕学科知识,覆盖范围广、难度跨度合适,选择题适合快速评测,但是缺乏对生成表达能力的考察。

2、CMMLU 数据集
构建方式与C-EVAL貌似差不多。除了涵盖人文科学、社会科学、STEM(科学、技术、工程和数学)以及其他在人类日常生活中很重要的四个通用领域的知识外,还涵盖一些特定领域的知识,用于验证模型的中国知识的蕴含能力以及对中文的理解和适应能力。
范围广泛:常识类、人文、社科、理工等共67个主题(详见下图)
难易平衡:小学、中学、大学均有涉及
数据形式:11,528道单选题,其中67个主题每个主题至少105道题
论文:https://arxiv.org/pdf/2306.09212.pdf
评测代码:https://github.com/haonan-li/CMMLU
Huggingface: haonan-li/cmmlu · Datasets at Hugging Face
一句话评价:CMMLU整体围绕学科知识,覆盖范围广、难度跨度合适,选择题适合快速评测,但是缺乏对生成表达能力的考察。

ModelMMLUC-EvalGSM8KMATHHumanEvalMBPPBBHCMMLU
5-shot5-shot8-shot4-shot0-shot3-shot3-shot5-shot
LLaMA2-7B46.832.516.73.312.820.838.231.8
LLaMA2-13B55.041.429.65.018.930.345.638.4
LLaMA2-34B62.6-42.26.222.633.044.1-
ChatGLM2-6B47.951.732.46.5--33.7-
InternLM-7B51.053.431.26.310.414.037.051.8
InternLM-20B62.158.852.67.925.635.652.559.0
Baichuan2-7B54.756.324.65.618.324.241.657.1
Baichuan2-13B59.559.052.810.117.130.249.062.0
Yi-34B76.381.867.915.926.238.266.482.6
XVERSE-65B70.868.660.3-26.3---
Qwen-1.8B45.356.132.32.315.214.222.352.1
Qwen-7B58.263.551.711.629.931.645.062.2
Qwen-14B66.372.161.324.832.340.853.471.0
Qwen-72B77.483.378.935.235.452.267.783.6
DeepSeek LLM 67B Chat71.1 65.2 84.1- 73.8 - 71.7 67.8
TigerBot 68.03 67.75 84.91 - - - - -
Yuan-2.0(102B) - - 76.6 - 67.1 - - -

测评结果:
1.Yuan-2.0(102B) 论文和官网都是用102B进行测评,比不过DeepSeek(67B)、TigerBot(70B)、Qwen(74B),先排除
2.DeepSeek(67B)、TigerBot(70B)、Qwen(74B)三个排名,
Qwen(74B)排名第一
剩下:DeepSeek(67B)、TigerBot(70B)

DeepSeek:基座模型选择指标
(1)模型大小 5分 :
(2)Token size 8分 :模型包含知识的能力
(3)官方排序 4分 :以中文测评为主
(4)支持上下文长度 3分:4K基本上都能满足要求
(5)base 1分 :生态支持 (llama? issue:22个)
(6)测评排名 4分:模型综合能力体现
(7)开发难度 2分:预训练代码是否开源,官方是否有多机多卡示例
(8)可持续更新的前景3分 :是否满足本公司的生态
(9)基座公司实力:5分 (幻方量化)
(10)github的star数量 3分:(909)模型受欢迎程度
(11)语言 2分 :所选模型都支持中英文
总分:40分

TigerBot:基座模型选择指标
(1)模型大小 5分 :
(2)Token size 4分 :模型包含知识的能力
(3)官方排序 8分 :以中文测评为主
(4)支持上下文长度 3分:4K基本上都能满足要求
(5)base 5分 :生态支持 (llama ; issue:116个)
(6)测评排名 6分:模型综合能力体现
(7)开发难度 3分:预训练代码是否开源,官方是否有多机多卡示例
(8)可持续更新的前景5分 :是否满足本公司的生态
(9)基座公司实力:2分 (虎博科技几十人)
(10)github的star数量 5分:(2.1k)模型受欢迎程度
(11)语言 2分 :所选模型都支持中英文

总分:48分

Llama2

虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,

自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!

同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起PR,并按照本项目的格式提供仓库链接、star数,简介等相关信息,感谢~

LLM.png

常见底座模型细节概览:

底座名称模型参数大小训练token数训练最大长度是否可商用
ChatGLM6B1T2K可商用
ChatGLM26B1.4T32K可商用
LLaMA7B/13B/33B/65B1T2k不可商用
LLaMA27B/13B/33B/65B2T4k可商用
BLOOM1B7/7B1/176B-MT1.5T2k可商用
Baichuan7B/13B1.2T/1.4T4k可商用
Falcon7B/40B1.5T2k可商用
Qwen7B/7B-Chat2.2T8k可商用
Aquila7B/Chat-7B-2k可商用

目录

1. 模型

1.1 文本LLM模型

  • ChatGLM:

    • 地址:https://github.com/THUDM/ChatGLM-6B
    • 简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持
  • ChatGLM2-6B

    • 地址:https://github.com/THUDM/ChatGLM2-6B
    • 简介:基于开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练;基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用;允许商业使用。
  • ChatGLM3-6B

    • 地址:https://github.com/THUDM/ChatGLM3
    • 简介:ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略;更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景;更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
  • Chinese-LLaMA-Alpaca:

  • Chinese-LLaMA-Alpaca-2:

  • Chinese-LlaMA2:

    • 地址:https://github.com/michael-wzhu/Chinese-LlaMA2
    • 简介:该项目基于可商用的LLaMA-2进行二次开发决定在次开展Llama 2的中文汉化工作,包括Chinese-LlaMA2: 对Llama 2进行中文预训练;第一步:先在42G中文预料上进行训练;后续将会加大训练规模;Chinese-LlaMA2-chat: 对Chinese-LlaMA2进行指令微调和多轮对话微调,以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案:Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据,对LlaMA-2进行直接微调 (将于近期开源)。
  • Llama2-Chinese:

    • 地址:https://github.com/FlagAlpha/Llama2-Chinese
    • 简介:该项目专注于Llama2模型在中文方面的优化和上层建设,基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级。
  • OpenChineseLLaMA:

    • 地址:https://github.com/OpenLMLab/OpenChineseLLaMA
    • 简介:基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。
  • BELLE:

    • 地址:https://github.com/LianjiaTech/BELLE
    • 简介:开源了基于BLOOMZ和LLaMA优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。
  • Panda:

    • 地址:https://github.com/dandelionsllm/pandallm
    • 简介:开源了基于LLaMA-7B, -13B, -33B, -65B 进行中文领域上的持续预训练的语言模型, 使用了接近 15M 条数据进行二次预训练。
  • Robin (罗宾):

    • 地址:https://github.com/OptimalScale/LMFlow
    • 简介:Robin (罗宾)是香港科技大学LMFlow团队开发的中英双语大语言模型。仅使用180K条数据微调得到的Robin第二代模型,在Huggingface榜单上达到了第一名的成绩。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。
  • Fengshenbang-LM:

    • 地址:https://github.com/IDEA-CCNL/Fengshenbang-LM
    • 简介:Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。除姜子牙系列模型之外,该项目还开源了太乙、二郎神系列等模型。
  • BiLLa:

    • 地址:https://github.com/Neutralzz/BiLLa
    • 简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。
  • Moss:

    • 地址:https://github.com/OpenLMLab/MOSS
    • 简介:支持中英双语和多种插件的开源对话语言模型,MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
  • Luotuo-Chinese-LLM:

    • 地址:https://github.com/LC1332/Luotuo-Chinese-LLM
    • 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。
  • Linly:

    • 地址:https://github.com/CVI-SZU/Linly
    • 简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。
  • Firefly:

    • 地址:https://github.com/yangjianxin1/Firefly
    • 简介:Firefly(流萤) 是一个开源的中文大语言模型项目,开源包括数据、微调代码、多个基于Bloom、baichuan等微调好的模型等;支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调;支持绝大部分主流的开源大模型,如百川baichuan、Ziya、Bloom、LLaMA等。持lora与base model进行权重合并,推理更便捷。
  • ChatYuan

    • 地址:https://github.com/clue-ai/ChatYuan
    • 简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。
  • ChatRWKV:

    • 地址:https://github.com/BlinkDL/ChatRWKV
    • 简介:开源了一系列基于RWKV架构的Chat模型(包括英文和中文),发布了包括Raven,Novel-ChnEng,Novel-Ch与Novel-ChnEng-ChnPro等模型,可以直接闲聊及进行诗歌,小说等创作,包括7B和14B等规模的模型。
  • CPM-Bee

    • 地址:https://github.com/OpenBMB/CPM-Bee
    • 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
  • TigerBot

    • 地址:https://github.com/TigerResearch/TigerBot
    • 简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。
  • 书生·浦语

    • 地址:https://github.com/InternLM/InternLM-techreport
    • 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。
  • Aquila

    • 地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
    • 简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。
  • Baichuan-7B

    • 地址:https://github.com/baichuan-inc/baichuan-7B
    • 简介:Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。该项目发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。
  • Baichuan-13B

    • 地址:https://github.com/baichuan-inc/Baichuan-13B
    • 简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
  • Baichuan2

    • 地址:https://github.com/baichuan-inc/Baichuan2
    • 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bits量化。
  • Anima

    • 地址:https://github.com/lyogavin/Anima
    • 简介:由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step,基于Elo rating tournament评估效果较好。
  • KnowLM

    • 地址:https://github.com/zjunlp/KnowLM
    • 简介:KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于Llama的抽取大模型智析,使用中英文语料对LLaMA(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。
  • BayLing

    • 地址:https://github.com/ictnlp/BayLing
    • 简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以LLaMA为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo,以供大家体验。
  • YuLan-Chat

    • 地址:https://github.com/RUC-GSAI/YuLan-Chat
    • 简介:YuLan-Chat是中国人民大学GSAI研究人员开发的基于聊天的大语言模型。它是在LLaMA的基础上微调开发的,具有高质量的英文和中文指令。 YuLan-Chat可以与用户聊天,很好地遵循英文或中文指令,并且可以在量化后部署在GPU(A800-80G或RTX3090)上。
  • PolyLM

    • 地址:https://github.com/DAMO-NLP-MT/PolyLM
    • 简介:一个在6400亿个词的数据上从头训练的多语言语言模型,包括两种模型大小(1.7B和13B)。PolyLM覆盖中、英、俄、西、法、葡、德、意、荷、波、阿、土、希伯来、日、韩、泰、越、印尼等语种,特别是对亚洲语种更友好。
  • Qwen-7B

    • 地址:https://github.com/QwenLM/Qwen-7B
    • 简介:通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型,使用了超过2.2万亿token的自建大规模预训练数据集进行语言模型的预训练。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域,能支持8K的上下文长度,针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为Agent。
  • huozi

    • 地址:https://github.com/HIT-SCIR/huozi
    • 简介:由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的70 亿参数模型,支持中英双语,上下文窗口长度为 2048,同时还开源了基于RLHF训练的模型以及全人工标注的16.9K中文偏好数据集。
  • YaYi

    • 地址:https://github.com/wenge-research/YaYi
    • 简介:雅意大模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。雅意大模型从预训练初始化权重到领域模型的迭代过程中,我们逐步增强了它的中文基础能力和领域分析能力,并增加了多轮对话和部分插件能力。同时,经过数百名用户内测过程中持续不断的人工反馈优化,进一步提升了模型性能和安全性。已开源基于 LLaMA 2 的中文优化模型版本,探索适用于中文多领域任务的最新实践。。
  • XVERSE-13B

    • 地址:https://github.com/xverse-ai/XVERSE-13B
    • 简介:由深圳元象科技自主研发的支持多语言的大语言模型,使用主流 Decoder-only 的标准Transformer网络结构,支持 8K 的上下文长度(Context Length),为同尺寸模型中最长,构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果;基于BPE算法使用上百GB 语料训练了一个词表大小为100,278的分词器,能够同时支持多语言,而无需额外扩展词表。
  • Skywork

    • 地址:https://github.com/SkyworkAI/Skywork
    • 简介:该项目开源了天工系列模型,该系列模型在3.2TB高质量多语言和代码数据上进行预训练,开源了包括模型参数,训练数据,评估数据,评估方法。具体包括Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。
  • Yi

    • 地址:https://github.com/01-ai/Yi
    • 简介:该项目开源了Yi-6B和Yi-34B等模型,该系列模型最长可支持200K的超长上下文窗口版本,可以处理约40万汉字超长文本输入,理解超过1000页的PDF文档。

1.2 多模态LLM模型

  • VisualGLM-6B

    • 地址:https://github.com/THUDM/VisualGLM-6B
    • 简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。
  • CogVLM

    • 地址:https://github.com/THUDM/CogVLM
    • 简介:一个强大的开源视觉语言模型(VLM)。CogVLM-17B 拥有 100 亿视觉参数和 70 亿语言参数。 CogVLM-17B 在 10 个经典跨模态基准测试上取得了 SOTA 性能。CogVLM 能够准确地描述图像,几乎不会出现幻觉。
  • VisCPM

    • 地址:https://github.com/OpenBMB/VisCPM
    • 简介:一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型)。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器(Q-Former)和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。
  • Visual-Chinese-LLaMA-Alpaca

    • 地址:https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca
    • 简介:基于中文LLaMA&Alpaca大模型项目开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力,目前开源了VisualCLA-7B-v0.1。
  • LLaSM

    • 地址:https://github.com/LinkSoul-AI/LLaSM
    • 简介:第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。目前开源了LLaSM-Chinese-Llama-2-7B、LLaSM-Baichuan-7B等模型与数据集。
  • Qwen-VL

    • 地址:https://github.com/QwenLM/Qwen-VL
    • 简介:是阿里云研发的大规模视觉语言模型,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

2. 应用

2.1 垂直领域微调

医疗

  • DoctorGLM:

  • BenTsao:

    • 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
    • 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。
  • BianQue:

    • 地址:https://github.com/scutcyr/BianQue
    • 简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。
  • HuatuoGPT:

  • Med-ChatGLM:

  • QiZhenGPT:

    • 地址:https://github.com/CMKRG/QiZhenGPT
    • 简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。
  • ChatMed:

    • 地址:https://github.com/michael-wzhu/ChatMed
    • 简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。
  • XrayGLM,首个会看胸部X光片的中文多模态医学大模型:

    • 地址:https://github.com/WangRongsheng/XrayGLM
    • 简介:该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。
  • MeChat,中文心理健康支持对话大模型:

    • 地址:https://github.com/qiuhuachuan/smile
    • 简介:该项目开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。
  • MedicalGPT

    • 地址:https://github.com/shibing624/MedicalGPT
    • 简介:训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora,基于Ziya-LLaMA-13B-v1模型,SFT微调了一版医疗模型,医疗问答效果有提升,发布微调后的LoRA权重。
  • Sunsimiao

    • 地址:https://github.com/thomas-yanxin/Sunsimiao
    • 简介:Sunsimiao是一个开源的中文医疗大模型,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。
  • ShenNong-TCM-LLM

    • 地址:https://github.com/michael-wzhu/ShenNong-TCM-LLM
    • 简介:该项目开源了ShenNong中医药大规模语言模型,该模型以LlaMA为底座,采用LoRA (rank=16)微调得到。微调代码与ChatMed代码库相同。此外该项目还开源了中医药指令微调数据集。
  • SoulChat

    • 地址:https://github.com/scutcyr/SoulChat
    • 简介:该项目开源了经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat),该模型以ChatGLM-6B作为初始化模型,进行了全量参数的指令微调。
  • CareGPT

    • 地址:https://github.com/WangRongsheng/CareGPT
    • 简介:该项目开源了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。
  • DISC-MedLLM

    • 地址:https://github.com/FudanDISC/DISC-MedLLM
    • 简介:该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-Med-SFT数据集基于Baichuan-13B-Base指令微调得到。
  • Taiyi-LLM

    • 地址:https://github.com/DUTIR-BioNLP/Taiyi-LLM
    • 简介:该项目由大连理工大学信息检索研究室开发的中英双语医学大模型"太一",收集整理了丰富的中英双语生物医学自然语言处理(BioNLP)训练语料,总共包含38个中文数据集,通过丰富的中英双语任务指令数据(超过100W条样本)进行大模型(Qwen-7B-base)指令微调,使模型具备了出色的中英双语生物医学智能问答、医患对话、报告生成、信息抽取、机器翻译、标题生成、文本分类等多种BioNLP能力。
  • WiNGPT

    • 地址:https://github.com/winninghealth/WiNGPT2
    • 简介:WiNGPT是一个基于GPT的医疗垂直领域大模型,基于Qwen-7b1作为基础预训练模型,在此技术上进行了继续预训练,指令微调等,该项目具体开源了WiNGPT2-7B-Base与WiNGPT2-7B-Chat模型。
  • ChiMed-GPT

    • 地址:https://github.com/synlp/ChiMed-GPT
    • 简介:ChiMed-GPT是一个开源中文医学大语言模型,通过在中文医学数据上持续训练 Ziya-v2 构建而成,其中涵盖了预训练、有监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 等训练过程。
法律

  • 獬豸(LawGPT_zh): 中文法律对话语言模型

    • 地址:https://github.com/LiuHC0428/LAW-GPT
    • 简介: 本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。
  • LaWGPT:基于中文法律知识的大语言模型

    • 地址:https://github.com/pengxiao-song/LaWGPT
    • 简介:该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。
  • LexiLaw:中文法律大模型

    • 地址:https://github.com/CSHaitao/LexiLaw
    • 简介:LexiLaw 是一个基于 ChatGLM-6B微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务,包括具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询。
  • Lawyer LLaMA:中文法律LLaMA

    • 地址:https://github.com/AndrewZhe/lawyer-llama
    • 简介:开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
  • 韩非(HanFei)

    • 地址: https://github.com/siat-nlp/HanFei
    • 简介: HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索等。
  • ChatLaw-法律大模型

    • 地址:https://github.com/PKU-YuanGroup/ChatLaw
    • 简介:由北大开源的一系列法律领域的大模型,包括ChatLaw-13B(基于姜子牙Ziya-LLaMA-13B-v1训练而来),ChatLaw-33B(基于Anima-33B训练而来,逻辑推理能力大幅提升),ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。
  • lychee_law-律知

    • 地址:https://github.com/davidpig/lychee_law
    • 简介:该项目由德国萨尔大学团队和中国南京大学团队合作开发,开源一系列中文司法领域大模型,如Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调得到的。
  • 智海-录问(wisdomInterrogatory)

    • 地址:https://github.com/zhihaiLLM/wisdomInterrogatory
    • 简介:该项目由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型,基于baichuan-7b进行了法律领域数据的二次预训练与指令微调,并设计了知识增强的推理流程。
  • 夫子•明察司法大模型

    • 地址:https://github.com/irlab-sdu/fuzi.mingcha
    • 简介:该项目由是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能。
  • DISC-LawLLM

    • 地址:https://github.com/FudanDISC/DISC-LawLLM
    • 简介:该项目由由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源的法律领域大模型,包括数据集,基于 Baichuan-13B-Base 进行微调的模型,且增加了检索增强模块。
金融

  • Cornucopia(聚宝盆):基于中文金融知识的LLaMA微调模型

    • 地址:https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese
    • 简介:开源了经过中文金融知识指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用GPT3.5 API构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。
  • BBT-FinCUGE-Applications

  • XuanYuan(轩辕):首个千亿级中文金融对话模型

    • 地址:https://github.com/Duxiaoman-DI/XuanYuan
    • 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
  • FinGPT

    • 地址:https://github.com/AI4Finance-Foundation/FinGPT
    • 简介:该项目开源了多个金融大模型,包括ChatGLM-6B/ChatGLM2-6B+LoRA和LLaMA-7B+LoRA的金融大模型,收集了包括金融新闻、社交媒体、财报等中英文训练数据。
  • DISC-FinLLM

    • 地址:https://github.com/FudanDISC/DISC-FinLLM
    • 简介:该项目由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源,项目中开源的资源包括:DISC-FinLLM-SFT训练数据样本,DISC-FinLLM模型参数(基于Baichuan-13B-Chat训练),DISC-Fin-Eval-Benchmark等。
教育
  • 桃李(Taoli):

    • 地址:https://github.com/blcuicall/taoli
    • 简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将知识应用到具体场景中的能力。
  • EduChat:

    • 地址:https://github.com/icalk-nlp/EduChat
    • 简介:该项目华东师范大学计算机科学与技术学院的EduNLP团队研发,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。
  • chatglm-maths:

    • 地址:https://github.com/yongzhuo/chatglm-maths
    • 简介:基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu部署,开源了训练数据集等。
  • MathGLM:

    • 地址:https://github.com/THUDM/MathGLM
    • 简介:该项目由THUDM研发,开源了多个能进行20亿参数可以进行准确多位算术运算的语言模型,同时开源了可用于算术运算微调的数据集。
  • QiaoBan:

    • 地址:https://github.com/HIT-SCIR-SC/QiaoBan
    • 简介:该项目旨在构建一个面向儿童情感陪伴的大模型,这个仓库包含:用于指令微调的对话数据/data,巧板的训练代码,训练配置文件,使用巧板进行对话的示例代码(TODO,checkpoint将发布至huggingface)。
科技
  • 天文大语言模型StarGLM:

    • 地址:https://github.com/Yu-Yang-Li/StarGLM
    • 简介:基于ChatGLM训练了天文大语言模型,以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象,为接下来可处理天文多模态任务、部署于望远镜阵列的观测Agent——司天大脑(数据智能处理)打下基础。
  • TransGPT·致远:

    • 地址:https://github.com/DUOMO/TransGPT
    • 简介:开源交通大模型,主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。
  • Mozi:

自媒体
  • MediaGPT:

    • 地址:https://github.com/IMOSR/MediaGPT
    • 简介:一个针对自媒体领域进行特殊训练的模型,首先在大规模自媒体语料上进行连续预训练,然后ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答,并利用这些数据对模型进行指令微调,开源一系列自媒体领域的指令微调数据和基于LLaMA训练的中文自媒体大模型的参数。
电商
  • EcomGPT

    • 地址:https://github.com/Alibaba-NLP/EcomGPT
    • 简介:一个由阿里发布的面向电商领域的语言模型,该模型基于BLOOMZ在电商指令微调数据集上微调得到,人工评估在12个电商评测数据集上超过ChatGPT。

2.2 LangChain应用

  • langchain-ChatGLM:

    • 地址:https://github.com/imClumsyPanda/langchain-ChatGLM
    • 简介:基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。建立了全流程可使用开源模型实现的本地知识库问答应用。现已支持使用 ChatGLM-6B 等大语言模型直接接入,或通过 fastchat api 形式接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型。
  • LangChain-ChatGLM-Webui:

    • 地址:https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui
    • 简介:利用LangChain和ChatGLM-6B系列模型制作的Webui, 提供基于本地知识的大模型应用。目前支持上传 txt、docx、md、pdf等文本格式文件, 提供包括ChatGLM-6B系列、Belle系列等模型文件以及GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano-zh等Embedding模型。
  • Langchain-ChatGLM-and-TigerBot:

  • Chinese-LangChain:

  • Lagent:

    • 地址:https://github.com/InternLM/lagent
    • 简介:Lagent 是一个轻量级、开源的基于大语言模型的智能体(agent)框架,支持用户快速地将一个大语言模型转变为多种类型的智能体。具体实现了多种类型的智能体,如经典的 ReAct,AutoGPT 和 ReWoo 等智能体。框架简单易拓展. 只需要不到20行代码你就能够创造出一个你自己的智能体(agent)。同时支持了 Python 解释器、API 调用和搜索三类常用典型工具。灵活支持多个大语言模型. 提供了多种大语言模型支持包括 InternLM、Llama-2 等开源模型和 GPT-4/3.5 等基于 API 的闭源模型。
  • DemoGPT:

  • ChatDev:

    • 地址:https://github.com/OpenBMB/ChatDev
    • 简介:ChatDev是一家虚拟软件公司,通过担任不同角色的各种智能代理进行运营,包括首席执行官、首席技术官、程序员、测试员等。 这些代理形成了一个多代理组织结构,并因“通过编程彻底改变数字世界”的使命而团结在一起。 ChatDev中的代理通过参加专门的功能研讨会进行协作,包括设计、编码、测试和记录等任务。

2.3 其他应用

  • wenda:

    • 地址:https://github.com/wenda-LLM/wenda
    • 简介:一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作,实现不亚于于大模型的生成能力。
  • JittorLLMs:

    • 地址:https://github.com/Jittor/JittorLLMs
    • 简介:计图大模型推理库:笔记本没有显卡也能跑大模型,具有成本低,支持广,可移植,速度快等优势。
  • LMFlow:

    • 地址:https://github.com/OptimalScale/LMFlow
    • 简介:LMFlow是香港科技大学LMFlow团队开发的大模型微调工具箱。LMFlow工具箱具有可扩展性强、高效、方便的特性。LMFlow仅使用180K条数据微调,即可得到在Huggingface榜单第一名的Robin模型。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。
  • fastllm:

    • 地址:https://github.com/ztxz16/fastllm
    • 简介:纯c++的全平台llm加速库,chatglm-6B级模型单卡可达10000+token / s,支持moss, chatglm, baichuan模型,手机端流畅运行。
  • WebCPM

  • GPT Academic:

    • 地址:https://github.com/binary-husky/gpt_academic
    • 简介:为GPT/GLM提供图形交互界面,特别优化论文阅读润色体验,支持并行问询多种LLM模型,支持清华chatglm等本地模型。兼容复旦MOSS, llama, rwkv, 盘古等。
  • ChatALL:

    • 地址:https://github.com/sunner/ChatALL
    • 简介:ChatALL(中文名:齐叨)可以把一条指令同时发给多个 AI,可以帮助用户发现最好的回答。
  • CreativeChatGLM:

    • 地址:https://github.com/ypwhs/CreativeChatGLM
    • 简介:可以使用修订和续写的功能来生成创意内容,可以使用“续写”按钮帮 ChatGLM 想一个开头,并让它继续生成更多的内容,你可以使用“修订”按钮修改最后一句 ChatGLM 的回复。
  • docker-llama2-chat:

  • ChatGLM2-Voice-Cloning:

  • Flappy

3. 数据集

预训练数据集

  • MNBVC

    • 地址:https://github.com/esbatmop/MNBVC
    • 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。
  • WuDaoCorporaText

    • 地址:https://data.baai.ac.cn/details/WuDaoCorporaText
    • 数据集说明:WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。
  • CLUECorpus2020

    • 地址:https://github.com/CLUEbenchmark/CLUECorpus2020
    • 数据集说明:通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料,可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。
  • WanJuan-1.0

    • 地址:https://opendatalab.org.cn/WanJuan1.0
    • 数据集说明:书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。 目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。

SFT数据集

  • RefGPT:基于RefGPT生成大量真实和定制的对话数据集

    • 地址:https://github.com/DA-southampton/RedGPT
    • 数据集说明:包括RefGPT-Fact和RefGPT-Code两部分,其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话,RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。
  • COIG

    • 地址:https://huggingface.co/datasets/BAAI/COIG
    • 数据集说明:维护了一套无害、有用且多样化的中文指令语料库,包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。
  • generated_chat_0.4M:

  • alpaca_chinese_dataset:

  • Alpaca-CoT:

    • 地址:https://github.com/PhoebusSi/Alpaca-CoT
    • 数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。
  • pCLUE:

    • 地址:https://github.com/CLUEbenchmark/pCLUE
    • 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。
  • firefly-train-1.1M:

  • BELLE-data-1.5M:

  • Chinese Scientific Literature Dataset:

    • 地址:https://github.com/ydli-ai/csl
    • 数据集说明:中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的prompt
  • Chinese medical dialogue data:

    • 地址:https://github.com/Toyhom/Chinese-medical-dialogue-data
    • 数据集说明:中文医疗对话数据集,包括:<Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对 总计 792099个问答对。
  • Huatuo-26M:

    • 地址:https://github.com/FreedomIntelligence/Huatuo-26M
    • 数据集说明:Huatuo-26M 是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人、智能诊断系统等需要的重要资源。
  • Alpaca-GPT-4:

  • InstructionWild

    • 地址:https://github.com/XueFuzhao/InstructionWild
    • 数据集说明:InstructionWild 是一个从网络上收集自然指令并过滤之后使用自然指令结合 ChatGPT 接口生成指令微调数据集的项目。主要的指令来源:Twitter、CookUp.AI、Github 和 Discard。
  • ShareChat

    • 地址:https://paratranz.cn/projects/6725
    • 数据集说明:一个倡议大家一起翻译高质量 ShareGPT 数据的项目。
    • 项目介绍:清洗/构造/翻译中文的ChatGPT数据,推进国内AI的发展,人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。
  • Guanaco

  • chatgpt-corpus

  • SmileConv

    • 地址:https://github.com/qiuhuachuan/smile
    • 数据集说明:数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。

偏好数据集

  • CValues

    • 地址:https://github.com/X-PLUG/CValues
    • 数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个prompt包括了拒绝&正向建议 (safe and reponsibility) > 拒绝为主(safe) > 风险回复(unsafe)三种类型,可用于增强SFT模型的安全性或用于训练reward模型。
  • GPT-4-LLM

  • zhihu_rlhf_3k

    • 地址:https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k
    • 数据集说明:该项目开源了3k+条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高(chosen)和较低(rejected)的回答,可以用于奖励模型的训练。
  • hh_rlhf_cn

    • 地址:https://huggingface.co/datasets/dikw/hh_rlhf_cn
    • 数据集说明:基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据,使用翻译工具进行了翻译。
  • chatbot_arena_conversations

  • UltraFeedback

    • 地址:https://github.com/OpenBMB/UltraFeedback
    • 数据集说明:该数据集是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评者模型。该工作从各种资源(包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN,数据集统计数据请参见此处)中收集了约64k条提示。然后使用这些提示来查询多个LLM(模型列表请参见此处),并为每个提示生成4个不同的回复,从而得到总共256k个样本。

4. LLM训练微调框架

  • DeepSpeed Chat:

    • 地址:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat
    • 简介:该项目提供了一键式RLHF训练框架,只需一个脚本即可实现多个训练步骤,包括SFT,奖励模型微调和基于人类反馈的强化学习(RLHF),此外还实现了DeepSpeed HE,统一的高效混合引擎,达到训练和推理引擎之间的过渡是无缝的。
  • LLaMA Efficient Tuning:

    • 地址:https://github.com/hiyouga/LLaMA-Efficient-Tuning
    • 简介:该项目提供了易于使用的基于PEFT的LLaMA微调框架,实现了包括全参数,LoRA,QLoRA等的预训练,指令微调和RLHF,并支持LLaMA, BLOOM, Falcon, Baichuan, InternLM等底座模型。
  • ChatGLM Efficient Tuning:

  • bert4torch:

    • 地址:https://github.com/Tongjilibo/bert4torch
    • 简介:该项目提供了一个大模型的训练和部署框架,包含了目前主要的开源大模型,llama系列,chatglm,bloom系列等等,同时还给出了预训练和微调的示例。

5. LLM推理部署框架

  • vLLM:

    • 地址:https://github.com/vllm-project/vllm
    • 简介:适用于大批量Prompt输入,并对推理速度要求高的场景。吞吐量比HuggingFace Transformers高14x-24倍,比HuggingFace Text Generation Inference(TGI)高2.2x-2.5倍,实现了Continuous batching和PagedAttention等技巧。但该框架对适配器(LoRA、QLoRA等)的支持不友好且缺少权重量化。
  • DeepSpeed-MII:

  • text-generation-inference:

    • 地址:https://github.com/huggingface/text-generation-inference
    • 简介:用于文本生成推断的Rust、Python和gRPC部署框架,可以监控服务器负载,实现了flash attention和Paged attention,所有的依赖项都安装在Docker中:支持HuggingFace模型;但该框架对适配器(LoRA、QLoRA等)的支持不友好。
  • CTranslate2

    • 地址:https://github.com/OpenNMT/CTranslate2
    • 简介:基于C++和python的推理框架,支持在CPU和GPU上并行和异步执行,且支持prompt缓存及量化。但缺少对适配器(LoRA、QLoRA等)的支持。
  • OpenLLM

    • 地址:https://github.com/bentoml/OpenLLM
    • 简介:支持将要部署的LLM连接多个适配器,可以实现只使用一个底座模型来执行多个特定的任务;支持量化推理和LangChain集成。但对批处理和分布式推理的支持相对不友好。
  • MLC LLM

    • 地址:https://github.com/mlc-ai/mlc-llm
    • 简介:支持不同平台上的不同设备部署推理,包括移动设备(iOS或Android设备等)的高效推理,压缩等。但对大规模批量调用相对不友好。
  • LightLLM:

    • 地址:https://github.com/ModelTC/lightllm
    • 简介:一个基于 Python 的 LLM(大型语言模型)推理和服务框架,该框架采用轻量级设计、易于扩展和高速性能,LightLLM引入了一种更细粒度的kv cache管理算法 TokenAttention,并设计了一个与TokenAttention高效配合的Efficient Router调度实现。在TokenAttention 和 Efficient Router的相互作用下,LightLLM在大部分场景下都能获得比vLLM 和 Text Generation Inference 得到更高的吞吐,部分场景下可以得到4倍左右的性能提升。
  • AirLLM:

    • 地址:https://github.com/lyogavin/Anima/tree/main/air_llm
    • 简介:该项目开源了一个优化inference内存的推理框架,可实现4GB单卡GPU可以运行70B大语言模型推理。不需要任何损失模型性能的量化和蒸馏,剪枝等模型压缩,该项目采用了分层推理的技术以在较低的内存下实现大模型推理。

6. LLM评测

  • FlagEval (天秤)大模型评测体系及开放平台

    • 地址:https://github.com/FlagOpen/FlagEval
    • 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
  • C-Eval: 构造中文大模型的知识评估基准:

    • 地址:https://github.com/SJTU-LIT/ceval
    • 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。
  • OpenCompass:

    • 地址:https://github.com/InternLM/opencompass
    • 简介:由上海AI实验室发布的面向大模型评测的一站式平台。主要特点包括:开源可复现;全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案;丰富的模型支持:已支持 20+ HuggingFace 及 API 模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展。
  • SuperCLUElyb: SuperCLUE琅琊榜

    • 地址:https://github.com/CLUEbenchmark/SuperCLUElyb
    • 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。
  • GAOKAO-Bench:

    • 地址:https://github.com/OpenLMLab/GAOKAO-Bench
    • 简介:GAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的数据部分。
  • AGIEval:

    • 地址:https://github.com/microsoft/AGIEval
    • 简介:由微软发布的一项新型基准测试,这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。
  • Xiezhi:

    • 地址:https://github.com/mikegu721/xiezhibenchmark
    • 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。
  • Open LLM Leaderboard:

  • CMMLU:

    • 地址:https://github.com/haonan-li/CMMLU
    • 简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
  • MMCU:

    • 地址:https://github.com/Felixgithub2017/MMCU
    • 简介:该项目提供对中文大模型语义理解能力的测试,评测方式、评测数据集、评测记录都公开,确保可以复现。该项目旨在帮助各位研究者们评测自己的模型性能,并验证训练策略是否有效。
  • chinese-llm-benchmark:

    • 地址:https://github.com/jeinlee1991/chinese-llm-benchmark
    • 简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
  • Safety-Prompts:

    • 地址:https://github.com/thu-coai/Safety-Prompts
    • 简介:由清华大学提出的一个关于LLM安全评测benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的prompt。
  • PromptCBLUE: 中文医疗场景的LLM评测基准

    • 地址:https://github.com/michael-wzhu/PromptCBLUE
    • 简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准, 将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。

7. LLM教程

LLM基础知识

提示工程教程

  • 面向开发者的 LLM 入门课程:

    • 地址:https://github.com/datawhalechina/prompt-engineering-for-developers
    • 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。
  • 提示工程指南:

    • 地址:https://www.promptingguide.ai/zh
    • 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。
  • awesome-chatgpt-prompts-zh:

LLM应用教程

  • LangChain 中文网,跟着LangChain一起学LLM/GPT开发:

    • 地址:https://www.langchain.asia
    • 简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。
  • OpenAI Cookbook:

    • 地址:https://github.com/openai/openai-cookbook
    • 简介:该项目是OpenAI提供的使用OpenAI API的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。
  • 构筑大语言模型应用:应用开发与架构设计:

    • 地址:https://github.com/phodal/aigc
    • 简介:该项目开源了一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。

LLM实战教程

参考路径:
https://github.com/HqWu-HITCS/Awesome-Chinese-LLM
https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models