悟空AI工具箱，提供ChatGLM、VisualGLM、Stable Diffusion、Langchain-ChatGLM，Chatgpt一键安装服务

Baichuan-7B

4.8（386）

本地部署

baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构，在大约1.2万亿 tokens 上训练的70亿参数模型，支持中英双语，上下文窗口长度为4096。在标准的中文和英文权威 benchmark（C-EVAL/MMLU）上均取得同尺寸最好的效果。

产品信息

## 一、开源的Baichuan-7B：

## 二、数据：
原始数据包括开源的中英文数据和自行抓取的中文互联网数据，以及部分高质量知识性数据。
参考相关数据工作，频率和质量是数据处理环节重点考虑的两个维度。 我们基于启发式规则和质量模型打分，对原始数据集进行篇章和句子粒度的过滤。在全量数据上，利用局部敏感哈希方法，对篇章和句子粒度做滤重。
整体流程如下所示：
![](https://www.5kcrm.com/center/public/uploads/20230618/cc4c73ef3ba689c0b4c2113a669936f6.png)
经过不断的调整和多轮测试，最终确认了一个在下游任务上表现最好的中英文配比。
使用了一个基于自动学习的数据权重策略，对不同类别的数据进行配比。

# 三、分词：
我们参考学术界方案使用 SentencePiece 中的 byte pair encoding (BPE)作为分词算法，并且进行了以下的优化：

目前大部分开源模型主要基于英文优化，因此对中文语料存在效率较低的问题。我们使用2000万条以中英为主的多语言语料训练分词模型，显著提升对于中文的压缩率。
对于数学领域，我们参考了 LLaMA 和 Galactica 中的方案，对数字的每一位单独分开，避免出现数字不一致的问题，对于提升数学能力有重要帮助。
对于罕见字词（如特殊符号等），支持 UTF-8-characters 的 byte 编码，因此做到未知字词的全覆盖。
我们分析了不同分词器对语料的压缩率，如下表，可见我们的分词器明显优于 LLaMA, Falcon 等开源模型，并且对比其他中文分词器在压缩率相当的情况下，训练和推理效率更高。
Model	baichuan-7B	LLaMA	Falcon	mpt-7B	ChatGLM	moss-moon-003
Compress Rate	0.737	1.312	1.049	1.206	0.631	0.659
Vocab Size	64000	32000	65024	50254	130344	106029

# 四、模型结构

整体模型基于标准的 Transformer 结构，我们采用了和 LLaMA 一样的模型设计

位置编码：rotary-embedding 是现阶段被大多模型采用的位置编码方案，具有更好的外延效果。虽然训练过程中最大长度为4096，但是实际测试中模型可以很好的扩展到 5000 tokens 上，如下图：

![](https://www.5kcrm.com/center/public/uploads/20230618/f377d965ea6c7d4d172f3e2b9f5098e2.png)

激活层：SwiGLU, Feedforward 变化为(8/3)倍的隐含层大小，即11008
Layer-Normalization: 基于 RMSNorm 的 Pre-Normalization

# 五、训练稳定性和吞吐

我们在原本的LLaMA框架上进行诸多修改以提升训练时的吞吐，具体包括：

算子优化技术：采用更高效算子，如 Flash-attention，NVIDIA apex 的 RMSNorm 等。
算子切分技术：将部分计算算子进行切分，减小内存峰值。
混合精度技术：降低在不损失模型精度的情况下加速计算过程。
训练容灾技术：训练平台和训练框架联合优化，IaaS + PaaS 实现分钟级的故障定位和任务恢复。
通信优化技术，具体包括：
采用拓扑感知的集合通信算法，避免网络拥塞问题，提高通信效率。
根据卡数自适应设置 bucket size，提高带宽利用率。
根据模型和集群环境，调优通信原语的触发时机，从而将计算和通信重叠。
基于上述的几个优化技术，我们在千卡A800机器上达到了7B模型182Tflops的吞吐，GPU峰值算力利用率高达58.3% 。

最终的loss如下图
![](https://www.5kcrm.com/center/public/uploads/20230618/02087965d3550797f6aa3d46f69f58a0.png)

## 三、安装使用方法：

### 1、下载Baichuan-7B一键部署安装包

百度网盘下载地址：[百度云](https://pan.baidu.com/s/1BRz4pECm7AKSzUWylZTAGw?pwd=BM9r  "百度云")

链接：https://pan.baidu.com/s/1BRz4pECm7AKSzUWylZTAGw?pwd=BM9r

提取码：BM9r

### 3、一键运行
下载完成后，点击文件中的run.bat直接一键运行

运行完成后，即完成本地化Baichuan-7B安装，您可以直接进行使用。

4条评论