Download Latest Version Stable RL v1.0.0 source code.tar.gz (22.0 MB)
Email in envelope

Get an email when there's a new version of PaddleNLP

Home / v2.8.0
Name Modified Size InfoDownloads / Week
Parent folder
README.md 2024-04-24 25.4 kB
v2.8.0 source code.tar.gz 2024-04-24 24.4 MB
v2.8.0 source code.zip 2024-04-24 28.7 MB
Totals: 3 Items   53.1 MB 0

很高兴地通知大家,飞桨大模型套件发布v2.8.0版本。这个版本中,我们深度优化套件的大模型精调对齐的能力,提升大模型套件在国产计算硬件训推能力,具体工作如下: * 特色精调和高效对齐:提供自研极致收敛的RsLoRA+算法,大幅提升PEFT训练收敛速度以及训练效果;引入高性能生成加速到RLHF PPO算法,打破 PPO 训练中生成速度瓶颈,PPO训练性能大幅领先。 * 基础能力升级和国产芯片适配:通用化支持 FastFNN、FusedQKV等多个大模型训练性能优化方式,大模型训练更快、更稳定;国产硬件和国产大模型训练框架深度结合,支持在昆仑XPU等国产芯片的在飞桨框架的大模型高效训练和高性能推理。

大模型精调对齐训推优化 * 精调 * PEFT * 新增QLoRA pipeline parallel支持 #7801 * 自定义python算子,优化LoRA的前反向计算 #8106 * 新增 rslora,lora+,pissa 算法 #8111 * 长序列 * 新增长序列方案和模型解耦。RotaryEmbedding,LinearScalingRotaryEmbedding,NTKScalingRotaryEmbedding,DynamicNTKScalingRotaryEmbedding等。#8076 * Alignment * 新增PPO 对齐算法 #7305 * 训练策略 * 新增LLaMA sequence parallel #7746 * 新增LLaMa master_grad #7658 * GPT新增auto_parallel的支持。 #8160 * 新增算子 * 新增GQA 算子支持 #7906 * 新增gqa fuse attention qkv #7890 * 新增SwiGLU 算子 #8038 * 推理 * 新增QWenVL 的静态图推理 [#7808] 模型新增 * 新增Deberta,Debertav2模型 [#8227] * deepset/deberta-v3-large-squad2 * microsoft/deberta-v2-xlarge * microsoft/deberta-v3-base * microsoft/deberta-v3-large * microsoft/deberta-base * 新增mixtral-of-experts [#7803] * mistralai/Mixtral-8x7B-Instruct-v0.1 * mistralai/Mixtral-8x7B-v0.1 * 新增LLama3 [#8315] * meta-llama/Meta-llama-3-8b * meta-llama/Meta-Llama-3-8B-Instruct * meta-llama/Meta-llama-3-70b * meta-llama/Meta-Llama-3-70B-Instruct

基础框架升级 * Trainer升级 * Trainer新增 ignore_save_lr_and_optim 参数,可以忽略保存lr scheduler以及optimizer权重 [#7978] * Trainer新增 Wandb 和 Tensorboard 支持。#7863 * Trainer支持同时解析命令行与json文件参数 [#7768] * trainer新增gradient_sync_after_accumulate支持。#8045 * dataloader新增cuda编译检查 [#8099] * AutoParallel升级 * llama 自动并行支持bf16损失 [#7874] * 增加refined-recompute机制#7349 * 在AMP-O2策略下支持master_grad#7658 * 进一步完善动静统一自动并行分布式训练基本功能#7985 [#8114] * 新增Llama2模型基于AutoTrainer的半自动训练 [#7851] [#7885] * 新增llama的hybrid_parallel_topo_order策略。#8011 * llama模型组网动静统一 [#8127] * 其他 * 重构download下载逻辑,支持从bos、hf hub、aistudio、model scope下载模型 [#7608] [#8020] [#8088] * 新增分布式训练的pipeline parallel [#8051] * 适配npu的FA [#8171] [#8210] * llama新增block_attention/cachekv quant [#7649]

其他支持 * 新增俄罗斯套娃(matryoshka representation learning)检索策略,节省计算和存储资源。#8165

问题修复 1. 日志级别修改,并增加timelog计时日志,兼容不同设备。#8261 2. 修复pipeline并行中随机初始化的shared weights不一致的问题,覆盖GPT/OPT等模型。#7772 3. 关闭CI及单测中从huggingface hub下载的逻辑 [#7798] [#8198] 4. 修复llm的gradio开启chat template时候重复拼接query 和 history的问题。#7992 5. 修复GPT模型下载key error问题。#8253 6. 修复LlamaRotaryEmbedding [#7882] 7. 修复allreduce dtype的问题 [#7876] 8. 修复框架侧dev分支清理 paddle.jit.dy2static.utils_helperAPI的问题 [#7989] 9. 修复read-data timer在ignore_data_skip=False and skip_profile_timer=False 的问题。#8177 10. 修复Wandb单测问题 [#8066] [#8056] 11. 修复Trainer同时解析json与命令行列表参数报错问题#7860 12. 修复Gradio UI 中的推理问题 [#7740] [#7788] 13. 修复 Tokenizer 相关的基础问题 [#7797] 7870 14. 修复 custom devices上loading rng state的问题。#7894 15. 修复自动并行打印BF16的loss编码错乱的问题#7874 16. 采用float初始化模型,修复静态图自动并行AMP报错问题#8033#8199 17. 修复ShardDataloader接口在PipeLine Parallelism下使用错误问题#8014 18. 修复llama在custom devices的精度问题。#7895 19. 修复NPU AICPU算子问题 [#7976] 20. 修复FusedLinearWithGradAdd少传参数的问题。#8178

What's Changed

New Contributors

Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.7.2...v2.8.0

Source: README.md, updated 2024-04-24