PAI-ChatLearn 灵活易用大规模RLHF高训练框架.pdf

上传人：Stan****Shan 文档编号：1188386 上传时间：2024-04-18 格式：PDF 页数：18 大小：91.26MB

下载相关举报

第1页 / 共18页

第2页 / 共18页

第3页 / 共18页

第4页 / 共18页

第5页 / 共18页

点击查看更多>>

资源描述

1、PAI-ChatLearn!#$%&!#$%-&$%()PAI!#$%&(RLHF)*+,-.Contents目录0102PAI-ChatLearn03PAI-ChatLearn01#$%&*+,-./?!#$%&()*+,-(./!Zero DP/FSDP 01234567Zero DP!#$#$%&*+#./?!89:;?#$ABC#$D(!E;F89GGPT3-175BD=HIJK#$LM?#$BC#$?#$+!#$BC#$+!#$?#$+BC#$+!#$#$%&*+01./?!JNO/J8P89()MPMDPathways1RLHF21 https:/blog.google/techn

2、ologyai/introducing-pathways-next-generation-ai-architecture/2 https:/arxiv.org/abs/2204.05862PAI-ChatLearn02RLHF(Reinforcement Learning from Human Feedback)RLHF234567#89:;RL?A/BCDEFGHIJ?!?!?!?!?!?PAI-ChatLearnPAI-ChatLearnKLMN/O!P RLHF QR$%*+?!?!?!?!?!?!?PAI-ChatLearn36?!APIY*Z898)RLHF Config_e2e(!

3、)Model Config_abmodelF!EngineYcdefghijk/)cd(jlmFnop$!DistActor7Uqr,bistNOjgh)cdabmodelFp$uvjghi!(jlmwxy7zFBackend)|Gy7Megatron()y7vLLMlmPAI-ChatLearn初始化定义模型定义engine和数据集开始训练运行环境配置模型配置RLHF训练配置PAI-ChatLearn03PAI-ChatLearn?-#AB?!RLHFModule()!nsetupAforward_stepAtrain_step X!MegatronADeepspeedAPyTorchAvL

4、LMATorchAccXnVicuna 13B+13B=?!)t query:,response:!hVicuna89)Vicuna-13B89|!(t!ChatLearn*ZetransformersMegatront)k7ChatLearnS$SFT(?!)t query:,response:1,2,.,score:score1,score2,.!(!y7SFT89!UReward Model!k7ChatLearnS$Reward Model(?!t prompt:!(!y7SFT89!Policy/Reference Model!y7RM89!Reward/Value model!k7

5、ChatLearnS$RLHF(?!(F89Inference!k7MegatronS$C!k7ChatLearneTransformertInferenceVicuna 13B+13B=?!13B(Policy/Reference Model)+13B(Reward/PPOValue Model)!QHH(helpful&harmless)!S$SFTARLHF(!RLHF(Reward ModelFiG!QMT-Benchy7GPT-4 APISFTjRLHF89FVW)i*+11%PAI-ChatLearnCDEFG?!7B+7B30B+30B8DeepSpeed-chat&48%82%!DeepSpeed-Chat 66B+66BOOM!ChatLearn66B+66BA175B+175B8(!Qwen-14BRLHF89VW4SFT89!#$%&()*+,!#%)*+,#!%-./0123/42567)894:*;)?A/85B*80C6%6D-!E&E&#E&$E&)*+,!#%)*+,#!%-./0123/42567)894:*;)?A/85B*80C6#-6D-!THANKS

展开阅读全文

部分上传会员的收益排行 01、路***（￥15400+），02、曲****（￥15300+），
03、wei****016（￥13200+）,04、大***流（￥12600+），
05、Fis****915（￥4200+），06、h****i（￥4100+），
07、Q**（￥3400+），08、自******点（￥2400+），
09、h*****x（￥1400+），10、c****e（￥1100+）,
11、be*****ha（￥800+），12、13********8（￥800+）。

相似文档

自信AI助手