Skip to main content

大模型算法:强化学习、微调与对齐 - 余昌叶

s35139486

系统地讲解了大模型技术、训练算法(包括强化学习、RLHF、PPO、GRPO、DPO、SFT 与 CoT 蒸馏等)、多种效果优化措施及其实践。