|
|
闭关一坤天,从零复现GDPO算法(英伟达出品,简单但有效),从原理到代码实现,喂饭级讲解 偷星九月333 · 4 天前 |
|
|
强化学习(verl)训练日志怎么看,今天就给你们来个保姆级的教程~ 偷星九月333 · 1 周前 |
|
|
相见恨晚,原来论文还可以这样读,论文架构一览无余! 偷星九月333 · 1 周前 |
|
|
verl参数怎么看,今天就给你们来个保姆级的教程 偷星九月333 · 3 周前 |
|
|
闪电说,打字像说话一样快的高效率神器,解放你的十指 偷星九月333 · 4 周前 |
|
|
闭关一坤年,从零实现大模型左右互博之术(生成对抗,无数据RL优化),从原理讲解到代码实现,你要的全都有 偷星九月333 · 1 月前 |
|
|
VeRL强化学习实用教程:自定义奖励计算的若干方法,从简单到复杂,覆盖所有应用需求 偷星九月333 · 1 月前 |
|
|
闭关两天半,完全从零实现大模型RL知识蒸馏(On Policy Distillation,Qwen2.5),你值得拥有 偷星九月333 · 1 月前 |
|
|
练习两天半,教你如何使用终端AI智能体iFlow CLI,从部署到使用全流程 偷星九月333 · 1 月前 |