感谢你出色的开源工作!请问一下LDM训练过程的损失是把以下图中两个损失加起来吗? <img width="1234" height="112" alt="Image" src="https://github.com/user-attachments/assets/b8264e2a-26cb-44b9-8cee-826b815f8f64" /> 好像代码只用了奖励模型的损失?