现在的数据流程是 1. policy_old = policy 2. 使用policy_old去交互,生成数据 3. 使用数据去更新policy模型 4. policy_old = policy 在这个流程中,policy_old完全没有作用,或者说代码中去掉policy_old,使用policy进行替代,最终的结果完全一致 所以这个真的是PPO么??