Skip to content

policy_old完全看不出作用 #65

@haduoken

Description

@haduoken

现在的数据流程是

  1. policy_old = policy
  2. 使用policy_old去交互,生成数据
  3. 使用数据去更新policy模型
  4. policy_old = policy

在这个流程中,policy_old完全没有作用,或者说代码中去掉policy_old,使用policy进行替代,最终的结果完全一致

所以这个真的是PPO么??

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions