我一直在尝试找出一种使用稳定基线预训练模型的方法3。
在Stable-baseline(在Tensorflow 1.X上运行的版本)的原始文档中,这似乎是一项简单的任务:
from stable_baselines import PPO2
from stable_baselines.gail import ExpertDataset
dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)
model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)
\# Pretrain the PPO2 model
model.pretrain(dataset, n_epochs=1000)
问题是,没有“从稳定基线***3***.gail导入Maven数据集”
基本上,我想要做的是我想要使用特定算法来创建.npz文件,以生成观察、奖励、动作,然后将其传递给RL代理。
我从这个文档中找到了原始代码:
https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/
1条答案
按热度按时间3htmauhk1#
我也面临着这个问题,想做Maven轨迹演示,但正如我所读到的,在稳定基线3中没有“导入Maven数据集”(仍在开发中,可能需要在稳定基线3中的预训练模型中进行大量更改)。请让我知道是否有更新或替代方案解决这个问题。