python 使用模拟学习和稳定基线预训练模型3

bhmjp9jg 于 2023-02-02 发布在 Python

关注(0)|答案(1)|浏览(169)

我一直在尝试找出一种使用稳定基线预训练模型的方法3。
在Stable-baseline（在Tensorflow 1.X上运行的版本）的原始文档中，这似乎是一项简单的任务：

from stable_baselines import PPO2

from stable_baselines.gail import ExpertDataset

dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)

model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)

\# Pretrain the PPO2 model

model.pretrain(dataset, n_epochs=1000)

问题是，没有“从稳定基线***3***.gail导入Maven数据集”
基本上，我想要做的是我想要使用特定算法来创建.npz文件，以生成观察、奖励、动作，然后将其传递给RL代理。
我从这个文档中找到了原始代码：
https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/

python

来源：https://stackoverflow.com/questions/75264987/pre-train-a-model-using-imitation-learning-with-stable-baselines3