你能澄清一下现在可用的4种型号的真实名称吗?SMALL
:
117M
根据https://github.com/openai/gpt-2-output-dataset和https://github.com/openai/gpt-2/blob/master/README.md和https://openai.com/blog/better-language-models/124M
根据https://github.com/openai/gpt-2/blob/master/download_model.py和https://openai.com/blog/gpt-2-1-5b-release/
MEDIUM
:
345M
根据https://github.com/openai/gpt-2/blob/master/README.md和https://github.com/openai/gpt-2-output-dataset和https://openai.com/blog/better-language-models/355M
根据https://openai.com/blog/gpt-2-1-5b-release/
LARGE
:
762M
根据https://github.com/openai/gpt-2-output-dataset和https://openai.com/blog/better-language-models/774M
根据https://openai.com/blog/gpt-2-1-5b-release/
EXTRA LARGE
1542M
根据https://github.com/openai/gpt-2-output-dataset1.5BM
根据https://openai.com/blog/gpt-2-1-5b-release/
这使得通过download_model.py
下载它们变得非常困难,如果你能把它们的真实名称放在自述文件或下载脚本中,那将非常有用。
谢谢
7条答案
按热度按时间o0lyfsai1#
因为他们被困在
看起来可用于
download_model.py
的选项有1558M
、774M
、355M
、345M
、124M
和117M
谷歌存储很高兴地给出了一个文件列表:https://storage.googleapis.com/gpt-2/,这是我知道这一点的唯一原因
编辑:它正盯着我的脸https://github.com/openai/gpt-2/blob/master/DEVELOPERS.md
sbdsn5lh2#
根据纸表2,它们是架构超参数量。
“最小的型号相当于原来的GPT,
BERT中最大模型的第二小等效模型(Devlin等人,2018)。
我们称之为GPT-2的最大模型的参数比GPT多一个数量级。”
https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
mrfwxfqh3#
请注意,117M和124M是完全相同的检查点。它们有大约124M的参数,但它最初被称为117M。我猜他们发现这个错误时重命名了它。
对于后面的,我还没有检查,但谷歌存储会给你完全相同的大小为345米和355米,所以我认为他们是相同的。
ljsrvy3e4#
但是,这些模型中的每一个都使用了多大的词汇量?
4smxwvx55#
你可以从gpt-2的主仓库下载所有的数据集,这些数据应该是可数的。* 只有250 k的网页文本。这些数据集是gpt-2的样本,对不起!
https://github.com/openai/gpt-2-output-dataset
从文件中:
“产生的数据集WebText包含这4500万个链接的文本子集。(Peters & Lecocq,2013年)和Newspaper 1内容提取器。本文中呈现的所有结果都使用了Web Text的初步版本,其中不包括2017年12月之后创建的链接,重复和一些基于启发式的清理包含略超过800万个文档,总共40 GB的文本。”
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
eqoofvh96#
您可以在Google存储中查看hparams.json文件。对于所有型号,它都是相同的:
“n_vocab”:50257,
w8biq8rn7#
到EXTRA LARGE我只能用这个参数下载:1558 M
特大
1542 M根据https://github.com/openai/gpt-2-output-dataset
1.5BM根据https://openai.com/blog/gpt-2-1-5b-release/