python 为什么sklearn.preprocessing.OneHotEncoder这么慢?

e3bfsja2  于 2023-03-28  发布在  Python
关注(0)|答案(1)|浏览(103)

为什么sklearn提供的one-hot编码器这么慢?

from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(sparse=False, handle_unknown='ignore')
categories = np.expand_dims(np.array(list(map(chr, np.arange(97,123)))), axis=1)
enc.fit(categories)
vec = np.expand_dims(list(map(chr, np.random.randint(97,123,1000))), axis=1)
%timeit enc.transform(np.array([['b']]))
%timeit (categories == 'b')[:,0] *1

输出:

569 µs ± 3.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
3.23 µs ± 58.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

这比简单的方法慢100倍,而实际上通过使用categories的元素是唯一的知识可以更快。

相关问题