我想计算一个Python类的散列,这个类包含一个机器学习用的数据集,这个散列是用来缓存的,所以我想到了md5
或者sha1
,问题是大部分数据都存储在NumPy数组中;这些不提供__hash__()
成员。目前我为每个成员执行pickle.dumps()
并基于这些字符串计算散列。但是,我发现以下链接表明同一对象可能导致不同的序列化字符串:
对于包含Numpy数组的Python类,计算哈希的最佳方法是什么?
我想计算一个Python类的散列,这个类包含一个机器学习用的数据集,这个散列是用来缓存的,所以我想到了md5
或者sha1
,问题是大部分数据都存储在NumPy数组中;这些不提供__hash__()
成员。目前我为每个成员执行pickle.dumps()
并基于这些字符串计算散列。但是,我发现以下链接表明同一对象可能导致不同的序列化字符串:
对于包含Numpy数组的Python类,计算哈希的最佳方法是什么?
7条答案
按热度按时间kx1ctssn1#
多亏了John蒙哥马利,我想我找到了一个解决方案,而且我认为它比将可能 * 巨大 * 的数组中的每个数字转换为字符串的开销要小:
我可以创建一个数组的字节视图,然后用它来更新哈希值,不知怎么的,这看起来和直接用数组更新一样:
1yjd4xko2#
数组中数据的格式是什么?你不能只是遍历数组,把它们转换成一个字符串(通过一些可复制的方法),然后通过更新把它馈送到你的散列中吗?
例如:
但是不要忘记numpy数组不会提供
__hash__()
,因为它们是可变的,所以在计算哈希值后不要修改数组(因为它将不再相同)。q9yhzks03#
有一个记忆函数的包,使用numpy数组作为输入joblib。从this问题中找到。
wrrgggsh4#
使用Numpy 1.10.1和python 2.7.6,如果numpy数组是C连续的(如果不是,使用
numpy.ascontiguousarray()
),现在可以使用hashlib简单地散列numpy数组,例如:2admgd595#
下面是我在jug中的实现方法(在回答这个问题的时候是git HEAD):
原因是
e.data
只适用于某些数组(连续数组),a.view(np.uint8)
也是如此(如果数组不连续,则会出现非描述性类型错误)。ff29svar6#
最快的似乎是:
a是一个numpy数组。
显然不是安全的散列,但它应该是好的缓存等。
ebdffaop7#
array.data 总是可散列的,因为它是一个缓冲区对象。easy:)(除非你关心具有完全相同数据的不同形状的数组之间的差异,等等。(即这是合适的,除非shape,byteorder,和其他数组'参数'也必须计算到散列中)