def sliding_window_slicing(a, no_items, item_type=0):
"""This method perfoms sliding window slicing of numpy arrays
Parameters
----------
a : numpy
An array to be slided in subarrays
no_items : int
Number of sliced arrays or elements in sliced arrays
item_type: int
Indicates if no_items is number of sliced arrays (item_type=0) or
number of elements in sliced array (item_type=1), by default 0
Return
------
numpy
Sliced numpy array
"""
if item_type == 0:
no_slices = no_items
no_elements = len(a) + 1 - no_slices
if no_elements <=0:
raise ValueError('Sliding slicing not possible, no_items is larger than ' + str(len(a)))
else:
no_elements = no_items
no_slices = len(a) - no_elements + 1
if no_slices <=0:
raise ValueError('Sliding slicing not possible, no_items is larger than ' + str(len(a)))
subarray_shape = a.shape[1:]
shape_cfg = (no_slices, no_elements) + subarray_shape
strides_cfg = (a.strides[0],) + a.strides
as_strided = np.lib.stride_tricks.as_strided #shorthand
return as_strided(a, shape=shape_cfg, strides=strides_cfg)
3条答案
按热度按时间e4yzc0pl1#
numpy数组的实际数据存储在称为数据缓冲区的同构连续内存块中。有关更多信息,请参阅NumPy internals。使用(默认)row-major顺序,2D数组看起来像这样:
x1c 0d1x的数据
为了将多维数组的索引i,j,k,.Map到数据缓冲区中的位置(偏移量,以字节为单位),NumPy使用了 strides 的概念。Strides是内存中为了沿着数组的每个方向/维度从一个项目到下一个项目而要跳过的字节数。换句话说,它是每个维度的连续项目之间的字节分隔。
举例来说:
字符串
这个2D数组有两个方向,轴-0(垂直向下跨行)和轴-1(水平跨列),每个项目都有大小:
型
因此,从
a[0, 0] -> a[0, 1]
开始(沿沿着第0行水平移动,从第0列到第1列),数据缓冲区中的字节步长为4。a[0, 1] -> a[0, 2]
、a[1, 0] -> a[1, 1]
等也是如此。这意味着水平方向(轴-1)的步幅数为4字节。然而,从
a[0, 0] -> a[1, 0]
(沿第0列垂直沿着移动,从第0行到第1行),您需要首先遍历第0行上的所有剩余项以到达第1行,然后遍历第1行以到达项a[1, 0]
,即a[0, 0] -> a[0, 1] -> a[0, 2] -> a[1, 0]
。因此,垂直方向(轴-0)的步幅数为3*4 = 12字节。注意,从a[0, 2] -> a[1, 0]
开始,并且通常从第i行的最后一项到第(i+1)行的第一项,也是4个字节,因为数组a
以行优先的顺序存储。这就是为什么
型
下面是另一个例子,显示了2D数组的水平方向(轴-1)的步幅
strides[1]
不一定等于项目大小(例如,具有列优先顺序的数组):型
这里
strides[1]
是item-size的倍数。虽然数组b
看起来与数组a
相同,但它是一个不同的数组:内部b
存储为|1|4|7|2|5|8|3|6|9|
(因为转置不影响数据缓冲区,而只是交换步幅和形状),而a
和|1|2|3|4|5|6|7|8|9|
。使它们看起来相似的是不同的步幅。也就是说,b[0, 0] -> b[0, 1]
的字节步长是3*4=12字节,而b[0, 0] -> b[1, 0]
是4字节,而对于a[0, 0] -> a[0, 1]
是4字节,而对于a[0, 0] -> a[1, 0]
是12字节。最后但并非最不重要的是,NumPy允许创建现有数组的视图,并可以修改步幅和形状,参见stride tricks。例如:
型
这相当于转置数组
a
。让我补充一下,但不涉及太多细节,甚至可以定义不是项目大小倍数的步幅。下面是一个例子:
型
332nm8kg2#
只是为了添加到伟大的answer by @AndyK,我从Numpy MedKit学习了numpy步幅。在那里他们展示了使用问题如下:
给定输入:
字符串
预期输出:
型
为此,我们需要知道以下术语:
shape-阵列沿沿着每个轴的尺寸。
strides-必须跳过的内存字节数,以便沿特定维度沿着前进到下一项。
型
现在,如果我们看看 * 预期输出 *:
型
我们需要操纵数组的形状和步幅。输出形状必须是(3,2,5),即3个元素,每个元素包含两行(m == 2),每行有5个元素。
步长需要从(20,4)变为(20,20,4)。新输出数组中的每一项都从新的一行开始,每行由20个字节组成(5个元素,每个元素4个字节),每个元素占用4个字节(int 32)。
于是:
型
另一种办法是:
型
我经常使用这个方法,而不是numpy.hstack或numpy.vstack,相信我,它的计算速度要快得多。
注意事项:
当使用这个技巧使用非常大的数组时,计算精确的 strides 并不是那么简单。我通常会创建一个所需形状的
numpy.zeroes
数组,并使用array.strides
获取strides,并在函数stride_tricks.as_strided
中使用它。希望有帮助!
lg40wkob3#
我已经改编了@Rick M.提出的工作,以适应我的问题,即移动任何形状的numpy数组的窗口切片。下面是代码:
字符串
这个方法会自动计算 strides,它可以使用任何维度的 numpy 数组:
1D数组-通过多个切片进行切片
型
1D数组-通过每个切片的元素数量进行切片
型
2D数组-通过多个切片进行切片
型
2D数组-通过每个切片中的多个元素进行切片
型