我有一个Pandas的框架,它看起来像这样:
time 000010 000017 000033 000034 000041 000042 \
0 672.246427 NaN NaN NaN 122.812927 367.110779 75.933125
1 672.253247 NaN NaN NaN 126.228996 372.775421 78.117798
2 672.260270 NaN NaN NaN 126.909046 369.460754 77.109196
3 672.267205 NaN NaN NaN 129.729416 376.499878 76.996864
4 672.274120 NaN NaN NaN 126.082420 380.343506 76.199158
5 672.281085 NaN NaN NaN 127.412136 387.227203 78.589165
6 672.288012 NaN NaN NaN 131.672180 394.507355 83.319740
7 672.294974 NaN NaN NaN 128.294861 390.472992 78.814026
8 672.301931 NaN NaN NaN 134.104858 393.601486 82.421974
9 672.308877 NaN NaN NaN 119.213364 393.934875 80.444237
10 672.315816 NaN NaN NaN 126.745148 378.437531 79.340736
11 672.322750 NaN NaN NaN 114.940750 367.477142 76.719002
12 672.329622 NaN NaN NaN 118.000877 364.089691 74.932938
字符串
我打算与模块'tsfresh'一起使用来提取特征。编号列标题是对象ID,时间列是时间序列。
这个数据框被称为“data”,所以我尝试使用extract features命令:
extracted_features = extract_features(data, column_id = objs[1:], column_sort = "time")
型
其中objs[1:]是列标题“time”右侧的对象ID。
这个错误与'一个数组的真值有多个元素是模糊的',但有人能帮助我做这个工作,并提取一个很好的pandas特征的数组吗?
非常感谢提前!
1条答案
按热度按时间k2fxgqgv1#
也许我误解了你的问题,但如果我理解正确的话,你需要重新排序你的框架在一个形式,tsfresh可以理解它。
column_id
假设(正如它的名字所暗示的)一个列名与ID列-你没有。我想,你只有6个不同的ID(000010,000017,000033,000034,000041,000042),每个都有13个时间序列浮点值(我们称之为data
)。字符串
然后,您可以使用以下命令将其馈送到tsfresh中:
型
另外,您需要去掉NaN列(因为tsfresh不知道如何处理它们)。
请查看我们的数据格式文档:http://tsfresh.readthedocs.io/en/latest/text/data_formats.html