我有一个.xlxs文件,可以从here访问。这个文件只是我所拥有的一个小概念,因为我有一个更大的文件,我需要处理。
列日期有点混乱,有一些错别字,其中在列“日期”中有一个数字是2018年,而由于错别字,第6行中的2017年被写了出来。第12行和第13行也是如此,其中的年份是2010年,但它们应该是2019年。我想检查一下,日期是按照年份升序排列的,如果不是,那么这些日期沿着相应的行应该被删除。因此,基本上我想省略那些看起来没有按照年份升序排列的行。
我已经包含了一个snippet,我想在python上结束。
增编
下面是一些清理日期后打印出数据的代码。ts[0]
是包含“dates.xlsx”中的数据的文件(Google Drive上的文件)
date_output_ts = pd.to_datetime(ts[0], dayfirst=True, errors='coerce').dropna()
print(date_output_ts)
然后我简单地转换成一个数组:
x_array = np.asarray(date_output_ts)
得到如下的here。
然后我画出x_array
,得到这个figure。Y轴是年份。你看到的下跌是我试图删除的9个单独的错误。
1条答案
按热度按时间lp0sw83n1#
你可以在
diff
中使用布尔索引:输出:
中间体:
替代
您也可以尝试获取日期的
cummax
,如果是向后的,则忽略日期,直到您高于之前的最大值:视觉输出:
相同,但仅根据年份进行过滤:
视觉输出:
如果只考虑年份,第一个橙子峰值并不是异常: