在.csv文件的循环中选择某些日期

gzszwxb4 于 2023-02-06 发布在其他

关注(0)|答案(3)|浏览(228)

Name,USAF,NCDC,Date,HrMn,I,Type,Dir,Q,I,Spd,Q

OXNARD,723927,93110,19590101,0000,4,SAO,270,1,N,3.1,1, 
OXNARD,723927,93110,19590101,0100,4,SAO,338,1,N,1.0,1, 
OXNARD,723927,93110,19590101,0200,4,SAO,068,1,N,1.0,1, 
OXNARD,723927,93110,19590101,0300,4,SAO,068,1,N,2.1,1, 
OXNARD,723927,93110,19590101,0400,4,SAO,315,1,N,1.0,1, 
OXNARD,723927,93110,19590101,0500,4,SAO,999,1,C,0.0,1, 
....

OXNARD,723927,93110,19590102,0000,4,SAO,225,1,N,2.1,1,
OXNARD,723927,93110,19590102,0100,4,SAO,248,1,N,2.1,1,
OXNARD,723927,93110,19590102,0200,4,SAO,999,1,C,0.0,1,
OXNARD,723927,93110,19590102,0300,4,SAO,068,1,N,2.1,1,

以下是存储每小时风速的csv文件片段我想做的是在csv文件中选择每天每小时的风，并将它们存储到一个临时的每日列表中，该列表存储了当天的所有每小时值（如果没有缺失值，则为24）。然后输出当天的列表，为第二天创建新的空列表，定位第二天的每小时速度，输出每日列表等等，直到文件结束。
我正在努力寻找一个好的方法来完成这个任务。我的一个想法是读取第i行，确定日期（YYYY-MM-DD），然后读取第i+1行，看看该日期是否与日期i匹配。如果匹配，那么我们在同一天。如果不匹配，那么我们在第二天。但我甚至不知道如何读取文件中的下一行......
任何建议来执行这个方法或一个全新的（和更好的？！）方法是最受欢迎的。谢谢你提前！

obs_in  = open(csv_file).readlines()
for i in range(1,len(obs_in)):        
# Skip over the header lines 
if not str(obs_in[i]).startswith("Identification") and not str(obs_in[i]).startswith("Name"):
    name,usaf,ncdc,date,hrmn,i,type,dir,q,i2,spd,q2,blank = obs_in[i].split(',')
    current_dt  = datetime.date(int(date[0:4]),int(date[4:6]),int(date[6:8]))
    current_spd = spd 
    # Read in next line's date: is it in the same day?
    # If in the same day, then append spd into tmp daily list 
    # If not, then start a new list for the next day

csv

来源：https://stackoverflow.com/questions/8548196/select-certain-dates-inside-loop-for-csv-file

3条答案

按热度按时间

ecbunoof1#

你可以利用数据文件的良好有序性，使用csv.dictreader，然后你可以很简单地建立一个按日期组织的风速字典，你可以根据自己的喜好处理它。注意，csv阅读器返回字符串，所以你可能想在汇编列表时转换成其他合适的类型。

import csv
from collections import defaultdict
bydate = defaultdict(list)
rdr = csv.DictReader(open('winds.csv','rt'))
for k in rdr:
    bydate[k['Date']].append(float(k['Spd']))

print(bydate)
defaultdict(<type 'list'>, {'19590101': [3.1000000000000001, 1.0, 1.0, 2.1000000000000001, 1.0, 0.0], '19590102': [2.1000000000000001, 2.1000000000000001, 0.0, 2.1000000000000001]})

显然，您可以将append调用的参数更改为元组，例如append((float(k['Spd']), datetime.datetime.strptime(k['Date']+k['HrMn'],'%Y%m%D%H%M))，这样您也可以收集时间。
如果文件中有多余的空格，可以使用skipinitialspace参数：rdr = csv.DictReader(open('winds.csv','rt'), fieldnames=ff, skipinitialspace=True)。如果这仍然不起作用，您可以预处理标题行：

bydate = defaultdict(list)
with open('winds.csv', 'rt') as f:
    fieldnames = [k.strip() for k in f.readline().split(', ')]
    rdr = csv.DictReader(f, fieldnames=fieldnames, skipinitialspace=True)
    for k in rdr:
        bydate[k['Date']].append(k['Spd'])
return bydate

bydate的访问方式类似于常规字典。要访问特定日期的数据，请执行bydate['19590101']。要获取已处理日期的列表，请执行bydate.keys()。
如果你想在阅读文件时将它们转换成Python datetime对象，你可以导入datetime，然后用bydate[datetime.datetime.strptime(k['Date'], '%Y%m%d')].append(k['Spd'])替换赋值行。

赞(0）回复(0）举报 2023-02-06

vmpqdwk32#

可能是这样的。

def dump(buf, date):
    """dumps buffered line into file 'spdYYYYMMDD.csv'"""
    if len(buf) == 0: return
    with open('spd%s.csv' % date, 'w') as f:
        for line in buf:
             f.write(line)

obs_in  = open(csv_file).readlines()
# buf stores one day record
buf = []
# date0 is meant for time stamp for the buffer
date0 = None
for i in range(1,len(obs_in)):        
    # Skip over the header lines 
    if not str(obs_in[i]).startswith("Identification") and \
        not str(obs_in[i]).startswith("Name"):
        name,usaf,ncdc,date,hrmn,ii,type,dir,q,i2,spd,q2,blank = \
            obs_in[i].split(',')
        current_dt  = datetime.date(int(date[0:4]),int(date[4:6]),int(date[6:8]))
        current_spd = spd 
        # see if the time stamp of current record is different.  if it is different
        # dump the buffer, and also set the time stamp of buffer
        if date != date0:
            dump(buf, date0)
            buf = []
            date0 = date
        # you change this.  i am simply writing entire line
        buf.append(obs_in[i])

# when you get out the buffer should be filled with the last day's record.  
# so flush that too.
dump(buf, date0)

我还发现，我必须使用ii而不是i来表示数据的“I”字段，因为您使用i表示循环计数器。

赞(0）回复(0）举报 2023-02-06

kmbjn2e33#

我知道这个问题是很多年前的问题了，但我想指出一个小的bash脚本可以很好地执行这个任务。我将您的示例复制到一个名为data.txt的文件中，脚本如下所示：

#!/bin/bash
date=19590101
date_end=19590102
while [[ $date -le $date_end ]] ; do
  grep ",${date}," data.txt > file_${date}.txt
  date=`date +%Y%m%d -d ${date}+1day` # NOTE: MAC-OSX date differs
done

请注意，由于某些原因，这在MAC上不起作用，因为date命令的实现不同，所以在MAC上，您需要使用gdate（来自coreutils）或更改选项以匹配MAC上的date选项。
如果文件中缺少日期，grep命令将生成一个空文件-此链接显示了避免此问题的方法：how to stop grep creating empty file if no results

赞(0）回复(0）举报 2023-02-06

我来回答

在.csv文件的循环中选择某些日期

3条答案

相关问题

热门标签

最新问答