我是一个精通计算机科学的人,对金融有点陌生。我目前正试图从雅虎那里搜集505只spx股票的10分钟数据。总的来说,我每天将得到大约2万行浮点数据。当然,数据是新的石油,所以如果我不建立一个正确的过程,那么在如此大量的数据下,这将变得非常难以管理。由于这是我第一次从头开始构建数据集,我完全不知道我是否做得对,是否在寻求建议或解决方案。
处理、存储和查询数据的方法如下:
获取当天的2万个数据
将20k数据转换为一个csv/npz/pkl,并保存在文件夹中,按日期命名
在另一个脚本中,读取特定日期之间的所有csv/npz/pkl
编译所需的代码
另存为单独的csv/npz/pkl
在这个过程中的主要杀手将是每天有这么多文件的查询系统。
有人建议我使用sql或其他大型数据库语言,但我不知道为什么它会像这个方法一样或更有效。如果有人也能分享他们构建大型数据库的方法,或者分享一些关于良好实践的资源,那就太好了。
编辑:下面是每日数据中csv的一个条目。以制表符分隔:
NCLH Sat Jun 6 14:44:29 2020 22.43 23.37 1000 23.43 800 109665301
暂无答案!
目前还没有任何答案,快来回答吧!