我正在尝试将大量数据加载到dynamodb服务。我的csv包含1亿条记录。每条记录包含4个字段(3个为字符串类型,另一个为bigint类型)。我在dynamo db:1上创建了一个表。具有分区键和排序键以及两个lsi。2.带10000 wcu
我尝试了几种方法,但都没有成功:
编写了一个脚本,用batch\u write boto3 api方法执行并行请求。
创建emr集群,将csv数据加载到hive表,将hive表Map到dynamo表,然后通过15个并行进程从hive表加载到dynamodb表。
统计数据:加载10k记录的方法1:2分钟加载2600万条记录的方法2:3小时20分钟
任何帮助都将不胜感激
暂无答案!
目前还没有任何答案,快来回答吧!