使用FlaskSQLAlchamy和Python3将数百万行插入到SQLite3表中

vptzau2j  于 2022-11-15  发布在  SQLite
关注(0)|答案(1)|浏览(148)

如何使用FlaskSQLAlChemy将.txt文件中的数百万或行插入到SQLite3数据库中?我尝试一次只读取.txt文件中的一行,并在循环中添加和提交它们,但注意到这需要花费大量时间。我怎样才能有效地做到这一点呢?我尝试将此解决方案https://stackoverflow.com/a/7137270实现到我的代码中,但无法使其工作。
表架构如下所示:

class table(db.Model):
    id = db.Column(db.Integer, primary_key=True)
    col1 = db.Column(db.Integer)
    col2 = db.Column(db.Integer)
    col3 = db.Column(db.String(50))
    col4 = db.Column(db.String(50))
    col5 = db.Column(db.String(50))
    col6 = db.Column(db.Integer)
    col7 = db.Column(db.String(50))
    col8 = db.Column(db.Integer)
    col9 = db.Column(db.Integer)
    col10 = db.Column(db.Integer)
    col11 = db.Column(db.Integer)
    col12 = db.Column(db.Integer)

.txt文件中的行如下所示:
hjk;28770930;Y;T;C;;asd;;1;1233;1233;0.00081103
还有大约8500万行要添加到数据库中。

svmlkihl

svmlkihl1#

我找到了一个解决方案,可以显著加快交易速度。我使用了以下答案:

我使用chunks()函数将文件分成块并生成一个生成器,而不是每次读取一行并在每次迭代中写入一行。然后在load_data_table()函数中,循环遍历这些块,并在包含10000行的每个块之后提交。
如果有人能想出一个更快的方法,我仍然很感兴趣,因为这也需要大约5个小时。
以下是我的代码:

def chunks(data, n=10000):
    buffer = [None] * n
    idx = 0
    for record in data:
        buffer[idx] = record
        idx += 1
        if idx == n:
            yield buffer
            buffer = [None] * n
            idx = 0
    if idx > 0:
        yield buffer[:idx]

def load_data_table(filename):
    rows = 0
    csvData = csv.reader(open('./folder/{}'.format(filename), "r"), delimiter=";")
    dataset = tables.query.filter_by(id=1).first()
    divData = chunks(csvData)  # divide into 10000 rows each

    for chunk in divData:
        for col1, col2, col3, col4, col5, col6, col7, col8, col9, col10, col11, col12 in chunk:
            add_new = table(col1=col1, col2=col2, col3=col3, col4=col4, col5=col5, col6=col6, col7=col7, col8=col8, col9=col9, col10=col10, col11=col11, col12=col12)
            db.session.add(add_new)
        db.session.commit()
        rows += 10000
        print(rows)

相关问题