如何将包含多个工作表的excel工作簿中的数据导出到hadoop

js4nwp54  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(413)

我对hadoop开发还很陌生,有没有遇到一个挑战,如何将数据从包含多个工作表的excel工作簿导出到hdfs?我已经成功导出了单页工作簿,但是我被多页卡住了!数据是结构化的。
我应该选择什么选项?请告知。。。
非常感谢

xlpyo6sf

xlpyo6sf1#

您可以使用类似python包xlrd的东西预处理excel表。
像这样:

import xlrd
import csv
import sys

def csv_from_excel(input_file,output_file,sheet_index):
  wb = xlrd.open_workbook(input_file)
  sh = wb.sheet_by_index(sheet_index)
  your_csv_file = open(output_file, 'wb')
  wr = csv.writer(your_csv_file)
  for rownum in xrange(sh.nrows):
    row = []
    for s in sh.row_values(rownum):
      row.append(s)
    wr.writerow(row)
  your_csv_file.close()

你也许可以定义一个自定义项来为你做这个处理,但我没有这方面的经验。我个人会在你开始你的m/r工作之前用这样的东西作为一个预处理步骤。

相关问题