我对hadoop开发还很陌生,有没有遇到一个挑战,如何将数据从包含多个工作表的excel工作簿导出到hdfs?我已经成功导出了单页工作簿,但是我被多页卡住了!数据是结构化的。我应该选择什么选项?请告知。。。非常感谢
xlpyo6sf1#
您可以使用类似python包xlrd的东西预处理excel表。像这样:
import xlrd import csv import sys def csv_from_excel(input_file,output_file,sheet_index): wb = xlrd.open_workbook(input_file) sh = wb.sheet_by_index(sheet_index) your_csv_file = open(output_file, 'wb') wr = csv.writer(your_csv_file) for rownum in xrange(sh.nrows): row = [] for s in sh.row_values(rownum): row.append(s) wr.writerow(row) your_csv_file.close()
你也许可以定义一个自定义项来为你做这个处理,但我没有这方面的经验。我个人会在你开始你的m/r工作之前用这样的东西作为一个预处理步骤。
1条答案
按热度按时间xlpyo6sf1#
您可以使用类似python包xlrd的东西预处理excel表。
像这样:
你也许可以定义一个自定义项来为你做这个处理,但我没有这方面的经验。我个人会在你开始你的m/r工作之前用这样的东西作为一个预处理步骤。