我们所有的etl工作负载都是在ibmdatastage和oracle上作为数据库设计的,已经有大约10年了,但是现在,企业正在寻找开源平台的选择,这些平台提供分布式并行计算,以在更短的时间内完成相同的任务,并在技术上节省一些成本。我从来都不是一个java人,但是我有python知识,我也接受了apachespark的正式培训,我想利用这些知识将我们现有的datastage设计转换成spark。下面给出了我们目前在所有datastage作业上执行的一些常见操作
从平面文件(txt/csv)读取数据
对其他小数据表执行查找(正常/范围/稀疏)
执行与其他大表的联接
将数据写入表
调用siebel enterprise integration manager将数据从一个表加载到siebel表
从多个表中提取数据并创建单个平面文件(txt/csv)
将文件ftp到目标服务器
所有这些操作都能在spark上完成吗?至少我正在努力重新创建spark中的第1步、第2步、第3步、第4步和第6步,就我的spark知识而言,这是可以实现的。
请帮助/引导我找到在这方面有帮助的资源。
1条答案
按热度按时间uxh89sit1#
datastage可以在spark上运行。与您的ibm客户代表交谈。https://www.ibm.com/support/knowledgecenter/sszjpz_11.7.0/com.ibm.swg.im.iis.ds.fd.doc/topics/t_config_spark.html