给定一个处理文件的java程序,是否可以利用集群的并行性在hadoop环境中运行它?
这是伪代码的一个示例:
A = read.flespi // Read one record from FLESPI File
B = read.fltquo // Read one record from FLTQUO File
while( flespi != EOF ) /* Until flespi is not finished */
{
If( A.I1-codice-titolo-int ==B. WTQ01C-COD-TIT-INT )
{
PERFORM E200-IMPOSTA-CAMPI-OUTPUT (); /* Write output */
A = read.flespi // Leggo record da file FLESPI
B = read.fltquo // Leggo record da file FLTQUO
Continue;
}
If( A.I1-codice-titolo-int > B. WTQ01C-COD-TIT-INT )
{ B = read.fltquo //
Continue;
}
If( A.I1-codice-titolo-int < B. WTQ01C-COD-TIT-INT )
{ /* Write output in some way */
WRITE…
A = read.flespi; //
Continue;
}
}
如您所见,它同时处理2个文件。谢谢
3条答案
按热度按时间yvfmudvl1#
你可以在网站上找到一个很好的教程http://www.oodlestechnologies.com/blogs/reduce-side-join-in-hadoop-%3a-data-analyses-from-different-types-of-data-sources
4uqofj5v2#
是的,您可以观察并行性,您可以在hadoop中使用多个输入路径来处理hadoop中的多个文件
xxslljrj3#
你的问题在我看来是这样的,你从两个文件中获取数据,比较两个文件中的值,然后将其写入其他文件(?)。您可以查看mapside join或reduce side join,以使用多个输入路径和多个输出路径执行此操作