运行java代码到hadoop

js4nwp54  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(366)

给定一个处理文件的java程序,是否可以利用集群的并行性在hadoop环境中运行它?
这是伪代码的一个示例:

A = read.flespi  // Read one record from FLESPI File

 B = read.fltquo // Read one record from  FLTQUO File

while( flespi != EOF ) /* Until flespi is not finished */

{

                If( A.I1-codice-titolo-int ==B. WTQ01C-COD-TIT-INT )

                {

                                PERFORM E200-IMPOSTA-CAMPI-OUTPUT   ();   /* Write output */

                               A = read.flespi  // Leggo record da file FLESPI

                                B = read.fltquo // Leggo record da file FLTQUO

                               Continue;

                }

                If( A.I1-codice-titolo-int > B. WTQ01C-COD-TIT-INT )

                {              B = read.fltquo // 

                               Continue;                        

               }

                If( A.I1-codice-titolo-int < B. WTQ01C-COD-TIT-INT )

                {              /* Write output in some way */

                               WRITE…

                                A = read.flespi; //              

                               Continue;            

               }

}

如您所见,它同时处理2个文件。谢谢

yvfmudvl

yvfmudvl1#

你可以在网站上找到一个很好的教程http://www.oodlestechnologies.com/blogs/reduce-side-join-in-hadoop-%3a-data-analyses-from-different-types-of-data-sources

4uqofj5v

4uqofj5v2#

是的,您可以观察并行性,您可以在hadoop中使用多个输入路径来处理hadoop中的多个文件

xxslljrj

xxslljrj3#

你的问题在我看来是这样的,你从两个文件中获取数据,比较两个文件中的值,然后将其写入其他文件(?)。您可以查看mapside join或reduce side join,以使用多个输入路径和多个输出路径执行此操作

相关问题