java—大规模多道程序设计和只读文件访问

e4yzc0pl  于 2021-06-24  发布在  Pig
关注(0)|答案(1)|浏览(305)

我正在尝试使用pig创建一个在hadoop集群上运行的基于字典的标记器。基本上,它所做的就是让每个文档(相当大的文本文档,高达几MB)对照字典运行每个句子中的每个单词来读取相应的值。
将有多达几百个java程序(不是线程)并行运行,使用只读模式下的字典文件。其思想是从文本中加载字典并创建一个 Map 对它提出质疑。
问题:我应该准备什么?在多道程序环境中读取一个文件,或者我应该先为程序的每个示例复制一个(相对较小的)文件,这是否符合逻辑呢?是一个 BufferedReader 我在读文件时应该用什么?
关于多道程序设计的结构化文档很少(与多线程相比),所以我有点害怕这样做会碰壁。
注:如果你能给我一个更好的方法,你只能回答我的思维方式是完全错误的;-)

zvokhttg

zvokhttg1#

我认为你的方法很好。你应该把字典从字典里装出来 DistributedCache 到内存,并使用加载了内存的字典(例如 HashMap ).

相关问题