java—大规模多道程序设计和只读文件访问

e4yzc0pl 于 2021-06-24 发布在 Pig

关注(0)|答案(1)|浏览(305)

我正在尝试使用pig创建一个在hadoop集群上运行的基于字典的标记器。基本上，它所做的就是让每个文档（相当大的文本文档，高达几MB）对照字典运行每个句子中的每个单词来读取相应的值。
将有多达几百个java程序（不是线程）并行运行，使用只读模式下的字典文件。其思想是从文本中加载字典并创建一个 Map 对它提出质疑。
问题：我应该准备什么？在多道程序环境中读取一个文件，或者我应该先为程序的每个示例复制一个（相对较小的）文件，这是否符合逻辑呢？是一个 BufferedReader 我在读文件时应该用什么？
关于多道程序设计的结构化文档很少（与多线程相比），所以我有点害怕这样做会碰壁。
注：如果你能给我一个更好的方法，你只能回答我的思维方式是完全错误的；-）

Java hadoop apache-pig

来源：https://stackoverflow.com/questions/16343753/massive-multiprogramming-and-read-only-file-access