转换rdd中的字符串集合

dojqjjoe 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(310)

我尝试解析hl7值，因为我使用的jar文件很少，那些jar文件从字符串解析hl7值，我执行了代码，它在scala中运行得很好，但现在我希望在scala中运行相同的东西，因为我在示例中使用下面的代码，但我得到下面的错误。所以为了解决这个问题，我想把 org.apache.spark.rdd.RDD[String] 至 String .
代码：

object ExampleUseTerser {
  def main(args: Array[String]): Unit = {
    val textfile = sc.textFile("/user/cloudera/xxxx/File")
    val context : HapiContext = new DefaultHapiContext();
    val p  = context.getGenericParser();
    val hapiMsg  = p.parse(textfile);
    val terser  = new Terser(hapiMsg);
    val secondAllergyType:String  = terser.get("/PID-7");
    println(secondAllergyType);

  } 
}

更新
样品：

PID|1|5897450M|58974650M|58977650M|CSTO^TES||19320722|F|||745 - 81 ST^^IAMI BEH^FL^341|||||||332165520
ORC||5033220|503320||||||20150202|||1689659096^HAM^MISH^^^^PI
OBR|1||64564|DF DEFAULT|||20150202|2015002||||||||16096^^^^^I|||||||||
HHH|1|NM|6690-2^^LN^0^^L||7|XE/UL|3.4-18||||F|||20150202| ^^L
HHH|9|NM|777-3^LOINC^LN^015172^PLATELETS^L||185|X10E3/UL|150-379||||F|||201202|TA   ^^L
HHH|10|NM|770-8^^LN^015107^^L||65|%|||||F|||20150202|TA   ^^L
HHH|11|NM|736-9^LOINC^LN^015123^^L||26|%|||||F|||20150202|TA   ^^L
HHH|12|NM|5905-5^LOINC^LN^015131^^L||8|%|||||F|||20150202|TA   ^^L
HHH|13|NM|713-8^LOINC^LN^015149^^L||1|%|||||F|||20150202|TA   ^^L

错误：

error: type mismatch;
 found   : org.apache.spark.rdd.RDD[String]
 required: String
           val hapiMsg  = p.parse(textfile);

hadoop scala apache-spark hl7

来源：https://stackoverflow.com/questions/39126019/transforming-a-collections-of-strings-in-an-rdd

1条答案

按热度按时间

ijxebb2r1#

当你和一个 RDD ，您需要记住，抽象是在一个值的集合之上的（它实际上稍微复杂一点，但我们暂时不谈这个），而不是一个值。
根据您的示例，我们需要Map集合中的所有元素，并尝试提取它们的pid。我们可以用 mapPartitions 所以我们不需要分配新的 HapiContext 对于每个值：

object ExampleUseTerser {
  def main(args: Array[String]): Unit = {
    val textfile = sc.textFile("/user/cloudera/xxxx/File")
    val parsedData = textfile.mapPartitions { it => 
      val context: HapiContext = new DefaultHapiContext()
      val parser = context.getGenericParser()

      it.map { file => 
        val hapiMsg = parser.parse(file)
        val terser = new Terser(hapiMsg)
        terser.get("/PID-7")
      }
    }
  } 
}

如果您正在测试这个，并且想要查看解析的文件，那么可以使用 RDD.collect 正如我在前面的回答中提到的（当然，在任何类型的生产环境中使用它时都不要这样做）。

赞(0）回复(0）举报 2021-05-29

我来回答

转换rdd中的字符串集合

1条答案

相关问题

热门标签

最新问答