我有两个Dataframe,我想加入。
一个Dataframe是这样的,其中 syscode_ntwrk
被破折号分开。
spark.createDataFrame(
[
(1, '1234 - ESPN'),
(2, '1234 - ESPN'),
(3, '963 - CNN'),
(4, '963 - CNN'),
],
['id', 'col1']
)
另一种是这种格式 syscode_ntwrk
连接在一起。
spark.createDataFrame(
[
(100, '1234ESPN'),
(297, '1234ESPN'),
(3989, '963CNN'),
(478, '963CNN'),
],
['counts', 'col1']
)
在第二个Dataframe中有没有方法创建一个新列来匹配第一个Dataframe syscode_ntwrk
? Syscode
永远是一组数字 ntwrk
将始终是一组字母,因此是否有正则表达式在两者之间添加空格破折号空格?
1条答案
按热度按时间55ooxyrt1#
你可以用
regexp_extract
提取组并使用concat_ws
将组转换为所需的组。