pyspark中有没有从url中获取大学名称的方法?

flvtvl50  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(283)
host                     count
0   xsi12.komaba.ecc.u-tokyo.ac.jp  401
1   sunspot.eds.ecip.nagoya-u.ac.jp 387
2   rungw002.ritsumei.ac.jp         343

从数据框中获取大学名称,该数据框位于.ac.jp的正前方,但在“下一个”点之后,从后向前,例如主机 pc021133.shef.ac.jp ,大学是 shef.ac.jp .
有人能帮我吗,我找不到一个方法来获取输出。

e4eetjau

e4eetjau1#

尝试使用 regexp_extract :

import pyspark.sql.functions as F

df2 = df.withColumn('name', F.regexp_extract('host', '([^\\.]*\\.ac\\.jp$)', 1))

相关问题