我想检查列值中是否包含‘Coin’等值。有没有可能更改我的正则表达式,使其不包括“加密币|KUCOIN|Coinbase”?我想要一些像这样的东西
“与硬币单词关联的正则表达式|BTCBIT.NET”
请在下面找到我的附加代码:
val CRYPTO_CARD_INDICATOR: String = ("BTCBIT.NET|KUCOIN|COINBASE|CRYPTCOIN")
val CryptoCheckDataset = df.withColumn("is_crypto_indicator",when(upper(col("company_name")).rlike(CRYPTO_CARD_INDICATOR), 1).otherwise(0))
1条答案
按热度按时间hjzp0vay1#
我认为以下措施应该会奏效:
在PySpark中进行全面测试: