如何在python中删除字符串中的非波斯语字符?[duplicate]

t3irkdon  于 2023-02-15  发布在  Python
关注(0)|答案(1)|浏览(111)
    • 此问题在此处已有答案**:

Check if a string contains characters other than persian/arabic characters in python(1个答案)
7小时前关闭。
截至7小时前,社区正在审查是否重新讨论此问题。
我想在python中删除字符串中的任何非波斯语字符。例如,如果我有一个字符串如下:

00سلامabc

我有波斯字符和结果变成这样:

سلام

我知道我可以通过正则表达式从字符串中提取波斯语字符,但我有四个问题:
1.我应该考虑哪种类型的字符?ascii还是unicode?

  1. ascii或unicode中有波斯语范围吗?
    1.我应该用哪种语言?阿拉伯语还是波斯语?
    1.如何找到字母表的范围?
gzszwxb4

gzszwxb41#

你可以使用正则表达式来找到所有的波斯字符,然后把它们重新组合在一起...

import re

def persian_only(s):
    return "".join(re.findall(r"[\u0600-\u06FF]+", s))

>>> persian_only("00سلامabc")
سلام

https://trinket.io/python3/cc31b7b436

相关问题