我试图删除所有不必要的单词和字符的值在这一列。我希望行包含'入门级','中级-高级'等。也有无论如何翻译阿拉伯语到英语或我应该使用替换功能?
df_africa.资历级别.值计数()
{'Seniority level': 'Entry level'} 1073
{'Seniority level': 'Mid-Senior level'} 695
{'Seniority level': 'Associate'} 481
{'Seniority level': 'Not Applicable'} 150
{'مستوى الأقدمية': 'مستوى متوسط الأقدمية'} 115
{'مستوى الأقدمية': 'مستوى المبتدئين'} 82
{'نوع التوظيف': 'دوام كامل'} 73
{'مستوى الأقدمية': 'مساعد'} 48
{'مستوى الأقدمية': 'غير مطبق'} 42
{'Seniority level': 'Internship'} 39
{'Employment type': 'Contract'} 21
{'Employment type': 'Full-time'} 1
I've tried the split function but i couldn't get it to work properly.
2条答案
按热度按时间pnwntuvh1#
IIUC,使用此:
如果需要翻译提取的单词,请使用
deep-translator
:尽管我建议您使用一个使用
map
的自定义dict来获得适当的翻译。#输出:
display(df_africa)
mwg9r5ms2#
了解'seniority_level'列的类型会很有用,但我将假设该列由文字字符串组成(例如,“{'Seniority level':'入门级'}”)
可以翻译所有的文本与此googletrans包,它背负了谷歌翻译,所以使用它,而它的持续。请确保安装版本4.0.0rc1。
翻译:
第一次
然后获取所需文本:
第一个
如果googletrans最终崩溃,请查看官方的google translate api。