我有这个dataframe:
dfA = pd.DataFrame({
'A': ['abc','ghi','mno', 'stu'],
'B': ['abcdef', 'jklghi', 'mnopqr', 'vwxstu']
})
dfA
我想得到这个dataframe:
dfB = pd.DataFrame({
'A': ['abc','ghi','mno', 'stu'],
'B': ['abcdef', 'jklghi', 'mnopqr', 'vwxstu'],
'C': ['def', 'jkl', 'pqr', 'vwx'],
})
dfB
列“C”必须包含列“B”的子字符串,而该子字符串不在列“A”的字符串中。
我尝试将列'B'复制到'C'中,然后使用df.replace()
,如下所示,但它不起作用:
dfA = pd.DataFrame({
'A': ['abc','ghi','mno', 'stu'],
'B': ['abcdef', 'jklghi', 'mnopqr', 'vwxstu']
})
dfA.loc[:,'C'] = dfA['B']
dfA['C'].replace(dfA['B'], '', regex=True)
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
~\AppData\Local\Temp\ipykernel_16112\1271772080.py in <cell line: 7>()
5 dfA.loc[:,'C'] = dfA['B']
6
----> 7 dfA['C'].replace(dfA['B'], '', regex=True)
~\Anaconda3\envs\py310\lib\site-packages\pandas\core\series.py in replace(self, to_replace, value, inplace, limit, regex, method)
4958 method: str | lib.NoDefault = lib.no_default,
4959 ):
-> 4960 return super().replace(
4961 to_replace=to_replace,
4962 value=value,
~\Anaconda3\envs\py310\lib\site-packages\pandas\core\generic.py in replace(self, to_replace, value, inplace, limit, regex, method)
6677 # Operate column-wise
6678 if self.ndim == 1:
-> 6679 raise ValueError(
6680 "Series.replace cannot use dict-like to_replace "
6681 "and non-None value"
ValueError: Series.replace cannot use dict-like to_replace and non-None value
此外,“A”中的字符串必须是“B”列的前缀/后缀,因此“C”列将是“B”字符串的su/前缀。所以,'B' = 'A'+'C' | 'C'+'A'
,我还尝试使用-
作为“decatenation”运算符,但它不起作用。
你知道我该怎么做吗?
1条答案
按热度按时间g0czyy6m1#
你需要在这里循环。
可以使用
re.sub
:或
str.replace
:输出: