pandas.cut()带有NA值，导致“NA的布尔值不明确”

evrscar2 于 2023-01-24 发布在其他

关注(0)|答案(2)|浏览(212)

我想理解为什么这段代码会引发TypeError。

import pandas
pandas.cut(x=[1, 2, pandas.NA, 4, 5, 6, 7], bins=3)

完全错误

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/user/.local/lib/python3.9/site-packages/pandas/core/reshape/tile.py", line 293, in cut
    fac, bins = _bins_to_cuts(
  File "/home/user/.local/lib/python3.9/site-packages/pandas/core/reshape/tile.py", line 428, in _bins_to_cuts
    ids = ensure_platform_int(bins.searchsorted(x, side=side))
  File "pandas/_libs/missing.pyx", line 382, in pandas._libs.missing.NAType.__bool__
TypeError: boolean value of NA is ambiguous

当然，包含缺失值（pandom.NA）的值也是如此。但是在 * 注解 * 部分查找into the to docs。
任何NA值在结果中都将是NA。超出界限的值在结果系列或分类对象中将是NA。
根据我对文档的理解，这不应该引发错误。

pandas

来源：https://stackoverflow.com/questions/75199166/pandas-cut-with-na-values-causing-boolean-value-of-na-is-ambiguous

2条答案

按热度按时间

ovfsdjhp1#

看起来pd.cut在遇到（相对较新的）pd.NA值and it's not the only one时行为不一致。
请花些时间来报告它，并将它与主要问题联系起来。
同时，您可以将值 Package 在IntegerArray中，这允许整数类型为空值：

# Using IntegerArray
In [1]: import pandas as pd

In [2]: pd.cut(x=pd.array([1, 2, pd.NA, 4, 5, 6, 7]), bins=3)
Out[2]:
[(0.994, 3.0], (0.994, 3.0], NaN, (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], (5.0, 7.0]]
Categories (3, interval[float64, right]): [(0.994, 3.0] < (3.0, 5.0] < (5.0, 7.0]]

或者如果你不喜欢使用实验性的API，你可以使用np.array，尽管这会将dtype改为float：

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: pd.cut(x=np.array([1, 2, np.nan, 4, 5, 6, 7]), bins=3)
Out[3]:
[(0.994, 3.0], (0.994, 3.0], NaN, (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], (5.0, 7.0]]
Categories (3, interval[float64, right]): [(0.994, 3.0] < (3.0, 5.0] < (5.0, 7.0]]

希望这个有用。

赞(0）回复(0）举报 2023-01-24

s6fujrry2#

...了解此代码引发`TypeError` 的原因

它的本质是pd.NA值（https://pandas.pydata.org/pandas-docs/version/1.0.0/user_guide/missing_data.html）。
表示缺失值的实验NA标量

警告实验性：pd.NA的行为仍然可以在没有警告的情况下改变。

...
通常，缺少值会在涉及pd.NA的运算中传播。当其中一个操作数未知时，运算的结果也未知。
...
在相等和比较运算中，pd.NA也会传播。
...
由于NA的实际值是未知的，因此将NA转换为布尔值是不明确的。以下情况会引发错误：TypeError: boolean value of NA is ambiguous
pd.cut在其内部_bins_to_cuts函数中使用np.searchsorted，在您的示例中，_bins_to_cuts在ids = ensure_platform_int(bins.searchsorted(x, side=side))行失败，其中x是 bins 条件（标记）之一。
然后，深入研究np.searchsorted：它在内部进行类似a[i-1] < v <= a[i]/a[i-1] <= v < a[i]的比较操作以找到插入索引。
因此，对于输入列表[1, 2, pd.NA, 4, 5, 6, 7]，任何类似<value> <= pd.NA的比较都会给予pd.NA，而不是逻辑值（True/False）......这确实是不明确的，并且会失败，并出现相应的错误。

In [372]: 1 <= pd.NA
Out[372]: <NA>

赞(0）回复(0）举报 2023-01-24

我来回答

pandas.cut()带有NA值，导致“NA的布尔值不明确”

2条答案

...了解此代码引发`TypeError` 的原因

相关问题

热门标签

最新问答

pandas.cut()带有NA值，导致“NA的布尔值不明确”

2条答案

*...了解此代码引发TypeError * 的原因

相关问题

热门标签

最新问答

...了解此代码引发`TypeError` 的原因