我设法让我的python脚本使用Playwright从一个网站上抓取数据。网站数据的格式目前对我们来说不可用。下面是最初提取的一个例子:
| 姓名|第1组|第二组|第三组|第四组|第五组|
| - ------|- ------|- ------|- ------|- ------|- ------|
| 乔·布莱克|A类|||美国||
| 乔·布鲁||A类|A类|||
| 乔·绿色|美国||||A类|
| 乔·瑞德||A类||美国||
上表中的A表示用户是组的管理员。我需要将上面的数据放入一个表中,如果他们是组的管理员,则在第1行和第2行列出他们的名称。因此,基本上我需要将其设置为:
| 组别|管理员|
| - ------|- ------|
| 第1组|乔·布鲁乔·瑞德|
| 第二组|乔·瑞德|
| 第三组|乔·布鲁|
| 第四组|乔·布鲁|
| 第五组|乔·绿色|
我试图使用Pandas,但完全失去了如何获得正确的格式。只是需要一些建议或参考类似的问题,我可以工作了?
3条答案
按热度按时间watbbzwu1#
您可以使用
melt
进行整形,然后使用dropna
和groupby.agg
:带有
stack
的变体:输出:
vsmadaxz2#
如果你将其拆分,那么你会得到一个带有MultiIndex的Series。然后你可以使用groupby并连接对应于“A”值的名称:
xxslljrj3#
如果您需要对空字符串/NA保持健壮性:
输出: