我有一个包含URL的数据集。在URL之后,我有相关的信息。我将使用deeplearning算法来训练和测试模型。我有一个长度的问题。现在我想计算哪个有很多数据,然后在那之后,如果数据小于这个数量,用0代替url1_data或url2_data。但是,如果相同的网址来在两个不同的网址中间下降的网址。我没有代码张贴,因为我不知道如何做到这一点。
col1 col2 col3
1 2 url1
1 2 url1_data
1 2 url1_data
1 2 url1
1 2 url1_data
1 2 url1_data
1 2 url2
1 2 url2_data
1 2 url2_data
预期产出:
col1 col2 col3
1 2 url1
1 2 url1_data
1 2 url1_data
1 2 url1_data
1 2 url1_data
1 2 url2
1 2 url2_data
1 2 url2_data
1 2 url2_data(0) # 0 padded
1 2 url2_data(0) # 0 padded
长度现在相等,重复的URL也被删除
大量数据意味着与该URL相关的行数。例如,对于url1
,我有4行url1_data
,这比url2
数据多(行),所以我在url2
下面额外添加了两行。所以现在数据是相同的。假设url3
有三行,小于url1
,因此我只需要添加一个url3_data(0)
,表示这是填充值
1条答案
按热度按时间cpjpxq1n1#
我不太清楚您所说的'calculate which has a many data'是什么意思,但是您可以尝试使用Python ljust() 方法,例如:
其中“15”表示具有填充的字符串的长度,“0”是要填充的字符。