Python分组依据

wnavrhmk 于 2023-01-29 发布在 Python

关注(0)|答案(9)|浏览(118)

假设我有一组数据对，其中 index 0 是值，index 1 是类型：

input = [
          ('11013331', 'KAT'), 
          ('9085267',  'NOT'), 
          ('5238761',  'ETH'), 
          ('5349618',  'ETH'), 
          ('11788544', 'NOT'), 
          ('962142',   'ETH'), 
          ('7795297',  'ETH'), 
          ('7341464',  'ETH'), 
          ('9843236',  'KAT'), 
          ('5594916',  'ETH'), 
          ('1550003',  'ETH')
        ]

我想按类型（按第一个索引字符串）对它们进行分组，如下所示：

result = [ 
           { 
             'type': 'KAT', 
             'items': ['11013331', '9843236'] 
           },
           {
             'type': 'NOT', 
             'items': ['9085267', '11788544'] 
           },
           {
             'type': 'ETH', 
             'items': ['5238761', '962142', '7795297', '7341464', '5594916', '1550003'] 
           }
         ]

我怎样才能有效地做到这一点？

python

来源：https://stackoverflow.com/questions/3749512/python-group-by

9条答案

按热度按时间

bfrts1fy1#

分两步来做。首先，创建一个字典。

>>> input = [('11013331', 'KAT'), ('9085267', 'NOT'), ('5238761', 'ETH'), ('5349618', 'ETH'), ('11788544', 'NOT'), ('962142', 'ETH'), ('7795297', 'ETH'), ('7341464', 'ETH'), ('9843236', 'KAT'), ('5594916', 'ETH'), ('1550003', 'ETH')]
>>> from collections import defaultdict
>>> res = defaultdict(list)
>>> for v, k in input: res[k].append(v)
...

然后，将字典转换为预期格式。

>>> [{'type':k, 'items':v} for k,v in res.items()]
[{'items': ['9085267', '11788544'], 'type': 'NOT'}, {'items': ['5238761', '5349618', '962142', '7795297', '7341464', '5594916', '1550003'], 'type': 'ETH'}, {'items': ['11013331', '9843236'], 'type': 'KAT'}]

也可以使用itertools.groupby，但它要求输入首先进行排序。

>>> sorted_input = sorted(input, key=itemgetter(1))
>>> groups = groupby(sorted_input, key=itemgetter(1))
>>> [{'type':k, 'items':[x[0] for x in v]} for k, v in groups]
[{'items': ['5238761', '5349618', '962142', '7795297', '7341464', '5594916', '1550003'], 'type': 'ETH'}, {'items': ['11013331', '9843236'], 'type': 'KAT'}, {'items': ['9085267', '11788544'], 'type': 'NOT'}]

注意，这两种方法都不遵守键的原始顺序。如果需要保持顺序，则需要OrderedDict。

>>> from collections import OrderedDict
>>> res = OrderedDict()
>>> for v, k in input:
...   if k in res: res[k].append(v)
...   else: res[k] = [v]
... 
>>> [{'type':k, 'items':v} for k,v in res.items()]
[{'items': ['11013331', '9843236'], 'type': 'KAT'}, {'items': ['9085267', '11788544'], 'type': 'NOT'}, {'items': ['5238761', '5349618', '962142', '7795297', '7341464', '5594916', '1550003'], 'type': 'ETH'}]

赞(0）回复(0）举报 2023-01-29

cbwuti442#

Python内置的itertools模块实际上有一个groupby函数，但是要分组的元素必须首先排序，使得要分组的元素在列表中是连续的：

from operator import itemgetter
sortkeyfn = itemgetter(1)
input = [('11013331', 'KAT'), ('9085267', 'NOT'), ('5238761', 'ETH'), 
 ('5349618', 'ETH'), ('11788544', 'NOT'), ('962142', 'ETH'), ('7795297', 'ETH'), 
 ('7341464', 'ETH'), ('9843236', 'KAT'), ('5594916', 'ETH'), ('1550003', 'ETH')] 
input.sort(key=sortkeyfn)

现在输入如下所示：

[('5238761', 'ETH'), ('5349618', 'ETH'), ('962142', 'ETH'), ('7795297', 'ETH'),
 ('7341464', 'ETH'), ('5594916', 'ETH'), ('1550003', 'ETH'), ('11013331', 'KAT'),
 ('9843236', 'KAT'), ('9085267', 'NOT'), ('11788544', 'NOT')]

groupby返回一个2元组的序列，格式为(key, values_iterator)，我们需要将其转换为一个字典列表，其中'type'是键，'items'是values_iterator返回的元组的第0个元素的列表，如下所示：

from itertools import groupby
result = []
for key,valuesiter in groupby(input, key=sortkeyfn):
    result.append(dict(type=key, items=list(v[0] for v in valuesiter)))

现在result包含了您想要的dict，正如您的问题中所述。
不过，您可能会考虑只将其作为一个dict，按类型键控，并且每个值包含值列表。在当前表单中，要查找特定类型的值，必须遍历列表以查找包含匹配“type”键的dict，然后从中获取“items”元素。如果使用单个dict而不是1项dict列表，您可以通过主键查找主指令来查找特定类型的项目。使用groupby，如下所示：

result = {}
for key,valuesiter in groupby(input, key=sortkeyfn):
    result[key] = list(v[0] for v in valuesiter)

result现在包含这个dict（这类似于@KennyTM的回答中的中间res defaultdict）：

{'NOT': ['9085267', '11788544'], 
 'ETH': ['5238761', '5349618', '962142', '7795297', '7341464', '5594916', '1550003'], 
 'KAT': ['11013331', '9843236']}

(If要将其简化为一行程序，可以：

result = dict((key,list(v[0] for v in valuesiter)
              for key,valuesiter in groupby(input, key=sortkeyfn))

或者使用新的听写理解形式：

result = {key:list(v[0] for v in valuesiter)
              for key,valuesiter in groupby(input, key=sortkeyfn)}

赞(0）回复(0）举报 2023-01-29

fgw7neuy3#

这个答案类似于@PaulMcG的答案，但不需要对输入进行排序。
对于那些学习函数式编程的人来说，groupBy可以写在一行中（不包括导入！），而且与itertools.groupby不同的是，它不需要对输入进行排序：

from functools import reduce # import needed for python3; builtin in python2
from collections import defaultdict

def groupBy(key, seq):
 return reduce(lambda grp, val: grp[key(val)].append(val) or grp, seq, defaultdict(list))

(The在lambda中使用... or grp的原因是，要使reduce()工作，lambda需要返回其第一个参数;因为list.append()总是返回None，所以or也总是返回grp，也就是说，这是一个绕过python限制的技巧，即lambda只能计算单个表达式。）
这将返回一个dict，其键是通过计算给定函数找到的，其值是按原始顺序排列的原始项的列表。对于OP的示例，将其作为groupBy(lambda pair: pair[1], input)调用将返回以下dict：

{'KAT': [('11013331', 'KAT'), ('9843236', 'KAT')],
 'NOT': [('9085267', 'NOT'), ('11788544', 'NOT')],
 'ETH': [('5238761', 'ETH'), ('5349618', 'ETH'), ('962142', 'ETH'), ('7795297', 'ETH'), ('7341464', 'ETH'), ('5594916', 'ETH'), ('1550003', 'ETH')]}

根据@PaulMcG的回答，OP请求的格式可以通过将其 Package 在列表解析中来找到。

result = {key: [pair[0] for pair in values],
          for key, values in groupBy(lambda pair: pair[1], input).items()}

赞(0）回复(0）举报 2023-01-29

hxzsmxv24#

我也喜欢panda simple grouping，它功能强大，简单，最适合大数据集

result = pandas.DataFrame(input).groupby(1).groups

赞(0）回复(0）举报 2023-01-29

clj7thdc5#

下面的函数将通过具有任何索引的键快速（不需要排序）对任何长度的元组进行分组：

# given a sequence of tuples like [(3,'c',6),(7,'a',2),(88,'c',4),(45,'a',0)],
# returns a dict grouping tuples by idx-th element - with idx=1 we have:
# if merge is True {'c':(3,6,88,4),     'a':(7,2,45,0)}
# if merge is False {'c':((3,6),(88,4)), 'a':((7,2),(45,0))}
def group_by(seqs,idx=0,merge=True):
    d = dict()
    for seq in seqs:
        k = seq[idx]
        v = d.get(k,tuple()) + (seq[:idx]+seq[idx+1:] if merge else (seq[:idx]+seq[idx+1:],))
        d.update({k:v})
    return d

在您的问题中，要作为分组依据的键的索引是1，因此：

group_by(input,1)

给予

{'ETH': ('5238761','5349618','962142','7795297','7341464','5594916','1550003'),
 'KAT': ('11013331', '9843236'),
 'NOT': ('9085267', '11788544')}

这不完全是您要求的输出，但可能也适合您的需要。

赞(0）回复(0）举报 2023-01-29

3j86kqsm6#

result = []
# Make a set of your "types":
input_set = set([tpl[1] for tpl in input])
>>> set(['ETH', 'KAT', 'NOT'])
# Iterate over the input_set
for type_ in input_set:
    # a dict to gather things:
    D = {}
    # filter all tuples from your input with the same type as type_
    tuples = filter(lambda tpl: tpl[1] == type_, input)
    # write them in the D:
    D["type"] = type_
    D["itmes"] = [tpl[0] for tpl in tuples]
    # append D to results:
    result.append(D)

result
>>> [{'itmes': ['9085267', '11788544'], 'type': 'NOT'}, {'itmes': ['5238761', '5349618', '962142', '7795297', '7341464', '5594916', '1550003'], 'type': 'ETH'}, {'itmes': ['11013331', '9843236'], 'type': 'KAT'}]

赞(0）回复(0）举报 2023-01-29

luaexgnf7#

您可以使用convtools库，它可以为您的具体任务生成ad-hoc代码，并允许动态代码生成。

from convtools import conversion as c

# grouping by second elements of tuples;
# aggregate defines the schema of the expected output elements
converter = c.group_by(c.item(1)).aggregate({
    "type": c.item(1),
    "items": c.ReduceFuncs.Array(c.item(0)),
}).gen_converter()

# now you have a function which does what you asked,
# store it somewhere for further reuse
converter(input_data)

赞(0）回复(0）举报 2023-01-29

bz4sfanl8#

下面的代码段也是一种获得所需结果的方法-

res = []
dict1 = {}
for item in input:
  if item[1] not in dict1:
    dict1[item[1]] = [item[0]]
  elif item[1] in dict1:
    dict1[item[1]].append(item[0])
for k, v in dict1.items():
  res.append({"type": k, "items": v})

# res = [ { type:'KAT', items: ['11013331', '9843236'] },{ type:'NOT',  items: ['9085267', '11788544'] },{ type:'ETH',  items: ['5238761', '962142', '7795297', '7341464', '5594916', '1550003'] }]

赞(0）回复(0）举报 2023-01-29

jogvjijk9#

这不是很有效率，但它是Python式的。基本上，通过取组值的集合来计算不同的组，然后对于每个组，获取该组中的项。

[
    {
        "type": group,
        "items": [item[0] for item in input if item[1] == group]
    }
    for group in {item[1] for item in input}
]

赞(0）回复(0）举报 2023-01-29

我来回答

Python分组依据

9条答案

相关问题

热门标签

最新问答