pandas 嵌套字典-->重组字典-->多索引 Dataframe -->堆叠,结果不是所需的，因为值被分隔

e0bqpujr 于 2022-11-20 发布在其他

关注(0)|答案(2)|浏览(127)

我有一个嵌套的字典，看起来像这样：

test_dict = {'header1_1': {'header2_1': {'header3_1': {'header4_1': ['322.5', 330.0, -0.28],
    'header4_2': ['322.5', 332.5, -0.26]},
   'header3_2': {'header4_1': ['285.0', 277.5, -0.09],
    'header4_2': ['287.5', 277.5, -0.12]}},
  'header2_2': {'header3_1': {'header4_1': ['345.0', 357.5, -0.14],
    'header4_2': ['345.0', 362.5, -0.14]},
   'header3_2': {'header4_1': ['257.5', 245.0, -0.1],
    'header4_2': ['257.5', 240.0, -0.08]}}}}

中的每一个
标头有 4 个级别，每个级别可以有多个值，例如 header1_1 、 header1_2 。指定这些标头的组合后，您将拥有一个包含 3 个值的列表。
我想把它放到一个数据帧中，所以我创建了一个经过修改的字典：

reformed_dict = {}
for outerKey, innerDict in test_dict.items():
    for innerKey, innerDict2 in innerDict.items():
        for innerKey2, innerDict3 in innerDict2.items():
            for innerKey3, values in innerDict3.items():
                reformed_dict[(outerKey,
                        innerKey, innerKey2, innerKey3)] = values
  
reformed_dict

格式
修改后的词典如下：
{（ " 标题 1_1 " 、 " 标题 2_1 " 、 " 标题 3_1 " 、 " 标题 4_1 " ）：[ " 322.5 " ， 330.0 ， -0.28 ] ，
（ ' 信头 1_1 ' 、 ' 信头 2_1 ' 、 ' 信头 3_1 ' 、 ' 信头 4_2 ' ）：[ " 322.5 " ， 332.5 ， -0.26 ] ，
（ " 标题 1_1 " 、 " 标题 2_1 " 、 " 标题 3_2 " 、 " 标题 4_1 " ）：[ " 285.0 " ， 277.5 ， -0.09 ] ，
（ ' 信头 1_1 ' 、 ' 信头 2_1 ' 、 ' 信头 3_2 ' 、 ' 信头 4_2'）：[ " 287.5 " ， 277.5 ， -0.12 ] ，
（ ' 信头 1_1 ' 、 ' 信头 2_2 ' 、 ' 信头 3_1 ' 、 ' 信头 4_1 ' ）：[ " 345.0 " ， 357.5 ， -0.14 ] ，
（ ' 信头 1_1 ' 、 ' 信头 2_2 ' 、 ' 信头 3_1 ' 、 ' 信头 4_2 ' ）：[ " 345.0 " ， 362.5 ， -0.14 ] ，
（ ' 信头 1_1 ' 、 ' 信头 2_2 ' 、 ' 信头 3_2 ' 、 ' 信头 4_1 ' ）：[ " 257.5 " ， 245.0 ， -0.1 ] ，
（ ' 信头 1_1 ' 、 ' 信头 2_2 ' 、 ' 信头 3_2 ' 、 ' 信头 4_2'）：【 257.5 ， 240.0 ， -0.08 】
将其放入数据帧：

df = pandas.DataFrame(reformed_dict)

格式
它看起来像：
报头 1_1
报头 2_1 报头 2_2
报头 3_1 报头 3_2 报头 3_1 报头 3_2
头 4_1 头 4_2 头 4_1 头 4_2 头 4_1 头 4_2 头 4_1 头 4_2 头 4_1 头 4_2
2000 年 12 月 31 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 2000 年 6 月 30 日终了的 200
2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 2000 年 12 月 31 日终了的 200
一个月后，该指数将下降。
我想做的是让所有的列标题都是行标题，每个标题组合有 3 列，我将这些列命名为 Val1 、 Val2 、 Val3 。
因此我使用 df . stack （）将列标题推入行中：

df_1 = df.stack(level=0)
df_2 = df_1.stack(level=0)
df_3 = df_2.stack(level=0)
df_4 = df_3.stack(level=0)
print(df_4)

格式
其结果是：
报头 1_1 报头 2_1 报头 3_1 报头 4_1 322.5
报头 4_2 322.5
报头 3_2 报头 4_1 285.0
标题 4_2 287.5
报头 2_2 报头 3_1 报头 4_1 345.0
报头 4_2 345.0
报头 3_2 报头 4_1 257.5
标题 4_2 257.5
1 报头 1_1 报头 2_1 报头 3_1 报头 4_1 330.0
报头 4_2 332.5
报头 3_2 报头 4_1 277.5
标题 4_2 277.5
报头 2_2 报头 3_1 报头 4_1 357.5
报头 4_2 362.5
报头 3_2 报头 4_1 245.0
报头 4_2 240.0
2 个报头 1_1 个报头 2_1 个报头 3_1 个报头 4_1 -0.28
报头 4_2 -0.26
报头 3_2 报头 4_1 -0.09
报头 4_2 -0.12
报头 2_2 报头 3_1 报头 4_1 -0.14
报头 4_2 -0.14
报头 3_2 报头 4_1 -0.1
报头 4_2 -0.08
这不是我想要的布局，因为我希望每个列表中的 3 个值都在同一行上，就像它们在经过修改的字典中的情况一样。
我如何才能做到这一点？

pandas

来源：https://stackoverflow.com/questions/74484150/nested-dictionary-reformed-dictionary-multi-index-dataframe-stacking

2条答案

按热度按时间

ve7v8dk21#

您正在查找的是MultiIndex。
将dict的键转换为索引并将dict值用作数据：

keys = reformed_dict.keys()
index = pd.MultiIndex.from_tuples(keys, names=["header1", "header2", "header3", "header4"])

values = [reformed_dict[k] for k in keys]

df = pd.DataFrame(data=values, index=index)

输出量：

header1   header2   header3   header4                      
header1_1 header2_1 header3_1 header4_1  322.5  330.0 -0.28
                              header4_2  322.5  332.5 -0.26
                    header3_2 header4_1  285.0  277.5 -0.09
                              header4_2  287.5  277.5 -0.12
          header2_2 header3_1 header4_1  345.0  357.5 -0.14
                              header4_2  345.0  362.5 -0.14
                    header3_2 header4_1  257.5  245.0 -0.10
                              header4_2  257.5  240.0 -0.08

如果希望索引为列：

df = df.reset_index()

输出量：

header1    header2    header3    header4      0      1     2
0  header1_1  header2_1  header3_1  header4_1  322.5  330.0 -0.28
1  header1_1  header2_1  header3_1  header4_2  322.5  332.5 -0.26
2  header1_1  header2_1  header3_2  header4_1  285.0  277.5 -0.09
3  header1_1  header2_1  header3_2  header4_2  287.5  277.5 -0.12
4  header1_1  header2_2  header3_1  header4_1  345.0  357.5 -0.14
5  header1_1  header2_2  header3_1  header4_2  345.0  362.5 -0.14
6  header1_1  header2_2  header3_2  header4_1  257.5  245.0 -0.10
7  header1_1  header2_2  header3_2  header4_2  257.5  240.0 -0.08

赞(0）回复(0）举报 2022-11-20

cedebl8k2#

请尝试：

test_dict = \
{'header1_1': {'header2_1': {'header3_1': {'header4_1': ['322.5', 330.0, -0.28],
                                           'header4_2': ['322.5', 332.5, -0.26]},
                             'header3_2': {'header4_1': ['285.0', 277.5, -0.09],
                                           'header4_2': ['287.5', 277.5, -0.12]}},
               'header2_2': {'header3_1': {'header4_1': ['345.0', 357.5, -0.14],
                                           'header4_2': ['345.0', 362.5, -0.14]},
                             'header3_2': {'header4_1': ['257.5', 245.0, -0.10],
                                           'header4_2': ['257.5', 240.0, -0.08]}}}}
#from pprint import pprint
#pprint(test_dict)

from collections import defaultdict
import pandas as pd
dct_N = defaultdict(list)
total_rows = 0
def fillDataFrameDict(dct, level=0):
    global dct_N, total_rows
    for key, value in dct.items():
        if not isinstance(value, dict):
            dct_N[f'headerNo_{level+1}'].append(key)
            total_rows += 1 
            dct_N['body'].append(value)
            for key_N, value_N in dct_N.items():
                dct_N[key_N] = value_N + (total_rows-len(value_N))*[value_N[-1]]
        else: 
            dct_N[f'headerNo_{level+1}'].append(key)
            fillDataFrameDict(value, level+1)

fillDataFrameDict(test_dict)
df = pd.DataFrame(dct_N)
print(df)

其给出：

headerNo_1 headerNo_2 headerNo_3 headerNo_4                   body
0  header1_1  header2_1  header3_1  header4_1  [322.5, 330.0, -0.28]
1  header1_1  header2_1  header3_1  header4_2  [322.5, 332.5, -0.26]
2  header1_1  header2_1  header3_2  header4_1  [285.0, 277.5, -0.09]
3  header1_1  header2_1  header3_2  header4_2  [287.5, 277.5, -0.12]
4  header1_1  header2_2  header3_1  header4_1  [345.0, 357.5, -0.14]
5  header1_1  header2_2  header3_1  header4_2  [345.0, 362.5, -0.14]
6  header1_1  header2_2  header3_2  header4_1   [257.5, 245.0, -0.1]
7  header1_1  header2_2  header3_2  header4_2  [257.5, 240.0, -0.08]

当处理深度嵌套列表或字典时，使用递归遍历嵌套分支是一个很好的例子，在这里使用递归是有意义的。
沿着body元素的路径，上面的递归函数测试字典值的类型，并在该值不是字典时停止递归调用。
通过在递归调用期间跟踪行的级别和数量，可以使用适当的值填充列，因此在创建PandasDataFrame时，每列中的行元素数量相等。
collections模块中提供的defaultdict(list) dictionary对象（标准Python安装的一部分）创建一个空列表作为值，并为尚未存储在字典中的键返回该值。这节省了在用项填充列表之前在字典中创建第一个key:value条目所需的一些代码行。

赞(0）回复(0）举报 2022-11-20

我来回答

pandas 嵌套字典-->重组字典-->多索引 Dataframe -->堆叠,结果不是所需的，因为值被分隔

2条答案

相关问题

热门标签

最新问答