星途面试题库

面试题：Python字典存储列表的优化及应用场景

在一个Python项目中，大量使用字典存储列表来处理复杂的数据结构，随着数据量增加出现性能瓶颈。请分析可能导致性能问题的原因，并提出至少两种优化方案。同时，阐述在哪些实际应用场景下，使用字典存储列表这种数据结构最合适，为什么？

12.6万热度

难度

编程语言Python

知识考点

AI 面试

面试题答案

性能问题原因分析

内存占用：随着数据量增大，字典和内部列表不断扩张，占用大量内存，影响性能。
查找复杂度：虽然字典查找平均O(1)，但大量数据时哈希冲突可能导致查找时间变长，遍历内部列表查找特定元素复杂度为O(n)。
数据更新：对字典内列表数据更新时，可能需要重新分配内存空间，影响性能。

优化方案

使用defaultdict：简化字典初始化，减少重复代码。如：

from collections import defaultdict
data = defaultdict(list)
data['key'].append('value')

数据结构优化：若数据有一定规律，可考虑使用numpy数组代替列表。numpy数组在存储和计算大量同类型数据时性能更好。

import numpy as np
# 假设字典内列表存储数值
data = {key: np.array([1, 2, 3]) for key in range(10)}

索引优化：若常按特定条件查找列表内元素，可建立额外索引。如：

data_dict = {'key1': [1, 2, 3], 'key2': [4, 5, 6]}
index_dict = {}
for key, value_list in data_dict.items():
    for value in value_list:
        if value not in index_dict:
            index_dict[value] = []
        index_dict[value].append(key)

适用场景及原因

分组统计：如统计不同班级学生成绩，班级为键，成绩列表为值。因为可方便按班级分组数据，便于后续计算平均分、最高分等统计操作。
关系映射：比如存储用户及其关注列表，用户为键，关注的其他用户列表为值。字典可快速定位用户，列表存储关注关系简单直观。