面试题：Python类序列化与反序列化之专家题

1. 分析常用序列化模块的问题

pickle：
- 安全性：pickle 反序列化时会执行代码，存在安全风险，若恶意构造数据传入反序列化函数，可能导致代码执行漏洞。
- 性能：在处理大规模数据时，pickle 的性能一般，尤其是在处理复杂数据结构时，序列化和反序列化的时间开销较大。
- 兼容性：不同 Python 版本的 pickle 协议可能有差异，可能导致不同版本间兼容性问题。
json：
- 安全性：相对安全，因为 json 只能处理基本数据类型（字符串、数字、布尔值、列表、字典），不会执行代码。
- 性能：性能较好，在处理简单数据结构时速度快。但对于复杂数据结构，尤其是包含循环引用的数据结构，json 无法直接处理。
- 兼容性：不同 Python 版本对 json 模块的支持较为一致，兼容性较好。

2. 优化方案

针对 pickle：
- 安全性优化：不直接使用 pickle 进行反序列化不受信任的数据。如果必须反序列化外部数据，可使用 pickletools 模块对数据进行预处理，检查数据是否包含恶意代码。例如：

import pickle
import pickletools


def safe_unpickle(data):
    try:
        good_data = pickletools.optimize(data)
        return pickle.loads(good_data)
    except pickle.UnpicklingError:
        return None

性能优化：可以尝试使用更快的 pickle 协议版本（如 pickle.HIGHEST_PROTOCOL），协议版本越高，通常序列化后的大小和速度性能越好。但要注意不同 Python 版本对协议版本的支持情况。

import pickle


class MyClass:
    def __init__(self, value):
        self.value = value


obj = MyClass(42)
serialized = pickle.dumps(obj, protocol=pickle.HIGHEST_PROTOCOL)

兼容性优化：在序列化时使用较低的协议版本（如 pickle.DEFAULT_PROTOCOL），这个协议版本在不同 Python 版本间兼容性较好。

import pickle


class MyClass:
    def __init__(self, value):
        self.value = value


obj = MyClass(42)
serialized = pickle.dumps(obj, protocol=pickle.DEFAULT_PROTOCOL)

针对 json：
- 处理循环引用：可以通过自定义编码器和解码器来处理循环引用。一种常见的方法是将对象转换为 JSON 可序列化的形式，在转换过程中识别并处理循环引用。例如，为每个对象分配一个唯一标识符，当遇到循环引用时，使用标识符代替实际对象。

import json


class MyClass:
    def __init__(self, value):
        self.value = value


class CyclicEncoder(json.JSONEncoder):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.ids = set()

    def default(self, o):
        if id(o) in self.ids:
            return {'__ref__': id(o)}
        self.ids.add(id(o))
        if isinstance(o, MyClass):
            return {'__type__': 'MyClass', 'value': o.value}
        return super().default(o)


def cyclic_decode(dct):
    if '__ref__' in dct:
        return None  # 这里可以优化为真正找到引用的对象
    if '__type__' in dct:
        if dct['__type__'] == 'MyClass':
            return MyClass(dct['value'])
    return dct


obj = MyClass(42)
obj.circular_ref = obj
serialized = json.dumps(obj, cls=CyclicEncoder)
deserialized = json.loads(serialized, object_hook=cyclic_decode)

处理复杂数据结构：确保复杂数据结构中的所有元素都是 JSON 可序列化的。对于自定义类，可以通过实现 __dict__ 或自定义转换方法来使其可序列化。例如：

class ComplexData:
    def __init__(self):
        self.nested_dict = {'a': [1, 2, 3], 'b': {'c': 'value'}}
        self.nested_list = [[1, {'sub': 'data'}], 2]

    def to_dict(self):
        return {
            'nested_dict': self.nested_dict,
            'nested_list': self.nested_list
        }


data = ComplexData()
serialized = json.dumps(data.to_dict())

3. 综合考虑

如果安全性要求极高且数据结构复杂，优先考虑 json 并结合自定义编码器和解码器来处理循环引用和复杂数据结构。如果需要在不同 Python 版本间有较好的兼容性且对性能有一定要求，在使用 pickle 时合理选择协议版本，并进行安全性预处理。

面试题：Python类序列化与反序列化之专家题

知识考点

面试题答案

1. 分析常用序列化模块的问题

2. 优化方案

3. 综合考虑