面试题：Python编码转换中的字节序与编码映射

1. UTF - 16编码中的大端序和小端序在Python中的表现

大端序（Big - Endian）：字节从高位到低位存储。在Python中，UTF - 16大端序编码表示为'utf - 16be'。例如，字符串'你'的Unicode码点是0x4F60，在UTF - 16大端序中，其字节表示为b'\x4F\x60'。可以通过以下代码验证：

s = '你'
encoded = s.encode('utf - 16be')
print(encoded)

小端序（Little - Endian）：字节从低位到高位存储。在Python中，UTF - 16小端序编码表示为'utf - 16le'。对于字符串'你'，在UTF - 16小端序中，其字节表示为b'\x60\x4F'。代码示例如下：

s = '你'
encoded = s.encode('utf - 16le')
print(encoded)

而默认的'utf - 16'编码在Python中会在开头添加一个字节序标记（BOM），b'\xff\xfe'表示小端序，b'\xfe\xff'表示大端序。

2. 不同编码（如UTF - 8与UTF - 16）相互转换时处理字节序

从UTF - 8转换到UTF - 16：首先将UTF - 8编码的字节串解码为Unicode字符串，然后再将Unicode字符串编码为指定字节序的UTF - 16。例如，将UTF - 8编码的b'\xe4\xbd\xa0'转换为UTF - 16大端序：

utf8_bytes = b'\xe4\xbd\xa0'
unicode_str = utf8_bytes.decode('utf - 8')
utf16be_bytes = unicode_str.encode('utf - 16be')
print(utf16be_bytes)

从UTF - 16转换到UTF - 8：先将UTF - 16编码的字节串解码为Unicode字符串（注意指定字节序），再将Unicode字符串编码为UTF - 8。例如，将UTF - 16小端序的b'\x60\x4F'转换为UTF - 8：

utf16le_bytes = b'\x60\x4F'
unicode_str = utf16le_bytes.decode('utf - 16le')
utf8_bytes = unicode_str.encode('utf - 8')
print(utf8_bytes)

3. Python内部编码映射表的工作原理

Python内部使用编码映射表将字符的Unicode码点与不同编码格式的字节表示进行映射。当调用str.encode()或bytes.decode()方法时，Python会查找相应的编码映射表来进行转换。这些映射表是预定义的，不同编码有其特定的映射规则。例如，UTF - 8编码映射表定义了如何将Unicode码点转换为1 - 4个字节的序列，而UTF - 16映射表定义了如何将Unicode码点转换为2字节（基本多文种平面）或4字节（辅助平面）的序列。

4. 自定义编码映射

在Python中，可以通过继承codecs.CodecInfo类并实现相应的编码和解码方法来自定义编码映射。以下是一个简单示例，创建一个将所有字符转换为大写的自定义编码：

import codecs


class UpperCaseCodec:
    @staticmethod
    def encode(input_str, errors='strict'):
        output = ''.join(c.upper() for c in input_str)
        return (output.encode('utf - 8'), len(input_str))

    @staticmethod
    def decode(input_bytes, errors='strict'):
        decoded = input_bytes.decode('utf - 8')
        return (decoded.lower(), len(input_bytes))


def search_function(encoding):
    if encoding == 'upper - case':
        return codecs.CodecInfo(
            name='upper - case',
            encode=UpperCaseCodec.encode,
            decode=UpperCaseCodec.decode
        )
    return None


codecs.register(search_function)

s = 'hello'
encoded = s.encode('upper - case')
print(encoded)
decoded = encoded.decode('upper - case')
print(decoded)

上述代码定义了一个名为upper - case的自定义编码，它将编码时的字符串转换为大写，解码时转换为小写。通过codecs.register()注册自定义编码后，就可以像使用标准编码一样使用它。

面试题：Python编码转换中的字节序与编码映射

知识考点

面试题答案

1. UTF - 16编码中的大端序和小端序在Python中的表现

2. 不同编码（如UTF - 8与UTF - 16）相互转换时处理字节序

3. Python内部编码映射表的工作原理

4. 自定义编码映射