面试题：Python字符串空白处理：协议化规范扩展

假设现有的Python字符串空白处理协议化规范需要扩展一个新功能：对于字符串中的空白字符，除了常规的去除和替换操作外，还要记录每种类型空白字符（如空格、制表符、换行符等）在原字符串中的位置信息，并以特定的数据结构（如字典，键为空白字符类型，值为位置列表）返回。请基于现有的Python字符串处理库和最佳实践，设计并实现这个功能。同时，说明如何在保持原有协议化规范兼容性的前提下进行此扩展，以及在大规模文本处理场景下，如何优化性能。

38.8万热度

难度

编程语言Python

实现功能

def process_whitespace(s):
    whitespace_types = {
       'space': [],
        'tab': [],
        'newline': []
    }
    for i, char in enumerate(s):
        if char == '':
            whitespace_types['space'].append(i)
        elif char == '\t':
            whitespace_types['tab'].append(i)
        elif char == '\n':
            whitespace_types['newline'].append(i)
    return whitespace_types

保持兼容性

函数设计：新功能以独立函数形式实现，不修改原有字符串处理函数的签名和功能。这样，原有依赖旧协议规范的代码无需更改即可继续正常运行。
导入方式：如果将新功能封装在模块中，可以使用条件导入的方式。例如，在旧版本代码中，不导入新功能模块；而在需要新功能的代码中，导入该模块并使用新函数。

性能优化（大规模文本处理场景）

减少内存分配：在遍历字符串时，尽量避免频繁创建新的数据结构。例如，可以预先分配足够大小的列表来存储位置信息，而不是每次遇到空白字符都进行动态扩展。
并行处理：如果系统支持多线程或多进程，可以将文本分割成多个部分，并行处理每个部分的空白字符位置记录，最后合并结果。在Python中，可以使用multiprocessing或threading模块来实现。
使用更高效的数据结构：对于大规模数据，collections.deque可能比普通列表在某些操作上更高效。例如，在向列表末尾添加元素时，deque的平均时间复杂度为O(1)，而列表在动态扩展时可能有更高的时间复杂度。可以考虑将位置信息存储在deque中。

面试题：Python字符串空白处理：协议化规范扩展

知识考点

面试题答案

实现功能

保持兼容性

性能优化（大规模文本处理场景）