面试题：Rust字符串实用函数性能深度剖析与优化实践

`from_utf8` 优缺点

优点：如果字节数据确实是合法的UTF - 8编码，from_utf8 转换为 String 是非常高效的，因为它直接使用现有的字节数据构造字符串，不需要额外的内存复制（除了可能的内部字符串容量调整）。
缺点：如果字节数据不是合法的UTF - 8编码，from_utf8 会返回 Err，对于海量非UTF - 8编码的数据，这意味着大量无效转换尝试，性能会很差，并且错误处理逻辑会变得复杂。

`to_string_lossy` 优缺点

优点：to_string_lossy 对于非UTF - 8编码的数据能进行“有损”转换，将无效字节序列替换为 �，适用于处理海量非UTF - 8编码数据，性能相对较好，因为它不需要每次都进行严格的UTF - 8合法性检查（而是在遇到非法字节时进行替换处理）。
缺点：由于它需要处理非法字节并替换，在转换过程中可能会分配更多内存用于存储替换后的字符，并且转换后的 Cow<'_, str> 类型可能需要额外的逻辑来处理其借用生命周期问题，增加了代码复杂性。

优化实现思路

自定义字节处理逻辑：遍历字节数组，对于合法的UTF - 8字节序列直接复制到目标字符串，对于非法字节序列，根据业务需求进行更高效的处理。例如，可以用一个固定的占位符（比 � 更短，减少内存占用）替换非法字节序列。
分块处理：将海量字节数据分块处理，避免一次性处理大量数据导致内存压力过大。每处理完一块数据，及时释放不再需要的中间数据。
缓存处理结果：如果存在重复的非法字节序列，可以缓存其转换结果，下次遇到相同的非法序列直接使用缓存的结果，减少重复处理。

以下是一个简单示例代码：

use std::borrow::Cow;
use std::str;

fn custom_convert(bytes: &[u8]) -> Cow<'_, str> {
    let mut result = String::with_capacity(bytes.len());
    let mut i = 0;
    while i < bytes.len() {
        match str::from_utf8(&bytes[i..]) {
            Ok(s) => {
                result.push_str(s);
                break;
            }
            Err(e) => {
                // 用更高效的占位符替换非法字节序列
                result.push_str("?");
                i += e.valid_up_to();
            }
        }
    }
    Cow::Owned(result)
}

面试题：Rust字符串实用函数性能深度剖析与优化实践

知识考点

面试题答案

`from_utf8` 优缺点

`to_string_lossy` 优缺点

优化实现思路

面试题：Rust字符串实用函数性能深度剖析与优化实践

知识考点

面试题答案

from_utf8 优缺点

to_string_lossy 优缺点

优化实现思路

`from_utf8` 优缺点

`to_string_lossy` 优缺点