面试题：C++ 中循环控制结构的性能优化

循环结构性能分析

for 循环：在遍历数组这种场景下，for 循环通常更具优势。因为 for 循环初始化、条件判断和迭代更新部分集中在同一处，代码结构清晰，编译器更容易进行优化。例如，编译器可以根据循环的边界条件提前计算一些常量，将循环变量的更新优化为更高效的操作等。
while 循环：while 循环的条件判断在循环头部，与 for 循环相比，逻辑上类似，但 for 循环结构更紧凑，在编译器优化时，对于固定次数的数组遍历，for 循环更易识别出模式从而进行优化。
do - while 循环：do - while 循环先执行循环体再判断条件，在数组遍历场景下，由于数组大小已知，一般不需要这种先执行再判断的逻辑，且它同样不如 for 循环结构紧凑利于优化。

循环展开优化

原理：循环展开是通过减少循环控制语句的执行次数，增加每次循环体执行的操作数量，从而减少循环的开销。例如，原本一次循环处理一个数组元素，展开后一次循环处理多个元素。
代码示例：

// 未展开的循环
int arr[1000];
for (int i = 0; i < 1000; ++i) {
    arr[i] = arr[i] * 2;
}

// 展开为每次处理4个元素的循环
for (int i = 0; i < 1000; i += 4) {
    arr[i] = arr[i] * 2;
    arr[i + 1] = arr[i + 1] * 2;
    arr[i + 2] = arr[i + 2] * 2;
    arr[i + 3] = arr[i + 3] * 2;
}

性能分析方法：可以使用 std::chrono 库来测量时间。

#include <iostream>
#include <chrono>

int main() {
    int arr[1000];
    auto start = std::chrono::high_resolution_clock::now();
    for (int i = 0; i < 1000; ++i) {
        arr[i] = arr[i] * 2;
    }
    auto end = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count();
    std::cout << "未展开循环时间: " << duration << " 微秒" << std::endl;

    start = std::chrono::high_resolution_clock::now();
    for (int i = 0; i < 1000; i += 4) {
        arr[i] = arr[i] * 2;
        arr[i + 1] = arr[i + 1] * 2;
        arr[i + 2] = arr[i + 2] * 2;
        arr[i + 3] = arr[i + 3] * 2;
    }
    end = std::chrono::high_resolution_clock::now();
    duration = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count();
    std::cout << "展开循环时间: " << duration << " 微秒" << std::endl;

    return 0;
}

通过对比两种方式的运行时间，可以直观看到循环展开的优化效果。

向量化优化

原理：向量化利用现代 CPU 的 SIMD（单指令多数据）指令集，让一条指令同时处理多个数据元素，从而提高并行处理能力。
代码示例（使用 GCC 内置函数进行简单向量化示例，假设数据类型为 int，且支持 SSE 指令集）：

#include <immintrin.h>
#include <iostream>
#include <chrono>

int main() {
    int arr[1000];
    auto start = std::chrono::high_resolution_clock::now();
    for (int i = 0; i < 1000; ++i) {
        arr[i] = arr[i] * 2;
    }
    auto end = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count();
    std::cout << "未向量化循环时间: " << duration << " 微秒" << std::endl;

    start = std::chrono::high_resolution_clock::now();
    const int numElements = 1000;
    const int simdWidth = 4; // SSE 指令集一次处理4个int
    for (int i = 0; i < numElements; i += simdWidth) {
        __m128i vec = _mm_loadu_si128((__m128i*)&arr[i]);
        vec = _mm_mullo_epi32(vec, _mm_set1_epi32(2));
        _mm_storeu_si128((__m128i*)&arr[i], vec);
    }
    end = std::chrono::high_resolution_clock::now();
    duration = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count();
    std::cout << "向量化循环时间: " << duration << " 微秒" << std::endl;

    return 0;
}

性能分析方法：同样使用 std::chrono 库来测量时间，通过对比未向量化和向量化后的运行时间，分析向量化带来的性能提升。需要注意，向量化代码依赖于特定的硬件和编译器支持，不同平台可能效果不同。

面试题：C++ 中循环控制结构的性能优化

知识考点

面试题答案

循环结构性能分析

循环展开优化

向量化优化