面试题：C# 复杂正则表达式的编写与性能调优

代码实现

在C#中，可以使用RegexOptions.Singleline选项结合递归匹配模式来匹配嵌套的HTML标签结构。以下是示例代码：

using System;
using System.Text.RegularExpressions;

class Program
{
    static void Main()
    {
        string html = "<div><p>content</p></div>";
        string pattern = @"<([^>]+)>(.*?)</\1>";
        RegexOptions options = RegexOptions.Singleline;

        Match match = Regex.Match(html, pattern, options);
        if (match.Success)
        {
            Console.WriteLine("匹配成功: " + match.Value);
        }
        else
        {
            Console.WriteLine("匹配失败");
        }
    }
}

性能优化思路

避免贪婪匹配：在匹配标签内的内容时，使用.*?（非贪婪匹配），而不是.*（贪婪匹配），这样可以防止正则表达式过度匹配，从而减少回溯。
使用RegexOptions.Singleline：该选项使点号（.）可以匹配包括换行符在内的任何字符，避免了在匹配跨多行的HTML标签时出现问题，同时也有助于减少不必要的回溯。
减少捕获组：尽量减少正则表达式中的捕获组数量，因为每个捕获组都会增加正则表达式引擎的处理负担。在上述示例中，只使用了一个捕获组来匹配开始标签的名称，并在结束标签处反向引用该捕获组。
预编译正则表达式：如果需要多次使用相同的正则表达式，可以使用Regex.CompileToAssembly方法将正则表达式预编译成程序集，从而提高性能。

// 预编译正则表达式
Regex regex = new Regex(@"<([^>]+)>(.*?)</\1>", RegexOptions.Singleline);

避免递归过度：在处理非常复杂的嵌套结构时，要注意递归的深度，防止因递归过度导致栈溢出或性能问题。如果可能，可以考虑使用更适合处理层次结构的数据结构，如XML解析器，来处理复杂的HTML文档。

面试题：C# 复杂正则表达式的编写与性能调优

知识考点

面试题答案

代码实现

性能优化思路