面试题：并发与同步：死锁检测与自动化恢复的协同

死锁检测算法与死锁自动化恢复机制协同工作流程

死锁检测
- 定期检测：系统设定一个固定的时间间隔，例如每隔一段时间（如1分钟），运行死锁检测算法。死锁检测算法通常基于资源分配图算法，如资源分配图化简法。它检查系统资源分配图中是否存在环，若存在环，则表示可能存在死锁。
- 触发检测：当系统出现性能瓶颈，如CPU利用率长时间过高、进程响应时间大幅增长等情况，也触发死锁检测算法。
死锁确认与信息收集
- 一旦检测到可能的死锁（资源分配图存在环），进一步确认死锁是否真实存在。可以通过检查涉及到的线程是否处于阻塞状态且等待的资源被其他处于阻塞状态的线程占有。
- 收集死锁相关信息，包括涉及死锁的线程列表、它们等待的资源以及当前持有的资源等。
死锁自动化恢复机制启动
- 选择牺牲线程：根据一定的策略从死锁线程集合中选择一个或多个线程作为牺牲者。策略可以基于线程优先级（低优先级线程优先被选择）、线程已运行时间（短运行时间线程优先被选择）或线程持有资源数量（持有资源少的线程优先被选择）等。
- 终止牺牲线程：终止选定的牺牲线程，释放它们持有的所有资源。
- 资源重新分配：将释放的资源重新分配给其他等待这些资源的线程，使系统从死锁状态中恢复。
后续处理
- 记录死锁事件，包括死锁发生时间、涉及线程、死锁恢复过程等信息，以便后续分析和优化系统。
- 对系统状态进行监控，观察是否再次出现死锁或其他异常情况。

可能遇到的问题与解决方案

误判问题
- 问题：死锁检测算法可能误判死锁，例如资源分配图中的环可能并非真正的死锁，而是暂时的资源竞争状态。
- 解决方案：引入更复杂的确认机制，如结合线程的等待时间、资源请求频率等因素综合判断。同时，可以多次运行死锁检测算法，若连续多次检测到死锁，则更确认死锁的存在。
恢复策略不合理问题
- 问题：选择牺牲线程的策略可能不合理，导致系统性能损失较大或未能有效恢复死锁。例如，选择了一个关键业务线程作为牺牲者，影响了系统重要功能。
- 解决方案：设计更智能的牺牲线程选择策略，综合考虑线程的业务重要性、资源依赖关系等。可以建立一个线程重要性等级表，在选择牺牲线程时优先考虑低等级线程。
重复死锁问题
- 问题：死锁恢复后，由于系统状态未彻底改变，可能很快再次发生死锁。
- 解决方案：死锁恢复后，对系统资源分配策略进行优化调整。例如，采用资源分配的预分配策略，在进程启动时分配所需全部资源，避免运行中资源竞争导致死锁。同时，对死锁发生的场景进行深度分析，修改相关代码逻辑以防止类似死锁再次出现。

面试题：并发与同步：死锁检测与自动化恢复的协同

知识考点

面试题答案

死锁检测算法与死锁自动化恢复机制协同工作流程

可能遇到的问题与解决方案