面试题：并发与同步：分布式操作系统中死锁预防的难题与解决方案探讨

死锁产生的独特原因

资源分配与竞争：在分布式系统中，多个节点可能同时竞争共享资源，由于网络延迟等因素，资源请求与分配的顺序难以协调，容易形成循环等待的资源请求链。例如，节点A请求节点B持有的资源，同时节点B请求节点A持有的资源，且双方都不释放已占资源，从而导致死锁。
网络延迟：网络延迟使得节点间的消息传递存在不确定性。节点发出的资源请求消息可能长时间延迟到达，导致节点对资源状态的判断出现偏差。比如，节点以为资源已释放而发起请求，实际资源仍被占用，进而引发死锁。
节点故障：节点故障可能破坏系统的资源分配状态和协调机制。当持有资源的节点故障时，其他等待该资源的节点可能陷入无限等待，若同时存在其他资源竞争关系，可能诱发死锁。例如，节点C持有节点D请求的资源，节点C故障后，节点D继续等待，同时节点D又持有节点E请求的资源，节点E也等待，形成死锁。
缺乏全局状态感知：分布式系统中没有全局统一的资源管理中心，每个节点仅知晓自身局部状态。这使得节点在进行资源分配决策时，无法全面了解整个系统的资源占用情况，增加了死锁发生的可能性。

死锁预防方案

资源分配图算法（RAG）扩展：在分布式系统中，每个节点维护自身的资源分配图，并通过消息传递与其他节点交换资源信息，构建近似的全局资源分配图。当节点请求资源时，基于全局资源分配图进行检测，若发现可能形成死锁的资源请求链，则拒绝该请求。例如，节点F请求资源R，它将请求信息广播给其他节点，各节点更新自身的资源分配图并反馈给节点F，节点F根据汇总后的资源分配图判断是否会产生死锁。
时间戳排序算法：为每个资源请求分配一个时间戳，节点按照时间戳顺序处理资源请求。时间戳较小的请求优先获得资源，避免循环等待。比如，节点G和节点H同时请求资源S，节点G的请求时间戳早于节点H，节点G优先获得资源，节点H等待。这样通过时间戳的全局排序，打破死锁的循环等待条件。
资源分配预约定制：节点在请求资源前，先向其他可能持有该资源的节点发送预约定制消息。若所有相关节点都同意预约，则节点进行资源分配；否则，请求失败。例如，节点I请求资源T，它向持有资源T或可能持有资源T的节点发送预约消息，若节点J、K等都同意预约，节点I再进行资源获取，避免资源冲突导致死锁。

应对异常情况的讨论

节点故障：
- 基于RAG扩展：当检测到节点故障时，故障节点的邻居节点应及时更新自身的资源分配图，将故障节点相关的资源和请求标记为无效。其他节点在接收到故障通知后，重新计算全局资源分配图。例如，节点L故障，其邻居节点M、N更新资源分配图，去除节点L的资源和请求关系，然后重新广播信息，其他节点据此调整，防止因故障节点导致的死锁。
- 时间戳排序算法：节点故障后，其他节点继续按照时间戳顺序处理剩余请求。由于时间戳具有唯一性，即使部分节点故障，仍能保证剩余节点请求按序处理，避免死锁。例如，节点O故障，持有资源U，等待资源U的节点P、Q按照时间戳顺序继续等待或获取资源，不会因节点O故障产生新的死锁。
- 资源分配预约定制：若预约过程中某个节点故障，预约发起节点应取消预约，并重新发起请求。例如，节点R在预约资源V时，节点S故障，节点R取消预约，重新向其他有效节点发起预约请求，防止因故障节点影响资源分配导致死锁。
网络分区：
- 基于RAG扩展：网络分区发生时，各个分区内的节点独立维护和更新资源分配图。当网络恢复后，分区间节点交换资源分配图信息，合并成新的全局资源分配图，并重新检测死锁。例如，网络分成两个分区，分区1和分区2，内部节点各自构建资源分配图，网络恢复后，交换信息，合并资源分配图，重新判断是否存在死锁。
- 时间戳排序算法：由于时间戳是全局唯一且单调递增的，即使网络分区，各分区内按时间戳顺序处理请求不会产生死锁。网络恢复后，各分区继续按时间戳顺序处理跨分区的请求。例如，网络分区，分区A和分区B，各自按时间戳处理请求，网络恢复后，新请求按时间戳在整个系统中有序处理，避免死锁。
- 资源分配预约定制：网络分区时，预约请求在分区内正常进行。若预约涉及跨分区节点，因网络不通预约失败，待网络恢复后重新发起预约。例如，节点T在网络分区时向跨分区节点U预约资源W失败，网络恢复后重新向节点U发起预约，防止因网络分区导致预约混乱产生死锁。

星途面试题库

面试题：并发与同步：分布式操作系统中死锁预防的难题与解决方案探讨

知识考点

面试题答案

死锁产生的独特原因

死锁预防方案

应对异常情况的讨论