星途面试题库

面试题：并发与同步：深入理解活锁和死锁在复杂系统中的特性

假设你负责一个分布式文件系统，多个客户端同时对文件进行读写操作。阐述在这种场景下，死锁和活锁可能出现的原因和机制。如果检测到活锁，应该如何设计一种有效的恢复策略，而在解决活锁问题时，又如何避免引入死锁？

12.0万热度

难度

操作系统并发与同步

知识考点

AI 面试

面试题答案

死锁出现的原因和机制

资源竞争：在分布式文件系统中，文件资源是有限的。多个客户端可能同时请求获取多个文件的读写锁，例如客户端A持有文件F1的锁并请求文件F2的锁，而客户端B持有文件F2的锁并请求文件F1的锁，这种循环等待资源的情况就可能导致死锁。
加锁顺序不一致：不同客户端对文件加锁的顺序不一致也可能引发死锁。例如，客户端C先对文件F3加锁，再对文件F4加锁；而客户端D先对文件F4加锁，再对文件F3加锁，当两个客户端并发操作时，就可能陷入死锁。
不可剥夺条件：一旦一个客户端获取了某个文件的锁，其他客户端不能强行剥夺该锁，只能等待持有锁的客户端主动释放，这增加了死锁发生的可能性。

活锁出现的原因和机制

重试策略不当：当客户端获取锁失败时，如果采用简单的重试策略，例如立即重试，可能会导致多个客户端不断重试获取锁，但始终无法成功获取。例如，客户端E和客户端F同时竞争文件F5的锁，每次获取失败后都立即重试，由于它们重试的时机相近，就可能陷入一种看似在不断尝试但始终无法取得进展的活锁状态。
资源分配不均：某些情况下，可能因为系统的资源分配策略问题，使得某些客户端频繁地获取不到所需资源，但又不断地在尝试获取，从而导致活锁。比如，在分布式环境中，某个区域的网络延迟较高，处于该区域的客户端获取锁的成功率较低，但仍不断重试，形成活锁。

活锁恢复策略设计

随机延迟重试：当客户端获取锁失败时，不再立即重试，而是等待一个随机的时间间隔后再重试。这样可以打破客户端重试时机相近的情况，降低活锁发生的概率。例如，客户端获取锁失败后，等待1 - 5秒之间的随机时间后再进行重试。
设置重试次数限制：为客户端设置最大重试次数，当达到重试次数上限后，不再进行重试，而是等待一段时间后重新尝试获取锁或者向系统管理员发送异常通知。比如，设置最大重试次数为10次，10次重试失败后，等待1分钟后再次尝试获取锁。
优先级调整：对于长时间无法获取锁的客户端，动态调整其获取锁的优先级。例如，统计每个客户端获取锁失败的次数，失败次数越多，优先级越高，使得那些长时间受困的客户端有更大机会获取锁，从而打破活锁。

避免引入死锁

统一加锁顺序：制定严格的文件加锁顺序规则，要求所有客户端按照相同的顺序获取锁。例如，按照文件名称的字母顺序或者文件ID的升序来获取锁，这样可以避免循环等待资源的情况，从而防止死锁。
资源分配图算法：在系统层面，可以采用资源分配图算法（如死锁检测算法）定期检测是否存在死锁的可能性。如果检测到潜在的死锁，通过选择牺牲某些客户端的锁请求，强制释放部分资源，来打破死锁。但在执行这些操作时，要确保不会因为资源的过度释放而引发新的活锁。
锁超时机制：为每个锁设置超时时间，如果一个客户端持有锁的时间超过设定的超时时间，系统自动释放该锁。这样可以避免某个客户端长时间持有锁导致其他客户端无限等待，从而防止死锁。但要注意合理设置超时时间，避免频繁的锁超时导致系统性能下降。