操作系统常见面试题总结（上）

Guide约 9421 字大约 31 分钟

很多读者抱怨计算操作系统的知识点比较繁杂，自己也没有多少耐心去看，但是面试的时候又经常会遇到。所以，我带着我整理好的操作系统的常见问题来啦！

这篇《操作系统常见面试题总结（上）》会先从操作系统基础讲起，再重点梳理 用户态/内核态、系统调用、进程和线程、进程间通信、进程调度、死锁 这些高频考点。它适合用来快速建立面试问题清单，也适合作为复习时查漏补缺的入口。

学习操作系统不只是为了背八股。缓存、调度、同步、内存映射、零拷贝、I/O 多路复用这些思想，在 Redis、Kafka、Nginx、Netty、JVM、数据库里都能看到影子。把底层机制想清楚，再理解上层框架和线上性能问题，会轻松很多。

本文偏“面试速查 + 核心概念串联”，深入学习还是建议搭配教材和专题文章一起看。文中部分内容参考了《现代操作系统》第三版，在此表示感谢。

操作系统基础

操作系统基础知识导图

什么是操作系统？

通过以下四点可以概括操作系统到底是什么：

操作系统（Operating System，简称 OS）是管理计算机硬件与软件资源的程序，是计算机的基石。
操作系统本质上是一个运行在计算机上的软件程序，主要用于管理计算机硬件和软件资源。举例：运行在你电脑上的所有应用程序都通过操作系统来调用系统内存以及磁盘等等硬件。
操作系统存在屏蔽了硬件层的复杂性。操作系统就像是硬件使用的负责人，统筹着各种相关事项。
操作系统的内核（Kernel）是操作系统的核心部分，它负责系统的内存管理，硬件设备的管理，文件系统的管理以及应用程序的管理。内核是连接应用程序和硬件的桥梁，决定着系统的性能和稳定性。

很多人容易把操作系统的内核（Kernel）和中央处理器（CPU，Central Processing Unit）弄混。你可以简单从下面两点来区别：

操作系统的内核（Kernel）属于操作系统层面，而 CPU 属于硬件。
CPU 主要提供运算，处理各种指令的能力。内核（Kernel）主要负责系统管理比如内存管理，它屏蔽了对硬件的操作。

下图清晰说明了应用程序、内核、CPU 这三者的关系。

应用程序、内核和 CPU 的关系

操作系统主要有哪些功能？

从资源管理的角度来看，操作系统有 6 大功能：

进程和线程的管理：进程的创建、撤销、阻塞、唤醒，进程间的通信等。
存储管理：内存的分配与回收、地址转换、进程隔离、页面回收，以及外存空间管理等。
文件管理：把底层存储块组织成文件和目录，负责文件读写、创建、删除、权限控制和崩溃恢复等。
设备管理：完成设备（输入输出设备和外部存储设备等）的请求或释放，以及设备启动等功能。
网络管理：操作系统负责管理计算机网络的使用。网络是计算机系统中连接不同计算机的方式，操作系统需要管理计算机网络的配置、连接、通信和安全等，以提供高效可靠的网络服务。
安全管理：用户的身份认证、访问控制、文件加密等，以防止非法用户对系统资源的访问和操作。

内存管理和文件系统是操作系统面试里最容易继续追问的两块，会在这篇单独展开：操作系统常见面试题总结（下）。

常见的操作系统有哪些？

Windows

目前最流行的个人桌面操作系统，不做多的介绍，大家都清楚。界面简单易操作，软件生态非常好。

玩玩电脑游戏还是必须要有 Windows 的，所以我现在是一台 Windows 用于玩游戏，一台 Mac 用于平时日常开发和学习使用。

Windows 桌面操作系统界面

Unix

Unix 是早期最具影响力的多用户、多任务操作系统之一，后来的 Linux、BSD 等类 Unix 系统都受到它的影响。传统商业 Unix 的市场份额已经明显下降，但 Unix 标准、认证系统及其设计思想仍在使用。

Unix 操作系统标识

Linux

Linux 是一套免费使用、开源的类 Unix 操作系统。 Linux 存在着许多不同的发行版本，但它们都使用了 Linux 内核。

严格来讲，Linux 这个词本身只表示 Linux 内核，在 GNU/Linux 系统中，Linux 实际就是 Linux 内核，而该系统的其余部分主要是由 GNU 工程编写和提供的程序组成。单独的 Linux 内核并不能成为一个可以正常工作的操作系统。
很多人更倾向使用 "GNU/Linux" 一词来表达人们通常所说的 "Linux"。

Linux 操作系统桌面与命令行界面

Mac OS

苹果自家的操作系统，编程体验和 Linux 相当，但是界面、软件生态以及用户体验各方面都要比 Linux 操作系统更好。

macOS 桌面操作系统界面

用户态和内核态

什么是用户态和内核态？

用户态和内核态描述的是 CPU 执行代码时的特权级别。应用代码通常在用户态运行；需要访问受保护资源时，CPU 会按规定入口进入内核态，由内核代表当前线程完成操作。

用户态和内核态

用户态（User Mode）：权限较低，不能直接执行特权指令，也不能随意访问内核地址空间或操作硬件。应用读文件、收发网络数据时，需要通过系统调用请求内核服务。
内核态（Kernel Mode）：权限较高，可以执行管理页表、中断、设备等特权操作。系统调用、中断或同步异常进入内核后，运行的是内核代码，不是把整个用户进程变成了“内核进程”。

用户态/内核态切换需要经过架构规定的入口、保存必要状态并执行权限和参数检查，因此比普通函数调用更重。但它不等于线程上下文切换：只有调度器换成另一个执行实体时，才会发生线程切换。

为什么要有用户态和内核态？只有一个内核态不行么？

这样设计主要是为了安全和稳定。

限制特权操作：修改页表、控制中断、访问特定设备寄存器等操作会影响整个系统，只能由内核执行。
隔离故障和权限：如果应用都能以内核权限运行，一个越界写或恶意程序就可能破坏其他进程和内核数据，进程隔离也就失去了基础。

这套特权级机制把普通应用限制在受控环境中，硬件和系统资源则统一交给内核管理。

用户态和内核态是如何切换的？

用户态切换到内核态的 3 种方式

让 CPU 从用户态进入内核态的事件主要有三类：

系统调用（Trap）：应用程序主动执行 syscall、ecall 等指令，请求内核完成 read()、send() 等操作。它由当前指令触发，属于同步事件。
硬件中断（Interrupt）：由定时器、网卡、磁盘等外部硬件触发，与当前正在执行的指令没有直接关系，因此属于异步事件。
同步异常（Exception）：由当前指令触发，例如除零、非法指令或 Page Fault。异常不一定代表程序出错，懒分配、COW 和从文件调页也会触发可恢复的 Page Fault。

中断、异常和系统调用描述的是 CPU 为什么进入内核；信号则是内核通知进程或线程的一种软件机制。非法内存访问可能先触发 Page Fault，内核判断无法修复后，再向当前线程投递 SIGSEGV。

不同体系结构的入口细节不完全相同，但都会根据事件类型转到对应的内核处理入口。完整的概念对比和处理路径可以看：中断、异常与系统调用详解：从内核入口到缺页异常。

系统调用

什么是系统调用？

系统调用是内核向用户程序提供的受控服务接口。应用不能直接操作磁盘、页表和网卡等受保护资源，需要通过系统调用让内核代为完成。

用户程序通过系统调用请求内核服务

这些系统调用按功能大致可分为如下几类：

设备管理：完成设备（输入输出设备和外部存储设备等）的请求或释放，以及设备启动等功能。
文件管理：完成文件的读、写、创建及删除等功能。
进程管理：进程的创建、撤销、阻塞、唤醒，进程间的通信等功能。
内存管理：完成内存的分配、回收以及获取作业占用内存区大小及地址等功能。
网络通信：创建 Socket、建立连接、收发数据等。

系统调用和库函数不是同一层概念。普通函数调用始终在用户态执行；glibc 等运行库提供的 read() 包装函数会按 ABI 准备系统调用号和参数，再执行特殊指令进入内核。也有很多库函数完全不需要系统调用。

系统调用的过程了解吗？

以 Linux x86-64 下的 read(fd, buf, count) 为例，系统调用过程可以概括为：

glibc 包装函数按照调用约定，把系统调用号和参数放入指定寄存器，执行 syscall。
CPU 切换到内核特权级和对应入口。内核入口代码保存后续需要的寄存器状态，再根据系统调用号分发到 read 对应的处理逻辑。
内核检查文件描述符、用户缓冲区、访问权限和文件状态，然后进入 VFS、文件系统、网络协议栈或设备驱动等路径。
数据已经就绪时，内核完成读取并返回结果；数据未就绪时，当前线程可能进入等待状态，调度器转而运行其他可运行任务。
调用完成后，返回值通过寄存器交给用户态。出错时，glibc 通常把内核错误码转换成 -1 和 errno。

系统调用的过程

系统调用一定会发生上下文切换吗？

系统调用会让 CPU 进入内核态。如果内核很快处理完并返回原线程，整个过程只有用户态/内核态切换，没有切换线程。

当系统调用需要等待 I/O、锁或其他资源时，当前线程可能阻塞，调度器才会选择另一个可运行任务，此时会发生线程上下文切换。反过来，时钟中断进入内核后，如果调度器仍让原线程继续运行，也不会发生线程切换。

更完整的 read() 调用链、信号中断和系统调用重启可以看：中断、异常与系统调用详解：从内核入口到缺页异常。

进程和线程

进程和线程是操作系统面试里绕不开的一组概念。下面先给出高频问法的精简答案，想系统学习的话，可以继续阅读这些详细文章：

进程与线程详解：区别、状态、通信、上下文切换与虚拟线程，路径：./process-and-thread.md
进程间通信（IPC）详解：管道、消息队列、共享内存、Socket 与 Binder，路径：./ipc.md
CPU 调度与系统负载详解，路径：./cpu-scheduling-and-load.md

进程和线程的区别是什么？

进程和线程是操作系统中并发执行的两个核心概念，它们的关系可以理解为 工厂和工人 的关系。

程序、进程和线程的关系

进程（Process）就像一个工厂。操作系统在分配资源时，是以进程为基本单位的。比如，当我启动一个微信，操作系统就为它建立了一个独立的工厂，分配给它专属的内存空间、文件句柄等资源。这个工厂与其他工厂（比如我打开的浏览器进程）是严格隔离的。

线程（Thread）则像是工厂里的工人。一个工厂里可以有很多工人，他们共享这个工厂的资源，但每个工人有自己的工具箱和任务清单，让他们可以独立地执行不同的任务。比如微信这个工厂里，可以有一个工人（线程）负责接收消息，一个工人负责渲染界面。

这是我用 AI 绘制的一张图片，可以说是非常形象了：

用微信工厂类比进程和线程的区别

下图是 Java 内存区域，我们从 JVM 的角度来说一下线程和进程之间的关系吧！

Java 运行时数据区域（JDK1.8 之后）

从上图可以看出：一个进程中可以有多个线程，多个线程共享进程的堆和方法区（JDK1.8 之后的元空间）资源，但是每个线程有自己的程序计数器、虚拟机栈和本地方法栈。

线程共享和私有的内容

可以从资源、调度、通信、开销和可靠性这 5 个角度总结：

维度	进程	线程
基本定位	资源分配和隔离的基本单位	CPU 调度和执行的基本单位
地址空间	默认拥有独立虚拟地址空间	同一进程内的线程共享进程地址空间
私有内容	PID、地址空间、打开文件表、权限信息等进程级资源	线程 ID、栈、寄存器、程序计数器、线程本地存储等执行现场
通信方式	需要 IPC，例如管道、消息队列、共享内存、Socket	可以直接读写共享内存，但必须处理同步和线程安全
创建/切换成本	通常更高，进程切换可能涉及地址空间切换、TLB 失效等	通常更低，同进程线程切换一般不需要切换整套地址空间
故障影响	隔离性更好，一个进程崩溃通常不影响其他进程	一个线程出错可能导致整个进程退出

比较完整的面试回答可以这样组织：

进程是程序运行时的资源容器，拥有独立虚拟地址空间和文件、权限等资源；线程是进程内的执行流，多个线程共享进程资源，但各自保存栈、寄存器、程序计数器等执行现场。进程间隔离更强，通信和切换成本更高；线程间协作更方便，创建和切换通常更轻，但共享内存带来线程安全问题。

有了进程为什么还需要线程？

核心原因就是为了在单个应用内实现低开销、高效率的并发。

如果一个服务端要同时处理网络读写、业务计算、日志刷盘，用多个进程当然也能做，但进程之间共享状态麻烦，通信要走 IPC，资源占用也更高。改成多个线程后，它们能直接共享堆内存和打开的连接，只要同步写对，协作成本低很多。

线程也能提高资源利用率。单核 CPU 上，一个线程阻塞在磁盘或网络 I/O 时，其他线程可以继续运行；多核 CPU 上，多个线程有机会在不同核心上并行执行。不过，线程不是越多越好。线程过多会带来栈内存占用、调度开销、锁竞争和缓存失效等问题，CPU 密集型任务和 I/O 密集型任务的线程数配置也不一样。

多线程一定能提高性能吗？

多线程能否提速取决于任务类型、CPU 核数和共享资源竞争：

I/O 密集型任务：一个线程等待磁盘、网络或锁时，其他可运行线程可以继续使用 CPU，多线程能够隐藏一部分等待时间。
CPU 密集型任务：可拆分且相互独立的计算可以分配到多个 CPU 核心并行执行，但加速效果还会受到串行部分、数据依赖、缓存和调度开销影响。
线程过多：可运行线程远多于 CPU 核数后，运行队列会变长，上下文切换、缓存失效和锁竞争随之增加，吞吐量和延迟都可能变差。

线程数量需要结合任务特征、CPU quota、阻塞比例和压测结果设置，不能只按宿主机物理核心数或并发请求数直接推算。

线程间的同步的方式有哪些？

线程同步是两个或多个共享关键资源的线程的并发执行。应该同步线程以避免关键的资源使用冲突。

下面是几种常见的线程同步的方式：

互斥锁（Mutex）：采用互斥对象机制，只有拥有互斥对象的线程才有访问公共资源的权限。因为互斥对象只有一个，所以可以保证公共资源不会被多个线程同时访问。比如 Java 中的 synchronized 关键词和各种 Lock 都是这种机制。
读写锁（Read-Write Lock）：允许多个线程同时读取共享资源，但只有一个线程可以对共享资源进行写操作。
信号量（Semaphore）：它允许同一时刻多个线程访问同一资源，但是需要控制同一时刻访问此资源的最大线程数量。
屏障（Barrier）：屏障是一种同步原语，用于等待多个线程到达某个点再一起继续执行。当一个线程到达屏障时，它会停止执行并等待其他线程到达屏障，直到所有线程都到达屏障后，它们才会一起继续执行。比如 Java 中的 CyclicBarrier 是这种机制。
条件变量（Condition Variable）/事件通知：线程在条件不满足时等待，其他线程在条件变更后通知等待线程继续执行。它通常需要和互斥锁配合使用，避免“通知先发生、等待后发生”导致的丢通知问题。Java 中的 Object.wait()/notify()、Condition.await()/signal() 都属于这类思路；Windows 中的 Event 对象也可以看作事件通知类同步原语的一种实现。

PCB 是什么？包含哪些信息？

PCB（Process Control Block） 即进程控制块，是操作系统中用来管理和跟踪进程的数据结构，每个进程都对应着一个独立的 PCB。你可以将 PCB 视为进程的大脑。

当操作系统创建一个新进程时，会为该进程分配一个唯一的进程 ID，并且为该进程创建一个对应的进程控制块。当进程执行时，PCB 中的信息会不断变化，操作系统会根据这些信息来管理和调度进程。

标识信息：PID、父进程 ID、用户 ID 等。
进程状态和调度信息：就绪、运行、阻塞、优先级、时间片、CPU 时间统计等。
CPU 上下文：程序计数器、栈指针、通用寄存器、程序状态字 PSW 等，用于上下文切换后恢复执行。
内存管理信息：虚拟地址空间、页表、内存映射等。
资源信息：打开文件、文件描述符、I/O 状态、工作目录、信号处理信息等。
……

发生上下文切换时，操作系统会把当前进程的寄存器等现场保存到 PCB 中，再从下一个进程的 PCB 中恢复现场，让它能够从上次暂停的位置继续执行。

TCB 是什么？和 PCB 有什么关系？

TCB（Thread Control Block） 即线程控制块，用来保存线程级别的控制信息，例如线程 ID、线程状态、寄存器现场、栈信息、调度优先级、线程本地存储等。

在一些教材或系统实现里，PCB 和 TCB 是分开的：PCB 更偏进程级资源，TCB 更偏线程级执行现场。Linux 的实现比较特殊，它把进程和线程都看成 task，用 task_struct 描述调度实体，再通过资源结构是否共享来区分进程和线程。理解时不用纠结名字，关键是分清：地址空间、文件表等属于资源边界；栈、寄存器、程序计数器等属于执行现场。

进程有哪几种状态？

我们一般把进程大致分为 5 种状态，这一点和线程很像：

创建状态（new）：进程正在被创建，尚未到就绪状态。
就绪状态（ready）：进程已处于准备运行状态，即进程获得了除了处理器之外的一切所需资源，一旦得到处理器资源（处理器分配的时间片）即可运行。
运行状态（running）：进程正在处理器上运行（单核 CPU 下任意时刻只有一个进程处于运行状态）。
阻塞状态（waiting）：又称为等待状态，进程正在等待某一事件而暂停运行如等待某资源为可用或等待 IO 操作完成。即使处理器空闲，该进程也不能运行。
结束状态（terminated）：进程正在从系统中消失。可能是进程正常结束或其他原因中断退出运行。

进程状态图转换图

状态转换要重点看触发原因：就绪态拿到 CPU 后进入运行态；运行态时间片用完，可能回到就绪态；运行中发起阻塞 I/O、等待锁或等待事件，会进入阻塞态；阻塞等待的事件完成后，通常先回到就绪态，等待下一次被调度。

有些教材还会加入挂起状态。挂起强调进程暂时不在内存中，或者被用户/系统暂停；阻塞强调进程在等待某个事件。二者不是一回事：进程可以阻塞但仍在内存里，也可以被换出到外存后处于阻塞挂起。

进程间的通信方式有哪些？

进程默认拥有独立虚拟地址空间，不能直接访问彼此的用户态内存，所以需要 IPC（Inter-Process Communication，进程间通信）。

面试里先按使用场景回答即可：

父子进程传少量字节流：匿名管道。
无亲缘关系进程做本机通信：命名管道、Unix Domain Socket。
小型结构化消息：消息队列。
本机大块数据交换：共享内存，但要配合信号量、互斥锁、futex、eventfd 等同步机制。
异步事件通知：信号。
跨机器通信：TCP/UDP Socket 或更上层的 RPC 框架。

更系统的分类、边界和选型可以看：进程间通信（IPC）详解：管道、消息队列、共享内存、Socket 与 Binder，路径：./ipc.md。

fork、exec、wait 分别做什么？

在 Unix/Linux 编程里，进程创建和程序替换常绕不开 fork()、exec()、wait() 这三个动作。这里先记面试短答，更多文件描述符继承、写时复制和多线程 fork 的细节可以看：进程与线程详解，路径：./process-and-thread.md。

fork、exec、wait 的调用链路

fork()：创建子进程。父子进程从同一个位置继续执行，但返回值不同。
exec()：在当前进程中装入另一个程序。它不会新建进程，而是替换当前进程的用户态代码和数据。
wait()/waitpid()：等待子进程状态变化，并回收子进程退出后留在内核里的状态信息。

Shell 启动外部命令时，常见链路就是：Shell 先 fork() 出子进程，子进程再 exec() 成目标程序，父进程用 wait() 或 waitpid() 等待并回收退出状态。如果父进程一直不回收已退出的子进程，就可能留下僵尸进程。

什么是上下文切换？

上下文切换指 CPU 从一个执行实体切到另一个执行实体。操作系统需要保存当前执行实体的寄存器、程序计数器、栈指针等现场，再恢复下一个执行实体的现场。

线程上下文切换和进程上下文切换的成本对比

线程切换和进程切换都会有开销，但进程切换通常更重。原因是进程有独立地址空间，切换时可能涉及页表切换、TLB 失效、缓存局部性下降等成本；同一进程内的线程共享地址空间，切换时通常不需要换整套内存映射。

可以这样简化理解：同一进程内的线程切换，主要换线程自己的栈、寄存器、程序计数器等执行现场；跨进程切换除了换执行现场，还可能切换地址空间，并带来 TLB 和缓存局部性的影响。线上性能分析里，如果发现大量时间花在调度、锁等待、系统调用和上下文切换上，继续盲目加线程通常只会让情况更差。

还要区分上下文切换和用户态/内核态切换。系统调用、Page Fault、硬件中断都会进入内核，但只要内核处理后仍返回原线程，就没有发生线程上下文切换。

进程的调度算法有哪些？

常见进程调度算法

教材里的进程调度算法用于说明：当可运行任务多于 CPU 核数时，应该让谁先运行。调度器通常需要在吞吐量、周转时间、响应时间、公平性和切换开销之间做权衡。

这些算法可以分为非抢占式和抢占式两类。

第一类：非抢占式调度（Non-Preemptive）

这种方式下，一旦 CPU 分配给一个进程，它就会一直运行下去，直到任务完成或主动放弃（比如等待 I/O）。

先到先服务（FCFS，First Come, First Served）：按到达顺序运行，实现简单；长任务排在前面时，后面的短任务也要等待，会出现护航效应。
短作业优先（SJF，Shortest Job First）：优先运行预计执行时间短的任务，可以降低平均等待时间；现实中很难准确预测任务长度，也可能让长任务长期得不到运行。

第二类：抢占式调度（Preemptive）

操作系统可以暂停当前任务，把 CPU 交给另一个更合适的可运行任务。现代通用操作系统通常支持抢占。

时间片轮转（RR，Round-Robin）：每个任务轮流运行一个时间片。时间片太短会放大上下文切换开销，太长又会逐渐接近 FCFS。
优先级调度（Priority）：优先运行高优先级任务，能够表达任务的紧急程度，但需要处理低优先级任务饥饿问题。

多级反馈队列（MLFQ，Multi-Level Feedback Queue） 设置多个优先级队列，并根据任务的运行行为调整位置。新任务通常先进入高优先级队列；经常用完整个时间片的 CPU 密集型任务会逐步降级，经常主动等待 I/O 的交互任务可保留较高优先级。具体的升降级和防饥饿规则取决于实现。

FCFS、SJF、RR、优先级和 MLFQ 主要是教材中的简化模型。真实 Linux 调度的是 task 或调度实体，普通任务长期由 CFS 按权重和 vruntime 分配 CPU；Linux 6.6 开始在 fair 调度类中引入 EEVDF，用 lag 和虚拟截止时间改进任务选择。线上机器具体使用哪套实现，还要看内核版本和发行版补丁。

详细介绍：CPU 调度与系统负载详解。

那究竟是谁来调度这个进程呢？

负责调度的是操作系统内核中的调度器（Scheduler）。当前任务阻塞、主动让出 CPU、时间片或运行额度耗尽、优先级变化，或者更合适的任务被唤醒时，内核都可能触发调度。

教材还会用分派程序（Dispatcher）描述把调度决定落到 CPU 上的过程：

调度器从可运行队列中选出下一个任务。
分派过程完成具体的上下文切换：
- 保存当前进程的上下文（CPU 寄存器状态、程序计数器等）到其进程控制块（PCB）中。
- 加载下一个被选中进程的上下文，从其 PCB 中读取状态，恢复到 CPU 寄存器。
- 将 CPU 的控制权正式移交给新进程，让它开始运行。

现代 Linux 内核的实现不会严格拆成两个独立组件，面试时理解“选择下一个任务”和“完成上下文切换”这两项职责即可。

load average 和 CPU 使用率有什么区别？

load average 反映一段时间内系统中可运行任务和不可中断睡眠任务的数量，Linux 下主要对应 R 状态和 D 状态；CPU 使用率描述 CPU 时间具体花在用户态、内核态、I/O wait、中断、空闲或虚拟化 steal 等位置。

load 高既可能是可运行任务在争抢 CPU，也可能是大量任务在等待块设备、网络存储、文件系统或 Swap，后一种情况下 CPU 仍可能有空闲。判断 load 还要结合逻辑 CPU 数：同样是 load 8，对 1 个逻辑 CPU 和 64 个逻辑 CPU 的压力完全不同。

排查时可以先用 uptime 看 1、5、15 分钟负载趋势，再结合 top、vmstat 1、pidstat 和 mpstat 判断任务是在争抢 CPU、等待 I/O，还是频繁发生上下文切换。更完整的指标解释和排查路径可以看：CPU 调度与系统负载详解。

死锁

什么是死锁？

死锁（Deadlock）描述的是这样一种情况：一组进程/线程互相等待对方释放资源或完成动作，等待关系形成闭环，导致所有参与者都无法自行继续执行。

更具体地说，死锁不是“等得久”这么简单。普通阻塞可能等锁释放、I/O 返回或事务提交后继续执行；死锁里的等待链绕成了环，如果没有外力介入，这个环不会自然解开。

关于死锁的形成过程、Java 线程死锁排查和数据库死锁处理，可以看这篇更完整的专题：死锁详解：四个必要条件、Java 死锁排查与数据库死锁处理。

一个最经典的例子就是 “交叉持锁”。想象有两个线程和两个锁：

线程 1 先拿到了锁 A，然后尝试去获取锁 B。
几乎同时，线程 2 拿到了锁 B，然后尝试去获取锁 A。

这时，线程 1 等着线程 2 释放锁 B，线程 2 等着线程 1 释放锁 A，双方都持有对方需要的资源，并等待对方释放，就形成了一个等待环。

死锁场景示意图：线程 A 持有 resource1 并等待 resource2，线程 B 持有 resource2 并等待 resource1，等待链形成闭环

产生死锁的四个必要条件是什么？

死锁的发生并不是偶然的，它需要同时满足四个必要条件：

互斥：资源必须处于非共享模式，即一次只有一个进程可以使用。如果另一进程申请该资源，那么必须等待直到该资源被释放为止。
占有并等待：一个进程至少应该占有一个资源，并等待另一资源，而该资源被其他进程所占有。
非抢占：资源不能被抢占。只能在持有资源的进程完成任务后，该资源才会被释放。
循环等待：有一组等待进程 {P0, P1, ..., Pn}，P0 等待的资源被 P1 占有，P1 等待的资源被 P2 占有，...，Pn-1 等待的资源被 Pn 占有，Pn 等待的资源又被 P0 占有。

死锁四个必要条件示意图：互斥、请求与保持、非抢占、循环等待同时成立才会形成死锁

注意：这四个条件是产生死锁的必要条件，必须同时成立。只满足其中一两个条件不一定会死锁；反过来，只要能稳定破坏其中任意一个条件，就可以从结构上预防死锁。

能写一个模拟产生死锁的代码吗？

下面通过一个实际的例子来复现上面的交叉持锁场景：

public class DeadLockDemo {
    private static final Object resource1 = new Object(); // 资源 1
    private static final Object resource2 = new Object(); // 资源 2

    public static void main(String[] args) {
        new Thread(() -> {
            synchronized (resource1) {
                System.out.println(Thread.currentThread() + "get resource1");
                try {
                    Thread.sleep(1000);
                } catch (InterruptedException e) {
                    Thread.currentThread().interrupt();
                }
                System.out.println(Thread.currentThread() + "waiting get resource2");
                synchronized (resource2) {
                    System.out.println(Thread.currentThread() + "get resource2");
                }
            }
        }, "线程 1").start();

        new Thread(() -> {
            synchronized (resource2) {
                System.out.println(Thread.currentThread() + "get resource2");
                try {
                    Thread.sleep(1000);
                } catch (InterruptedException e) {
                    Thread.currentThread().interrupt();
                }
                System.out.println(Thread.currentThread() + "waiting get resource1");
                synchronized (resource1) {
                    System.out.println(Thread.currentThread() + "get resource1");
                }
            }
        }, "线程 2").start();
    }
}

Output

Thread[线程 1,5,main]get resource1
Thread[线程 2,5,main]get resource2
Thread[线程 1,5,main]waiting get resource2
Thread[线程 2,5,main]waiting get resource1

线程 1 通过 synchronized (resource1) 获得 resource1 的监视器锁，线程 2 通过 synchronized (resource2) 获得 resource2 的监视器锁。Thread.sleep(1000) 不是死锁的原因，它只是把两个线程交错执行的窗口拉大，让死锁更容易复现。休眠结束后，两个线程都开始申请对方持有的资源，于是陷入互相等待。

解决死锁的方法

面试里回答到这个程度即可：解决死锁一般有 预防、避免、检测和解除/恢复 四类思路。

预防：提前破坏死锁四个必要条件之一。工程里最常见的是固定加锁顺序、缩小锁范围、避免持锁做慢操作。
避免：分配资源前判断系统是否仍处于安全状态，典型代表是银行家算法。这个方法更偏教材理解，普通业务系统很少直接实现。
检测：允许等待发生，再检查等待图或资源分配图里是否出现环。Java 里可以用 jcmd <pid> Thread.print -l、jstack -l <pid> 或 ThreadMXBean.findDeadlockedThreads() 辅助排查；数据库也会检测事务等待环。
解除/恢复：发现死锁后打破等待环，例如终止进程、回滚事务、抢占资源或让应用层重试。数据库事务天然支持回滚，因此更适合采用检测和恢复。

死锁处理策略图：预防、避免、检测、恢复四类方法的作用位置和工程常见程度

这部分面试不必展开太细，抓住层次即可。想继续看资源分配图、等待图、Java 线程栈排查和数据库死锁重试，可以看：死锁详解：四个必要条件、Java 死锁排查与数据库死锁处理。

参考

《计算机操作系统—汤小丹》第四版
《深入理解计算机系统》
《重学操作系统》
操作系统为什么要分用户态和内核态：https://blog.csdn.net/chen134225/article/details/81783980
从根上理解用户态与内核态：https://juejin.cn/post/6923863670132850701
什么是僵尸进程与孤儿进程：https://blog.csdn.net/a745233700/article/details/120715371

写在最后

如果内容对你有帮助的话，欢迎顺手给 JavaGuide 点一个免费的 Star 支持一下：GitHub | Gitee。

JavaGuide 已持续维护近七年，累计 6100+ 次提交，来自 620+ 位贡献者共同完善。你的 Star、反馈和 PR，都是这个项目继续更新的动力。

如果你正在准备后端/AI 应用开发面试，也可以了解一下我的知识星球，里面包括后端和 AI 实战项目、简历优化、一对一提问和高频考点资料，已经持续维护六年。