临界资源与同步

发表于 2022-08-29 分类于 linux

cover
总结临界区与同步的相关问题

临界资源与竞态条件

临界资源和临界区，是编程的一种通用场景，和具体语言和平台无关，是一类需要解决的普遍问题。其中有以下几个关键的概念

临界资源

临界资源（critical resource）是一次仅允许一个进程使用的资源。例如打印机、进程之间共享的变量、节点之间共享的资源等。所有并发的错误，基本都可以归结到对临界资源的访问不当

临界区

临界区（critical section），就是访问临界资源的代码

例如，

do {
  entry section;    // 进入区（检查进程是否可以进入临界区）
  critical section; // 临界区（访问临界资源）
  exit section;     // 退出区（清除正在访问临界区的标志）
  remainder section;// 剩余区（剩余代码）
} while(true)

上面这个伪代码片段，访问临界资源的那一段，就是临界区

竞态条件和同步

当临界区同时在多个线程/进程/节点中执行，由于执行的顺序不可预知，具有随机性，从而导致结果不正确，称为发生了竞态条件（race condition）。为了避免临界区发生竞态条件，而对临界区代码进行的保护处理，就称为同步（synchronize）

在java里，用关键字synchronized来进行同步，但是不可混淆认为同步是java平台特有的概念。如上所述，临界区和同步是一类普遍问题，跟具体平台实现无关。

根本的目的，是通过某种手段，避免对临界资源的访问引起程序的逻辑错误。

原子操作

避免竞态条件的轻量级方法，是使用原子操作。

原子操作（atomic operation）在硬件层面是通过CPU保证的。linux包装了若干原子操作API，来支持原子操作。由于原子操作的实现与CPU的类型相关，所以具体实现有所不同。以x86平台为例

所有的原子操作都作用于类型为atomic_t的变量。在x86平台上，它被简单的定义为包含int类型的结构体。定义成结构体的好处是防止错误的强制转型，绕过原子操作API去操作原子变量

1
2
3

typedef struct {
    int counter;
} atomic_t

1
2
3

atomic_t a = ATOMIC_INIT(i);// 原子变量初始化
atomic_set(&a, i);// 原子写
atomic_read(&a);// 原子读

对于简单的场景，用原子操作API就可以避免竞态条件，是方便和轻量级的方案。由于不需要加锁，开销很小。所以在条件允许的情况下，应该尽量优先考虑使用原子操作

锁

CPU提供了原子指令，实现算术运算和比较之类的原子操作。但对于更复杂的场景，比如临界资源是不定长的数据结构（例如链表），CPU没有提供原子指令，这种情况就需要对临界资源加锁，来实现同步。

可以把锁想象成一把门锁，门后的房间是临界区。当一个线程/进程获得锁进入房间之后，它会锁住房门；当它结束对临界资源的操作之后，就离开房间，打开门锁。如果另一个线程在房门上锁时来了，它就必须等待。

linux提供的常见锁机制

linux提供常见的锁机制包括，自旋锁，信号量，互斥锁

spin lock

自旋锁（spin lock），是linux中最常见的锁。最多只能被一个线程持有，如果另一个线程试图获得已经被占用的spin lock，那么该线程就会进入忙循环，等待锁重新可用。

一个被争用的自旋锁，使得请求它的线程在等待锁时不断自旋，所以自旋锁不应该被长时间持有，而是应该在短时间内进行轻量级加锁。

把自旋锁读写分开，就是读-写自旋锁

semaphore

信号量（semaphore），是睡眠锁。如果一个线程试图获得不可用的信号量，则会进入等待队列并睡眠。这时处理器可以去执行其他线程的代码。当信号量可用时，处于等待队列的线程会被唤醒，并获得该信号量。

相对于自旋锁，信号量能够更好地利用CPU，因为时间没有浪费在线程自旋上。但是信号量的开销比自旋锁更大。因此，信号量适用于锁被长时间持有的状况。

同自旋锁一样，信号量也可以读写分离为读-写信号量

mutex

mutex基本上可以理解为计数为1的semaphore

死锁

死锁最常见的场景是ABBA死锁。即一个线程持有锁A，等待锁B，另一个线程持有锁B，等待锁A。这种情况下2个线程就发生了死锁

发生死锁通常都是代码的错误，一个关键的原则是，要按顺序加锁。如果有代码是按照顺序先获取锁A，再获取锁B，那么其他的代码也要保持这个顺序。否则当两个线程分别执行这2段代码的时候，就有概率发生死锁。

有一种比较隐蔽的情况，是程序没有显式地加锁，但是依赖的第三方资源加锁，这种情况也会发生死锁。比如一段代码先insert mysql的表A，再insert表B；另外一段代码相反，先update表B，再update表A。这时候由于mysql会给表加行级锁，就可能会发生上述的ABBA死锁。

分布式锁

上面说的都是单机的情况，在集群环境下，单机的锁将会失效，这种情况需要分布式锁

比如有一段逻辑是更新数据库中的商品余量。即使给这段临界区代码加了锁，也只能保证单机情况下的同步。但是对于集群环境，更新商品余量的请求可能同时发到N台节点上，这同样会在数据库产生race condition，造成数据不一致。这种情况需要引入分布式锁，才能避免竞态条件。