掘金 后端 ( ) • 2024-05-04 12:40

highlight: a11y-dark theme: z-blue

翻译:https://github.com/func25/go-practical-tips/tree/main

优先选择 chan struct{} 而不是 chan bool 来处理各程序之间的信号传递

当我们使用 goroutines 并需要在它们之间发送信号时,我们可能会纠结是使用 chan bool 还是 chan struct{}。

为什么偏爱 “chan struct{}”?

那么,chan bool 也可以发出事件信号,对吗?它发送的是一个布尔值(true 或 false),根据设置的不同,可能会有一些特定的含义。但问题就在这里:

type JobDispatcher struct {
    start chan bool
}


func NewJobDispatcher() *JobDispatcher {
    return &JobDispatcher{
        start: make(chan bool),
    }
}

// Unclear: What does sending true or false mean?

现在,让我们来谈谈 struct{} 类型,这种类型纯粹是用来发出信号的,因为 struct{} 类型根本不占用任何内存,就像在说 “嘿,发生了什么事 ”一样: 就像在说:“嘿,发生了一些事情。”而不会发送任何实际数据。

type JobDispatcher struct {
    start chan struct{}
}

func NewJobDispatcher() *JobDispatcher {
    return &JobDispatcher{
        start: make(chan struct{}),
    }
}

func (j *JobDispatcher) Start() {
    j.start <- struct{}{}
}

// Clear: Sending anything means "start the job"

那么,它的主要优势是什么呢?

  • 首先,由于 struct{} 的大小为零,因此通过 struct{} 发送值实际上不会在通道上移动任何数据,而只是发送信号。这是一个微妙但不错的内存优化。
  • 如果开发人员在代码中看到 chan struct{},就会立即明白这条channel是用于发送信号的,从而减少混淆。

缺点是什么?

虽然结构struct{}{}语法有些别扭,但这小小的不便也是值得的,因为它可以防止通道被滥用于传输数据,而你想要的只是一个简单的信号。

对于一次性信号,您甚至可能不需要发送数值。您可以直接关闭channel:


func (j *JobDispatcher) Start() {
    close(j.start)
}

关闭channel是一种明确而有效的方式,可以向多个接收器广播作业应开始的信号,而无需发送任何数据

Buffered Channels作为限制 Gooutine 执行的信号传递器

当我们希望控制有多少个 goroutines 可以同时访问特定资源时,使用信号是一个不错的选择。我们可以简单地使用 Go 中的缓冲通道创建一个信号。

Buffered Channels的大小决定了可以并发运行的 goroutines 的数量:

semaphore := make(chan struct{}, numTokens)

下面是基本流程:

  • 一个 goroutine 会尝试向通道发送一个值,占用一个可用槽。
  • 一旦例行程序完成任务,它就会从通道中移除数值,从而腾出空位给另一个例行程序使用。
var wg sync.WaitGroup
wg.Add(10)

for i := 0; i < 10; i++ {
    go func(id int) {
        defer wg.Done()
        semaphore <- struct{}{} // Acquire a token.
        ...
        <-semaphore // Release the token.
    }(i)
}

wg.Wait()

在此代码段中

  • wg.Add(10):设置 10 个运行程序。
  • make(chan struct{}, 3):初始化一个只允许 3 个运行程序同时运行的 Semaphore。 如果你正在寻找一种更有条理的方式,我们可以定义一个 Semaphore 类型来封装所有与 semaphore 相关的操作:
type Semaphore chan struct{}

func NewSemaphore(maxCount int) Semaphore {
	return make(chan struct{}, maxCount)
}

func (s Semaphore) Acquire() {
	s <- struct{}{}
}

func (s Semaphore) Release() {
	<-s
}

使用这种自定义 Semaphore 类型简化了我们管理资源访问的方式:

func doSomething(semaphore *Semaphore) {
    semaphore.Acquire()
    defer semaphore.Release()

    ...
}

此外,对于更复杂的情况,您可能需要了解 http://golang.org/x/sync/semaphore 软件包,它提供了一种加权信号实现。

当某些任务可能比其他任务需要更多资源时,这一点尤其有用,例如管理数据库连接池,其中某些操作需要同时使用多个连接。

加权 semaphores 允许单个 goroutine 同时占用多个插槽。

使用 singleflight 优化多次调用

比方说,我们有一个从某处提取数据的函数,它并不快,每次调用大约需要 3 秒钟:

func FetchExpensiveData() (int64, error) {
    time.Sleep(3 * time.Second)

    return time.Now().Unix() / 10, nil
}

模拟函数会在 10 秒后发出一个不同的数字。

现在,如果我们连续调用这个函数 3 次,我们需要等待大约 9 秒钟。

我们可能会认为使用 3 个 goroutines 可以将等待时间缩短到 3 秒左右,但我们仍然要运行 3 次函数,而且都是为了得到相同的结果。

这就是 singleflight 软件包真正能改变游戏规则的地方,它能确保无论我们在这 3 秒钟内调用函数多少次,它实际上只运行一次,并向每个调用者返回相同的结果。

我们可以在 http://golang.org/x/sync/singleflight 找到它。

现在,我们来看看如何使用它:

var group singleflight.Group

func UsingSingleFlight(key string) {
    v, _, _ = group.Do(key, func() (any, error) {
        return FetchExpensiveData()
    })

    fmt.Println(v)
}

这里发生的事情非常简单。

我们先创建一个 singleflight.Group,然后在 group.Do() 方法中封装昂贵的函数调用,这个方法很聪明。

它会检查是否已经请求过相同的密钥。如果是,它会等待原始调用的结果,并将其返回给所有调用者,而不仅仅是第一个调用者。

基本上就是这样。

“key ”参数的作用是什么?

它告诉 singleflight,多个请求实际上是在请求同一件事。因此,它会使用这个键来检查是否应该再次运行函数,或者只是等待并返回正在进行的操作的结果。

如果你想看看实际代码是如何实现的,可以点击这里查看: https://go.dev/play/p/30kdFPsy2HR

基本上,如果同一函数被同时调用多次,则只进行一次真正的调用,然后由所有调用者共享这一次调用的结果。

“为什么不使用缓存?

Singleflight 并不是缓存,而是一种获取结果或调用可同时运行的函数的方法。

该函数可能不会返回任何结果,这个例子可能会让人误解这是为了处理昂贵的数据,但我们只是想确保只调用一次该函数。

就像向服务器发送 ping() 函数,你不会缓存 ping 的结果,但也不想让服务器同时承受多个 ping 的重负。

sync.Once 是只做一次事情的最佳方法

我们知道,有时我们需要确保某些事情在应用程序中只发生一次,即使有大量事情在同时运行。

让我们用 sync.Once 来谈谈这个问题,它在设置单例时非常常见。

例如,我们有一个配置对象,对吗?我们需要对它进行一次设置,然后在应用程序的其他地方使用相同的设置:

var instance *Config

func GetConfig() *Config {
    if instance == nil {
        instance = loadConfig()
    }

    return instance
}

但问题是,如果有很多 goroutines 同时尝试获取配置,而配置尚未设置好,那么最终可能会多次运行 loadConfig(),这可不是我们想要的结果。

这就是 sync.Once 的作用所在:

var (
    once     sync.Once
    instance *Config
)

func GetConfig() *Config {
    once.Do(func() {
        instance = loadConfig()
    })

    return instance
}

我们将设置代码封装在一个函数中,并将其传递给 once.Do(),这样,无论有多少个程序同时调用 GetConfig(),loadConfig() 函数都能保证只运行一次。

这样就能确保每个人都能获得相同的 Config 实例,而无需多次设置。

现在,重要的是要明白,sync.Once 并不意味着函数在一般意义上只运行一次,而是只在该特定 sync.Once 实例的上下文中执行一次,这是一个很大的区别。

问题是,如果你尝试在不同的函数中再次使用 sync.Once,即使新函数之前没有使用过 sync.Once,它也不会起作用:

o.Do(f1)
o.Do(f2)

如果 f1 已经运行,第二个函数 f2 就会被忽略。这是因为 sync.Once 并不是关于函数,而是关于只做一次的行为,而不管那是什么

从 Go 1.21 版本开始,sync 包提供了更多有用的功能。我们现在有了

sync.OnceFunc、sync.OnceValue 和 sync.OnceValues。

这些新函数将标准函数转换为 sync.Once 类函数,确保无论函数被调用多少次,都只执行一次。

func OnceFunc(f func()) func()
func OnceValue[T any](f func() T) func() T
func OnceValues[T1, T2 any](f func() (T1, T2)) func() (T1, T2)

当您需要从一个只执行一次的函数中返回值时,甚至包括处理错误时,这一新增功能尤其有用:

var GetConfig = sync.OnceValues(func() (Config, error) {
    return Config{..}, nil
})

GetConfig 只执行一次以检索配置,可能包括错误,第一次调用后,任何对 GetConfig 的进一步调用都将返回与第一次相同的结果,函数本身实际上不会再次运行。

让我们深入了解一下 sync.Once 的内部工作原理:

  • 一个原子计数器,可以是 0 或 1。
  • 一个互斥器,用于保护较慢的操作。 现在,让我为你分析一下 sync.Once 的结构:
type Once struct {
    done atomic.Uint32
    m    Mutex
}

快速路径

调用 once.Do(f) 时,首先会检查原子计数器,如果计数器为 0,则表示函数尚未运行。

如果函数已经执行完毕,则后续调用可以绕过该检查,从而大大加快速度。

慢速路径

现在,如果计数器为 0,sync.Once 会切换到所谓的慢速路径,即执行函数:

func(o *Once) doSlow(f func()) {
    o.m.Lock()
    defer o.m.Unlock()

    if o.done.Load() == 0 {
        defer o.done.Store(1)
        f()
    }
}
  • o.m.Lock(): 这将锁定互斥项,以确保在任何时候只有一个 goroutine 可以执行下面的步骤。
  • o.done.Load()==0:一旦锁定,它会再次检查计数器,以确保在此期间没有其他 goroutine 运行该函数。
  • o.done.Store(1): 函数执行完毕后,它将计数器更新为 1,表明函数已被运行,不应再次运行。

为什么会有快速路径和慢速路径

我们之所以有快速路径和慢速路径,是为了在速度和安全性之间取得平衡。

快速路径允许系统绕过互斥锁,如果函数已经执行,则绕过互斥锁执行,这样速度会快很多。

而慢速路径则能确保函数第一次执行时的安全性,不会受到其他程序的干扰。这种初始设置可能会慢一些,但一旦完成,每次调用 once.Do() 都会很快,这从长远来看是件好事。

使用 errgroup 管理Goroutines

当我们处理多个 goroutines 时,管理它们及其错误会变得有点棘手。

我们可能已经熟悉了用于处理多个 goroutines 的 sync.WaitGroup。但是,还有一个名为 errgroup 的工具,它提供了一些巧妙的功能,可以进一步简化这一过程。

首先,你需要下载包:

$ go get -u golang.org/x/sync

想象一下,您想同时从多个 URL 获取数据:

func main() {
    urls := []string {
        "https://blog.devtrovert.com",
        "https://example.com",
    }

    var g errgroup.Group

    for _, url := range urls {
        url := url // safe before Go 1.22
        g.Go(func() error {
            return fetch(url)
        })
    }

    if err := g.Wait() ; err != nil {
        log.Fatal(err)
    }
}

在这个代码段中,我们同时获取 2 个页面。g.Wait() 方法是我们要重点关注的方法,它会等待所有 goroutines 结束。如果任何一个 goroutines 遇到错误,g.Wait() 将返回它遇到的第一个错误。

Errgroup 简化了管理多个 goroutines 和处理执行过程中可能出现的错误的过程。

让我们来分析一下关键点:

  • 使用 g.Go(),在自己的 goroutine 中启动每个任务,并将执行工作的函数传递给它。
  • 使用 g.Wait()等待所有 goroutine 完成,它会返回 goroutine 中遇到的第一个错误,而不是所有错误。
  • Errgroup 可与上下文无缝连接。通过使用 errgroup.WithContext(),如果任何 goroutine 失败并返回错误,上下文将自动取消。

内部结构

Errgroup.Group 结构使用 Go 标准库中的一些组件构建:

type Group struct {
    cancel func()
    
    wg sync.WaitGroup
    sema chan struct{}
    errOnce sync.Once

    err error
}
  • wg sync.WaitGroup: 用于等待所有程序完成任务。
  • errOnce sync.Once:确保以线程安全的方式捕获第一个错误,即在设置错误时不会出现竞赛条件。
  • sema chan struct{}: 一个 semaphore 可以控制同时运行的 goroutines 数量。我们甚至可以使用 errg.SetLimit() 设置并发程序的数量限制。

无论何时使用 g.Go(),本质上都是在向组中添加一个新任务。该任务是一个不带任何参数但会返回错误的函数。可以同时运行的并发 goroutines 的数量由一个 semaphore 来管理,它有助于控制执行并防止过多的任务同时运行。

下面是具体的实现过程:

func (g *Group) Go(f func() error) {
	if g.sem != nil {
		g.sem <- token{}
	}

	g.wg.Add(1)
	go func() {
		defer g.done()

		if err := f(); err != nil {
			g.errOnce.Do(func() {
				g.err = err
				if g.cancel != nil {
					g.cancel(g.err)
				}
			})
		}
	}()
}

无论何时使用 g.Go(),本质上都是在向组中添加一个新任务。该任务是一个不带任何参数但会返回错误的函数。可以同时运行的并发 goroutines 的数量由一个 semaphore 来管理,它有助于控制执行并防止过多的任务同时运行。

下面是具体的实现过程:

func (g *Group) done() {
    if g.sem != nil {
        <-g.sem
    }
    g.wg.done()
}

func (g *Group) Wait() error {
	g.wg.Wait()
	if g.cancel != nil {
		g.cancel(g.err)
	}
	return g.err
}

函数 done() 起着重要作用,它不仅向 WaitGroup 发送 goroutine 已完成的信号,还管理着 semaphore,以确保运行 goroutine 的限制得到遵守。

我们还应该记住,使用 goroutines 并不总是最好的解决方案,尤其是对于快速完成的任务。有时,按顺序一个接一个地运行任务可能会更快,也更容易管理

安全的泛型sync.Pool

那么,让我们来看看 sync.Pool。对于那些可能不太熟悉的人来说,sync.Pool 是 Go 标准库中的一项功能,主要用于重复使用对象。

这非常方便,因为它有助于减少内存分配的次数,从而大大提高性能。

想象一下,你有一台超快的打印机,每分钟需要打印 100 页。如果打印机每打印一页都要跑到储藏室去拿新的墨水和纸张,那就没什么意义了,对吗?

相反,你可以这样想:打印机有一个装有大约 100 张纸的托盘,可以重复使用。你手头有一批固定的物品,可以反复使用,这样既节省了时间,又节省了资源。

下面是代码中的一个小片段:

var paperPool = sync.Pool{
    New: func() interface{} {
        return new(Paper) // create a new sheet of paper
    }
}

func printPage() {
    page := paperPool.Get().(*Paper)
    page.Reset() // make sure to reset the page before using it

    defer paperPool.Put(page)

    page.Print()
}

但有几点需要注意:

  • sync.Pool 没有固定大小,这意味着你可以不断添加和检索项目,而不受任何硬性限制。
  • 一旦你将一个对象放回池中,就不要再想它了,因为它可能会被删除或被垃圾回收器回收。
  • 由于对象可能有状态,因此在将其放回池中或取出后,清除或重置其状态至关重要。

泛型池

我们已经知道 sync.Pool 使用空接口{}来存储和检索项目。这非常灵活,但不提供类型安全,我们可以对这个过程进行包装,使其类型安全:


type Pool[T any] struct {
    internal sync.Pool
}

func NewPool[T any](newF func() T) *Pool[T] {
    return &Pool[T]{
        internal: &sync.Pool{
            New: func() interface{} {
                return newF()
            }
        }
    }
}

通过这种设置,我们创建了一个与特定类型 T 绑定的池,尽管它在引擎盖下仍使用 interface{}。神奇之处在于我们如何以类型安全的方式处理数据的获取和放置:

func (p *Pool[T]) Get() T {
    return p.internal.Get().(T)
}

func (p *Pool[T]) Put(x T) {
    p.internal.Put(x)
}

从池中获取数据时,我们只需将接口转换为 T 类型。你可能会问,为什么我们不在转换过程中检查错误呢?

“为什么我们不在转换过程中检查错误呢?

事情是这样的:我们添加的泛型层为我们确保了类型,因此无需担心转换失败。

sync.Pool 永远只包含 T 类型的实例,因此断言 p.internal.Get().(T) 是安全的,在正常情况下不会引起panic。这种解决方案使我们的代码简洁高效。

sync.Mutex Embedding 互斥锁嵌入

在应用程序的不同部分需要并发访问共享资源时,通常会使用 sync.Mutex 来管理访问并确保数据完整性。

通常情况下,您可能会看到类似这样的情况:

type MyStruct struct {
    mu sync.Mutex

    ...
}

func (s *MyStruct) DoSomething() {
    s.mu.Lock()
    defer s.mu.Unlock()

    ...
}

这种模式虽然有效,但会导致代码中充满 mu.Lock() 和 mu.Unlock() 调用,从而增加代码的阅读和维护难度。

一种更简洁的处理方法是将 sync.Mutex 直接嵌入到结构体中,这样就可以直接在结构体的实例上调用 Lock 和 Unlock:


type Lockable[T any] struct {
    sync.Mutex
    Value T
}

func (l *Lockable[T]) SetValue(v T) {
    l.Lock()
    defer l.Unlock()

    l.Value = v
}

func (l *Lockable[T]) GetValue() T {
    l.Lock()
    defer l.Unlock()

    return l.Value
}

为什么我们不直接嵌入 T 类型,而要使用 Value T?

原因是 Go 目前不支持在结构体中直接嵌入类型参数。

使用channel 不被阻塞

通常情况下,当我们通过channel发送信息时,代码会坐在那里等待接收器准备好接收数值,就像这样

ch <- value // blocking operation

但如果我们遇到了不想等待的情况呢?

也许我们已经有了一个使用信号传递器管理资源的系统,而且我们已经有了一个像 TryAcquire() 这样的函数,它应该立即告诉我们是否因为资源已被使用而无法获取资源。

让我们以 errgroup 软件包为例,看看在实践中是如何处理类似问题的。该软件包内部使用了一种简单的信号机制来限制同时运行的 goroutines 数量。

下面是如果信号灯已满,而你又试图启动一个新的 goroutine 时会发生的情况:

func (g *Group) TryGo(f func() error) bool {
    if g.sem != nil {
        select {
        case g.sem <- token{}:
        default:
            return false
        }
    }

    ...
}

神奇之处在于 select{} 语句。通常,select{} 用于等待多个通道操作,但在这里,它被巧妙地用于尝试非阻塞发送:

  • case g.sem <- token{}: 这一行尝试向 semaphore 通道 g.sem 发送令牌。如果通道中还有空间(这意味着它没有达到容量),则标记发送成功,函数继续执行。
  • default: 如果 g.sem 通道已经满了,这部分就会启动。它不会阻塞并等待空间释放,而是直接进入默认情况。

选择语句中的默认情况是一个棘手的路径,因为如果没有其他情况就绪,它就会立即执行。在这种情况下,它会立即返回 false,让我们知道我们无法启动新的 goroutine,因为我们已经达到了为活动 goroutine 设置的限制。