从源码分析 Go 语言使用 cgo 导致的线程增长

2023/6/5 14:23:52

本文主要是介绍从源码分析 Go 语言使用 cgo 导致的线程增长，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

TDengine Go 连接器 https://github.com/taosdata/driver-go 使用 cgo 调用 taos.so 中的 API，使用过程中发现线程数不断增长，本文从一个 cgo 调用开始解析 Go 源码，分析造成线程增长的原因。

转换 cgo 代码

对 driver-go/wrapper/taosc.go 进行转换

go tool cgo taosc.go

执行后生成 _obj 文件夹

go 代码分析

以 taosc.cgo1.go 中 TaosResetCurrentDB 为例来分析。

// TaosResetCurrentDB void taos_reset_current_db(TAOS *taos);
func TaosResetCurrentDB(taosConnect unsafe.Pointer) {
    func() { _cgo0 := /*line :161:26*/taosConnect; _cgoCheckPointer(_cgo0, nil); _Cfunc_taos_reset_current_db(_cgo0); }()
}

//go:linkname _cgoCheckPointer runtime.cgoCheckPointer
func _cgoCheckPointer(interface{}, interface{})

//go:cgo_unsafe_args
func _Cfunc_taos_reset_current_db(p0 unsafe.Pointer) (r1 _Ctype_void) {
    _cgo_runtime_cgocall(_cgo_453a0cad50ef_Cfunc_taos_reset_current_db, uintptr(unsafe.Pointer(&p0)))
    if _Cgo_always_false {
        _Cgo_use(p0)
    }
    return
}

//go:linkname _cgo_runtime_cgocall runtime.cgocall
func _cgo_runtime_cgocall(unsafe.Pointer, uintptr) int32

//go:cgo_import_static _cgo_453a0cad50ef_Cfunc_taos_reset_current_db
//go:linkname __cgofn__cgo_453a0cad50ef_Cfunc_taos_reset_current_db _cgo_453a0cad50ef_Cfunc_taos_reset_current_db
var __cgofn__cgo_453a0cad50ef_Cfunc_taos_reset_current_db byte
var _cgo_453a0cad50ef_Cfunc_taos_reset_current_db = unsafe.Pointer(&__cgofn__cgo_453a0cad50ef_Cfunc_taos_reset_current_db)

TaosResetCurrentDB 首先调用 _cgoCheckPointer 检查传入参数是否为 nil。
//go:linkname _cgoCheckPointer runtime.cgoCheckPointer 表示 cgoCheckPointer 方法实现是 runtime.cgoCheckPointer，如果传入参数是 nil 程序将会 panic。
接着调用 _Cfunc_taos_reset_current_db。
Cfunc_taos_reset_current_db 方法中 _Cgo_always_false 在运行时会是 false，所以只分析第一句 _cgo_runtime_cgocall(_cgo_453a0cad50ef_Cfunc_taos_reset_current_db, uintptr(unsafe.Pointer(&p0)))。
- _cgo_runtime_cgocall 实现是 runtime.cgocall 这个会重点分析。
- _cgo_453a0cad50ef_Cfunc_taos_reset_current_db 由上方最后代码块可以看出是 taos_reset_current_db 方法指针。
- uintptr(unsafe.Pointer(&p0)) 表示 p0 的指针地址。
- 由上面可以看出这句意思是调用 runtime.cgocall，参数为方法指针和参数的指针地址。

分析 `runtime.cgocall`

基于 golang 1.20.4 分析该方法

func cgocall(fn, arg unsafe.Pointer) int32 {
    if !iscgo && GOOS != "solaris" && GOOS != "illumos" && GOOS != "windows" {
        throw("cgocall unavailable")
    }

    if fn == nil {
        throw("cgocall nil")
    }

    if raceenabled {
        racereleasemerge(unsafe.Pointer(&racecgosync))
    }

    mp := getg().m // 获取当前 goroutine 的 M
    mp.ncgocall++  // 总 cgo 计数 +1
    mp.ncgo++      // 当前 cgo 计数 +1

    mp.cgoCallers[0] = 0 // 重置追踪

    entersyscall() // 进入系统调用,保存上下文, 标记当前 goroutine 独占 m, 跳过垃圾回收

    osPreemptExtEnter(mp) // 标记异步抢占, 使异步抢占逻辑失效

    mp.incgo = true // 修改状态
    errno := asmcgocall(fn, arg) // 真正进行方法调用的地方

    mp.incgo = false // 修改状态
    mp.ncgo-- // 当前 cgo 调用-1

    osPreemptExtExit(mp) // 恢复异步抢占

    exitsyscall() // 退出系统调用,恢复调度器控制


    if raceenabled {
        raceacquire(unsafe.Pointer(&racecgosync))
    }

    // 避免 GC 过早回收
    KeepAlive(fn)
    KeepAlive(arg)
    KeepAlive(mp)

    return errno
}

其中两个主要的方法 entersyscall 和 asmcgocall，接下来对这两个方法进行着重分析。

分析 `entersyscall`

func entersyscall() {
    reentersyscall(getcallerpc(), getcallersp())
}

entersyscall 直接调用的 reentersyscall，关注下 reentersyscall 注释中的一段：

// If the syscall does not block, that is it, we do not emit any other events.
// If the syscall blocks (that is, P is retaken), retaker emits traceGoSysBlock;

如果 syscall 调用没有阻塞则不会触发任何事件，如果被阻塞 retaker 会触发 traceGoSysBlock，那需要了解一下多长时间被认为是阻塞，先跟到 retaker 方法。

func retake(now int64) uint32 {
    n := 0
    lock(&allpLock)
    for i := 0; i < len(allp); i++ {
        pp := allp[i]
        if pp == nil {
            continue
        }
        pd := &pp.sysmontick
        s := pp.status
        sysretake := false
        if s == _Prunning || s == _Psyscall {
            t := int64(pp.schedtick)
            if int64(pd.schedtick) != t {
                pd.schedtick = uint32(t)
                pd.schedwhen = now
            } else if pd.schedwhen+forcePreemptNS <= now {
                preemptone(pp)
                sysretake = true
            }
        }
        // 从系统调用中抢占P
        if s == _Psyscall {
            // 如果已经超过了一个系统监控的 tick（20us），则从系统调用中抢占 P
            t := int64(pp.syscalltick)
            if !sysretake && int64(pd.syscalltick) != t {
                pd.syscalltick = uint32(t)
                pd.syscallwhen = now
                continue
            }
            if runqempty(pp) && sched.nmspinning.Load()+sched.npidle.Load() > 0 && pd.syscallwhen+10*1000*1000 > now {
                continue
            }
            unlock(&allpLock)
            incidlelocked(-1)
            if atomic.Cas(&pp.status, s, _Pidle) {
                if trace.enabled {
                    traceGoSysBlock(pp)
                    traceProcStop(pp)
                }
                n++
                pp.syscalltick++
                handoffp(pp)
            }
            incidlelocked(1)
            lock(&allpLock)
        }
    }
    unlock(&allpLock)
    return uint32(n)
}

从上面可以看到系统调用阻塞 20 多微秒会被抢占 P,cgo 被迫 handoffp，接下来分析 handoffp 方法

func handoffp(pp *p) {
    // ...
    // 没有任务且没有自旋和空闲的 M 则需要启动一个新的 M
    if sched.nmspinning.Load()+sched.npidle.Load() == 0 && sched.nmspinning.CompareAndSwap(0, 1) {
        sched.needspinning.Store(0)
        startm(pp, true)
        return
    }
    // ...
}

handoffp 方法会调用 startm 来启动一个新的 M，跟到 startm 方法。

func startm(pp *p, spinning bool) {
    // ...
    nmp := mget()
    if nmp == nil {
        // 没有M可用，调用newm
        id := mReserveID()
        unlock(&sched.lock)

        var fn func()
        if spinning {
            fn = mspinning
        }
        newm(fn, pp, id)
        releasem(mp)
        return
    }
    // ...
}

此时如果没有 M startm 会调用 newm 创建一个新的 M，接下来分析 newm 方法。

func newm(fn func(), pp *p, id int64) {
    acquirem()
    mp := allocm(pp, fn, id)
    mp.nextp.set(pp)
    mp.sigmask = initSigmask
    if gp := getg(); gp != nil && gp.m != nil && (gp.m.lockedExt != 0 || gp.m.incgo) && GOOS != "plan9" {
        lock(&newmHandoff.lock)
        if newmHandoff.haveTemplateThread == 0 {
            throw("on a locked thread with no template thread")
        }
        mp.schedlink = newmHandoff.newm
        newmHandoff.newm.set(mp)
        if newmHandoff.waiting {
            newmHandoff.waiting = false
            notewakeup(&newmHandoff.wake)
        }
        unlock(&newmHandoff.lock)
        releasem(getg().m)
        return
    }
    newm1(mp)
    releasem(getg().m)
}

func newm1(mp *m) {
    if iscgo {
        var ts cgothreadstart
        if _cgo_thread_start == nil {
            throw("_cgo_thread_start missing")
        }
        ts.g.set(mp.g0)
        ts.tls = (*uint64)(unsafe.Pointer(&mp.tls[0]))
        ts.fn = unsafe.Pointer(abi.FuncPCABI0(mstart))
        if msanenabled {
            msanwrite(unsafe.Pointer(&ts), unsafe.Sizeof(ts))
        }
        if asanenabled {
            asanwrite(unsafe.Pointer(&ts), unsafe.Sizeof(ts))
        }
        execLock.rlock()
        // 创建新线程
        asmcgocall(_cgo_thread_start, unsafe.Pointer(&ts))
        execLock.runlock()
        return
    }
    execLock.rlock()
    newosproc(mp)
    execLock.runlock()
}

从 newm 看出如果线程都在阻塞中则调用 newm1，newm1 调用 _cgo_thread_start 创建新线程。

由以上分析得出当高并发调用 cgo 且执行时间超过 20 微秒时会创建新线程。

分析 `asmcgocall`

只分析 amd64
asm_amd64.s

TEXT ·asmcgocall(SB),NOSPLIT,$0-20
    MOVQ    fn+0(FP), AX
    MOVQ    arg+8(FP), BX

    MOVQ    SP, DX

    // 考虑是否需要切换到 m.g0 栈
    // 也用来调用创建新的 OS 线程，这些线程已经在 m.g0 栈中了
    get_tls(CX)
    MOVQ    g(CX), DI
    CMPQ    DI, $0
    JEQ nosave
    MOVQ    g_m(DI), R8
    MOVQ    m_gsignal(R8), SI
    CMPQ    DI, SI
    JEQ nosave
    MOVQ    m_g0(R8), SI
    CMPQ    DI, SI
    JEQ nosave
    
    // 切换到系统栈
    CALL    gosave_systemstack_switch<>(SB)
    MOVQ    SI, g(CX)
    MOVQ    (g_sched+gobuf_sp)(SI), SP

    // 于调度栈中（pthread 新创建的栈）
    // 确保有足够的空间给四个 stack-based fast-call 寄存器
    // 为使得 windows amd64 调用服务
    SUBQ    $64, SP
    ANDQ    $~15, SP // 为 gcc ABI 对齐
    MOVQ    DI, 48(SP) // 保存 g
    MOVQ    (g_stack+stack_hi)(DI), DI
    SUBQ    DX, DI
    MOVQ    DI, 40(SP) // 保存栈深 (不能仅保存 SP，因为栈可能在回调时被复制)
    MOVQ    BX, DI  // DI = AMD64 ABI 第一个参数
    MOVQ    BX, CX  // CX = Win64 第一个参数
    CALL    AX  // 调用 fn

    // 恢复寄存器、 g、栈指针
    get_tls(CX)
    MOVQ    48(SP), DI
    MOVQ    (g_stack+stack_hi)(DI), SI
    SUBQ    40(SP), SI
    MOVQ    DI, g(CX)
    MOVQ    SI, SP

    MOVL    AX, ret+16(FP)
    RET

nosave:
    // 在系统栈上运行，可能没有 g
    // 没有 g 的情况发生在线程创建中或线程结束中（比如 Solaris 平台上的 needm/dropm）
    // 这段代码和上面类似，但没有保存和恢复 g，且没有考虑栈的移动问题（因为我们在系统栈上，而非 goroutine 栈）
    // 如果已经在系统栈上，则上面的代码可被直接使用，在 Solaris 上会进入下面这段代码。
    // 使用这段代码来为所有 "已经在系统栈" 的调用进行服务，从而保持正确性。
    SUBQ    $64, SP
    ANDQ    $~15, SP // ABI 对齐
    MOVQ    $0, 48(SP) // 上面的代码保存了 g, 确保 debug 时可用
    MOVQ    DX, 40(SP) // 保存原始的栈指针
    MOVQ    BX, DI  // DI = AMD64 ABI 第一个参数
    MOVQ    BX, CX  // CX = Win64 第一个参数
    CALL    AX
    MOVQ    40(SP), SI // 恢复原来的栈指针
    MOVQ    SI, SP
    MOVL    AX, ret+16(FP)
    RET

这段就是将当前栈移到系统栈去执行，因为 C 需要无穷大的栈，在 Go 的栈上执行 C 函数会导致栈溢出。

产生问题

cgo 调用会将当前栈移到系统栈，并且当 cgo 高并发调用且阻塞超过 20 微秒时会新建线程。而 Go 并不会销毁线程，由此造成线程增长。

解决方案

限制 Go 程序最大线程数，默认为 cpu 核数。

runtime.GOMAXPROCS(runtime.NumCPU())

使用 channel 限制 cgo 最大并发数为 cpu 核数

package thread

import "runtime"

var c chan struct{}

func Lock() {
    c <- struct{}{}
}

func Unlock() {
    <-c
}

func init() {
    c = make(chan struct{}, runtime.NumCPU())
}

针对超过 20 微秒的 cgo 调用进行限制：

thread.Lock()
wrapper.TaosFreeResult(result)
thread.Unlock()

这篇关于从源码分析 Go 语言使用 cgo 导致的线程增长的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

从源码分析 Go 语言使用 cgo 导致的线程增长

转换 cgo 代码

go 代码分析

分析 runtime.cgocall

分析 entersyscall

分析 asmcgocall

产生问题

解决方案

相关编程文章

分析 `runtime.cgocall`

分析 `entersyscall`

分析 `asmcgocall`