软件动态断点：退出前清理机制

问题背景：断点残留的危害

在调试器开发过程中，我们通过ptrace系统调用对目标进程的指令进行动态修改来实现动态软件断点。具体来说，断点的添加是通过将目标地址的指令字节替换为0xCC（int3指令）来实现的，同时需要备份原始指令字节以便后续恢复。

调试器与tracee的关系存在多种场景：

通过 debug 编译构建并启动构建好的程序；
通过 exec 启动已经构建好的程序；
通过 attach跟踪正在运行中的进程。

对于前两种情况，调试器退出时通常会主动终止tracee；而对于 attach场景，调试器退出后时一般会倾向于恢复tracee的执行。

然而，如果调试器在退出前没有主动清理这些动态添加的断点，将会给被调试进程造成严重的不良影响：

指令不完整：多字节指令被patch后变成不完整的指令序列
SIGTRAP信号：当tracee执行到断点位置时，会触发SIGTRAP信号
进程终止：在没有tracer的情况下，内核的默认行为是杀死该tracee进程

我们必须足够重视这个问题，需要实现一个类似C语言atexit的机制，在调试器退出前自动清理所有断点。

实现目标：自动断点清理

为了避免上述问题，我们需要在调试器退出前自动清理所有已添加的断点。这要求我们：

跟踪所有断点：维护一个全局的断点集合，记录所有已添加的断点信息
自动清理机制：在调试会话结束时，自动遍历并清理所有断点
优雅退出：确保tracee进程在调试器退出后能够继续正常运行

代码实现

我们通过实现一个类似C语言 atexit的机制来实现自动断点清理。具体实现包括：

1. DebugSession结构体扩展

type DebugSession struct {
    // ... 其他字段
    defers []func() // 退出前需要执行的清理函数
}

// AtExit 注册退出前的清理函数
func (s *DebugSession) AtExit(fn func()) *DebugSession {
    s.defers = append(s.defers, fn)
    return s
}

2. 启动方法中的defer机制

func (s *DebugSession) Start() {
    s.liner.SetCompleter(completer)
    s.liner.SetTabCompletionStyle(liner.TabPrints)

    // 注册退出前的清理逻辑
    defer func() {
        for idx := len(s.defers) - 1; idx >= 0; idx-- {
            s.defers[idx]()
        }
    }()

    // ... 其他启动逻辑
}

3. 断点清理函数

// Cleanup 清理所有断点的函数
func Cleanup() {
    var (
        dbp = target.DBPProcess
        err error
    )

    // 先清理掉之前创建的断点
    fmt.Printf("before detached, clearall created breakpoints.")
    if err := target.DBPProcess.ClearAll(); err != nil {
        fmt.Fprintf(os.Stderr, "clearall failed err: %v\n", err)
    }

    // 根据被调试进程创建的方式，debug、exec or attach，来决定如何做善后处理
    // - debug: kill traced process, delete generated binary
    // - exec: kill traced process
    // - attach: detach traced process
    if err = dbp.Detach(); err != nil {
        fmt.Fprintf(os.Stderr, "detach tracee: %d, err: %v\n", dbp.Process.Pid, err)
        return
    }

    switch dbp.Kind {
    case target.DEBUG:
        fmt.Fprintf(os.Stdout, "tracee is is built and run by tracer, remove binary and kill it: %d\n", dbp.Kind)

        if err = os.RemoveAll(dbp.Command); err != nil {
            fmt.Fprintf(os.Stderr, "remove built binary %s, err: %v\n", dbp.Command, err)
            return
        }
        if err = syscall.Kill(dbp.Process.Pid, syscall.SIGKILL); err != nil {
            fmt.Fprintf(os.Stderr, "kill tracee: %d, err: %v\n", dbp.Process.Pid, err)
            return
        }
        fallthrough
    case target.EXEC:
        fmt.Fprintf(os.Stdout, "tracee is is run by tracer, kill it: %d\n", dbp.Kind)
        if err = syscall.Kill(dbp.Process.Pid, syscall.SIGKILL); err != nil {
            fmt.Fprintf(os.Stderr, "kill tracee: %d, err: %v\n", dbp.Process.Pid, err)
            return
        }
    default:
        fmt.Fprintf(os.Stdout, "tracee is an attached process, leave it running")
    }
}

特别注意的是 target.DBPProcess.ClearAll() 执行过程中，不光会还原断点处指令数据，还会rewind所有受影响的线程的PC，保证调试器退出后各个线程可以继续正常执行。同时考虑了attach、debug两种方式下对于tracee的不同处理，后者会杀死，前者会询问是否要继续执行。

4. 调试会话的创建和使用

// 创建调试会话并注册清理函数
session := debug.NewDebugSession().AtExit(Cleanup)
session.Start()

测试用例

测试场景：不清理断点的后果

我们通过一个实际的测试来演示不清理断点会导致的问题：

启动测试进程：

$ while [ 1 -eq 1 ]; do t=`date`; echo "$t pid: $$"; sleep 1; done

Sun Sep  7 15:22:23 CST 2025 pid: 416728
Sun Sep  7 15:22:24 CST 2025 pid: 416728
Sun Sep  7 15:22:25 CST 2025 pid: 416728
Sun Sep  7 15:22:26 CST 2025 pid: 416728

附加调试器并添加断点：

godbg attach 416728
godbg> pregs
    Rax <Rax value>
    Rbx <Rbx value>
    ... 
    Rip <Rip value>
    ...

godbg> break <Rip value>
godbg> continue

观察进程行为：

执行continue后，tracee开始重新输出信息：

Sun Sep  7 15:23:19 CST 2025 pid: 416728 <= after we run `continue`, we see the output again.

退出调试器（不清理断点）：

godbg> exit

观察进程终止：

Sun Sep  7 15:22:23 CST 2025 pid: 416728
Sun Sep  7 15:22:24 CST 2025 pid: 416728
Sun Sep  7 15:22:25 CST 2025 pid: 416728
Sun Sep  7 15:22:26 CST 2025 pid: 416728
Sun Sep  7 15:22:27 CST 2025 pid: 416728 


Sun Sep  7 15:23:19 CST 2025 pid: 416728

[process exited with code 5 (0x00000005)] <= tracee exited with error
You can now close this terminal with Ctrl+D, or press Enter to restart.

测试场景：使用AtExit机制的正确行为

启动测试进程：

$ while [ 1 -eq 1 ]; do t=`date`; echo "$t pid: $$"; sleep 1; done

使用带AtExit的调试器：

godbg attach 416728
godbg> break <address>
godbg> exit
正在清理断点...
断点清理完成

验证进程继续运行：

Sun Sep  7 15:22:23 CST 2025 pid: 416728
Sun Sep  7 15:22:24 CST 2025 pid: 416728
Sun Sep  7 15:22:25 CST 2025 pid: 416728
Sun Sep  7 15:22:26 CST 2025 pid: 416728
Sun Sep  7 15:22:27 CST 2025 pid: 416728 


Sun Sep  7 15:23:19 CST 2025 pid: 416728
Sun Sep  7 15:23:20 CST 2025 pid: 416728 <= 进程继续正常运行
Sun Sep  7 15:23:21 CST 2025 pid: 416728

本节小结

本节主要探讨了调试器退出前断点清理机制的重要性与实现方法，核心内容包括：断点残留的危害性分析；SIGTRAP信号导致的进程终止问题；AtExit机制的实现原理；自动断点清理的代码实现。

本节核心要点包括：

断点通过ptrace修改指令字节实现，如果不清理会导致多字节指令不完整，执行时触发SIGTRAP信号
在没有tracer的情况下，内核默认行为是杀死触发SIGTRAP的进程，导致被调试进程异常终止
通过实现类似C语言atexit的机制，在调试会话退出前自动清理所有断点，确保tracee进程能够继续正常运行
AtExit机制通过defer函数和回调函数注册实现，提供了优雅的资源清理方式

本节内容为调试器的健壮性设计提供了重要保障，确保调试器在各种退出场景下都能正确清理资源，为读者理解调试器的生命周期管理和资源清理机制奠定了实践基础。通过本节的学习，读者可以掌握调试器开发中资源管理的最佳实践，为后续开发更复杂的调试器功能提供了重要的设计参考。

6.10 调试器退出前的断点清理机制