閱讀(816) 書簽贊(0) 我要糾錯(cuò)

Go 語言剖析

2023-03-14 16:59 更新

原文鏈接：https://gopl-zh.github.io/ch11/ch11-05.html

11.5. 剖析

基準(zhǔn)測(cè)試（Benchmark）對(duì)于衡量特定操作的性能是有幫助的，但是當(dāng)我們?cè)噲D讓程序跑的更快的時(shí)候，我們通常并不知道從哪里開始優(yōu)化。每個(gè)碼農(nóng)都應(yīng)該知道Donald Knuth在1974年的“Structured Programming with go to Statements”上所說的格言。雖然經(jīng)常被解讀為不重視性能的意思，但是從原文我們可以看到不同的含義：

毫無疑問，對(duì)效率的片面追求會(huì)導(dǎo)致各種濫用。程序員會(huì)浪費(fèi)大量的時(shí)間在非關(guān)鍵程序的速度上，實(shí)際上這些嘗試提升效率的行為反倒可能產(chǎn)生很大的負(fù)面影響，特別是當(dāng)調(diào)試和維護(hù)的時(shí)候。我們不應(yīng)該過度糾結(jié)于細(xì)節(jié)的優(yōu)化，應(yīng)該說約97%的場(chǎng)景：過早的優(yōu)化是萬惡之源。
當(dāng)然我們也不應(yīng)該放棄對(duì)那關(guān)鍵3%的優(yōu)化。一個(gè)好的程序員不會(huì)因?yàn)檫@個(gè)比例小就裹足不前，他們會(huì)明智地觀察和識(shí)別哪些是關(guān)鍵的代碼；但是僅當(dāng)關(guān)鍵代碼已經(jīng)被確認(rèn)的前提下才會(huì)進(jìn)行優(yōu)化。對(duì)于很多程序員來說，判斷哪部分是關(guān)鍵的性能瓶頸，是很容易犯經(jīng)驗(yàn)上的錯(cuò)誤的，因此一般應(yīng)該借助測(cè)量工具來證明。

當(dāng)我們想仔細(xì)觀察我們程序的運(yùn)行速度的時(shí)候，最好的方法是性能剖析。剖析技術(shù)是基于程序執(zhí)行期間一些自動(dòng)抽樣，然后在收尾時(shí)進(jìn)行推斷；最后產(chǎn)生的統(tǒng)計(jì)結(jié)果就稱為剖析數(shù)據(jù)。

Go語言支持多種類型的剖析性能分析，每一種關(guān)注不同的方面，但它們都涉及到每個(gè)采樣記錄的感興趣的一系列事件消息，每個(gè)事件都包含函數(shù)調(diào)用時(shí)函數(shù)調(diào)用堆棧的信息。內(nèi)建的?go test?工具對(duì)幾種分析方式都提供了支持。

CPU剖析數(shù)據(jù)標(biāo)識(shí)了最耗CPU時(shí)間的函數(shù)。在每個(gè)CPU上運(yùn)行的線程在每隔幾毫秒都會(huì)遇到操作系統(tǒng)的中斷事件，每次中斷時(shí)都會(huì)記錄一個(gè)剖析數(shù)據(jù)然后恢復(fù)正常的運(yùn)行。

堆剖析則標(biāo)識(shí)了最耗內(nèi)存的語句。剖析庫(kù)會(huì)記錄調(diào)用內(nèi)部?jī)?nèi)存分配的操作，平均每512KB的內(nèi)存申請(qǐng)會(huì)觸發(fā)一個(gè)剖析數(shù)據(jù)。

阻塞剖析則記錄阻塞goroutine最久的操作，例如系統(tǒng)調(diào)用、管道發(fā)送和接收，還有獲取鎖等。每當(dāng)goroutine被這些操作阻塞時(shí)，剖析庫(kù)都會(huì)記錄相應(yīng)的事件。

只需要開啟下面其中一個(gè)標(biāo)志參數(shù)就可以生成各種分析文件。當(dāng)同時(shí)使用多個(gè)標(biāo)志參數(shù)時(shí)需要當(dāng)心，因?yàn)橐豁?xiàng)分析操作可能會(huì)影響其他項(xiàng)的分析結(jié)果。

$ go test -cpuprofile=cpu.out
$ go test -blockprofile=block.out
$ go test -memprofile=mem.out

對(duì)于一些非測(cè)試程序也很容易進(jìn)行剖析，具體的實(shí)現(xiàn)方式，與程序是短時(shí)間運(yùn)行的小工具還是長(zhǎng)時(shí)間運(yùn)行的服務(wù)會(huì)有很大不同。剖析對(duì)于長(zhǎng)期運(yùn)行的程序尤其有用，因此可以通過調(diào)用Go的runtime API來啟用運(yùn)行時(shí)剖析。

一旦我們已經(jīng)收集到了用于分析的采樣數(shù)據(jù)，我們就可以使用pprof來分析這些數(shù)據(jù)。這是Go工具箱自帶的一個(gè)工具，但并不是一個(gè)日常工具，它對(duì)應(yīng)go tool pprof命令。該命令有許多特性和選項(xiàng)，但是最基本的是兩個(gè)參數(shù)：生成這個(gè)概要文件的可執(zhí)行程序和對(duì)應(yīng)的剖析數(shù)據(jù)。

為了提高分析效率和減少空間，分析日志本身并不包含函數(shù)的名字；它只包含函數(shù)對(duì)應(yīng)的地址。也就是說pprof需要對(duì)應(yīng)的可執(zhí)行程序來解讀剖析數(shù)據(jù)。雖然go test通常在測(cè)試完成后就丟棄臨時(shí)用的測(cè)試程序，但是在啟用分析的時(shí)候會(huì)將測(cè)試程序保存為foo.test文件，其中foo部分對(duì)應(yīng)待測(cè)包的名字。

下面的命令演示了如何收集并展示一個(gè)CPU分析文件。我們選擇net/http包的一個(gè)基準(zhǔn)測(cè)試為例。通常最好是對(duì)業(yè)務(wù)關(guān)鍵代碼的部分設(shè)計(jì)專門的基準(zhǔn)測(cè)試。因?yàn)楹?jiǎn)單的基準(zhǔn)測(cè)試幾乎沒法代表業(yè)務(wù)場(chǎng)景，因此我們用-run=NONE參數(shù)禁止那些簡(jiǎn)單測(cè)試。

$ go test -run=NONE -bench=ClientServerParallelTLS64 \
    -cpuprofile=cpu.log net/http
 PASS
 BenchmarkClientServerParallelTLS64-8  1000
    3141325 ns/op  143010 B/op  1747 allocs/op
ok       net/http       3.395s

$ go tool pprof -text -nodecount=10 ./http.test cpu.log
2570ms of 3590ms total (71.59%)
Dropped 129 nodes (cum <= 17.95ms)
Showing top 10 nodes out of 166 (cum >= 60ms)
    flat  flat%   sum%     cum   cum%
  1730ms 48.19% 48.19%  1750ms 48.75%  crypto/elliptic.p256ReduceDegree
   230ms  6.41% 54.60%   250ms  6.96%  crypto/elliptic.p256Diff
   120ms  3.34% 57.94%   120ms  3.34%  math/big.addMulVVW
   110ms  3.06% 61.00%   110ms  3.06%  syscall.Syscall
    90ms  2.51% 63.51%  1130ms 31.48%  crypto/elliptic.p256Square
    70ms  1.95% 65.46%   120ms  3.34%  runtime.scanobject
    60ms  1.67% 67.13%   830ms 23.12%  crypto/elliptic.p256Mul
    60ms  1.67% 68.80%   190ms  5.29%  math/big.nat.montgomery
    50ms  1.39% 70.19%    50ms  1.39%  crypto/elliptic.p256ReduceCarry
    50ms  1.39% 71.59%    60ms  1.67%  crypto/elliptic.p256Sum

參數(shù)-text用于指定輸出格式，在這里每行是一個(gè)函數(shù)，根據(jù)使用CPU的時(shí)間長(zhǎng)短來排序。其中-nodecount=10參數(shù)限制了只輸出前10行的結(jié)果。對(duì)于嚴(yán)重的性能問題，這個(gè)文本格式基本可以幫助查明原因了。

這個(gè)概要文件告訴我們，HTTPS基準(zhǔn)測(cè)試中crypto/elliptic.p256ReduceDegree函數(shù)占用了將近一半的CPU資源，對(duì)性能占很大比重。相比之下，如果一個(gè)概要文件中主要是runtime包的內(nèi)存分配的函數(shù)，那么減少內(nèi)存消耗可能是一個(gè)值得嘗試的優(yōu)化策略。

對(duì)于一些更微妙的問題，你可能需要使用pprof的圖形顯示功能。這個(gè)需要安裝GraphViz工具，可以從 http://www.graphviz.org 下載。參數(shù)-web用于生成函數(shù)的有向圖，標(biāo)注有CPU的使用和最熱點(diǎn)的函數(shù)等信息。

這一節(jié)我們只是簡(jiǎn)單看了下Go語言的數(shù)據(jù)分析工具。如果想了解更多，可以閱讀Go官方博客的“Profiling Go Programs”一文。

以上內(nèi)容是否對(duì)您有幫助：

← Go 語言基準(zhǔn)測(cè)試

Go 語言示例函數(shù) →

寫筆記

我要補(bǔ)充

Go 語言 剖析

11.5. 剖析

Go 語言剖析