評測結(jié)果

2024-12-27 18:02 更新

評測結(jié)果

CodeGeeX4-ALL-9B 被評為參數(shù)量100 億內(nèi)的最強(qiáng)模型,甚至超越了參數(shù)量大幾倍的通用模型,在推理性能和模型能力之間達(dá)到了最佳效果。

點(diǎn)擊圖片可查看完整電子表格

在 BigCodeBench 的 complete 和 instruct 任務(wù)中,CodeGeeX4-ALL-9B 分別取得了 48.9 和 40.4 的高分,這在參數(shù)量 200 億內(nèi)的模型中是最高的分?jǐn)?shù)。

NaturalCodeBench測試結(jié)果顯示,CodeGeeX4-ALL-9B在代碼補(bǔ)全、代碼解釋器、代碼問答、代碼翻譯、代碼修復(fù)等任務(wù)上均取得了最佳效果:

Crux-Eval 是測試代碼推理、理解和執(zhí)行能力的基準(zhǔn)測試,借助于其強(qiáng)大的 COT 能力,CodeGeeX4-ALL-9B 展現(xiàn)出色的表現(xiàn)。在 HumanEval、MBPP 和 NaturalCodeBench 等代碼生成任務(wù)中,CodeGeeX4-ALL-9B 也取得了出色的成績。目前,它是唯一支持 Function Call 功能的代碼模型,甚至取得了比 GPT-4 更高的分?jǐn)?shù)。

CodeGeeX4-ALL-9B上下文處理能力達(dá)到了128K

在“Code Needle In A Haystack” (NIAH) 評估中,CodeGeeX4-ALL-9B 模型展示了在 128K 范圍內(nèi)檢索代碼的能力,在python語言環(huán)境達(dá)到了 100% 的檢索準(zhǔn)確率,并在跨文件補(bǔ)全任務(wù)中表現(xiàn)出色。

上圖展示的是在一個(gè)全部由Python代碼組成的測試集中,插入一個(gè)賦值語句如:

zhipu_codemodel = "codegeex"(Needle),測試模型是否可以正確回答出zhipu_codemodel的值,CodeGeeX4-ALL-9B 100%完成任務(wù)。

Cross-File Evaluation是一個(gè)多語言的基準(zhǔn),建立在Python、Java、TypeScript和C#的多樣化真實(shí)倉庫之上。它使用基于靜態(tài)分析的方法,嚴(yán)格要求跨文件上下文以實(shí)現(xiàn)準(zhǔn)確的代碼補(bǔ)全。

點(diǎn)擊圖片可查看完整電子表格

在主流編程語言的效果評測上,CodeGeeX4代模型相比上一代模型優(yōu)化效果明顯。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號