閱讀(164) 書簽贊(0) 我要糾錯(cuò)

CodeGeeX4-ALL-9B評(píng)測(cè)結(jié)果：性能卓越的代碼生成模型

2025-01-07 10:26 更新

評(píng)測(cè)結(jié)果

CodeGeeX4-ALL-9B 被評(píng)為參數(shù)量100 億內(nèi)的最強(qiáng)模型，甚至超越了參數(shù)量大幾倍的通用模型，在推理性能和模型能力之間達(dá)到了最佳效果。

點(diǎn)擊圖片可查看完整電子表格

在 BigCodeBench 的 complete 和 instruct 任務(wù)中，CodeGeeX4-ALL-9B 分別取得了 48.9 和 40.4 的高分，這在參數(shù)量 200 億內(nèi)的模型中是最高的分?jǐn)?shù)。

NaturalCodeBench測(cè)試結(jié)果顯示，CodeGeeX4-ALL-9B在代碼補(bǔ)全、代碼解釋器、代碼問答、代碼翻譯、代碼修復(fù)等任務(wù)上均取得了最佳效果：

Crux-Eval 是測(cè)試代碼推理、理解和執(zhí)行能力的基準(zhǔn)測(cè)試，借助于其強(qiáng)大的 COT 能力，CodeGeeX4-ALL-9B 展現(xiàn)出色的表現(xiàn)。在 HumanEval、MBPP 和 NaturalCodeBench 等代碼生成任務(wù)中，CodeGeeX4-ALL-9B 也取得了出色的成績(jī)。目前，它是唯一支持 Function Call 功能的代碼模型，甚至取得了比 GPT-4 更高的分?jǐn)?shù)。

CodeGeeX4-ALL-9B上下文處理能力達(dá)到了128K

在“Code Needle In A Haystack” (NIAH) 評(píng)估中，CodeGeeX4-ALL-9B 模型展示了在 128K 范圍內(nèi)檢索代碼的能力，在python語(yǔ)言環(huán)境達(dá)到了 100% 的檢索準(zhǔn)確率，并在跨文件補(bǔ)全任務(wù)中表現(xiàn)出色。

上圖展示的是在一個(gè)全部由Python代碼組成的測(cè)試集中，插入一個(gè)賦值語(yǔ)句如：

?zhipu_codemodel = "codegeex"（Needle）?，測(cè)試模型是否可以正確回答出?zhipu_codemodel?的值，CodeGeeX4-ALL-9B 100%完成任務(wù)。

Cross-File Evaluation是一個(gè)多語(yǔ)言的基準(zhǔn)，建立在Python、Java、TypeScript和C#的多樣化真實(shí)倉(cāng)庫(kù)之上。它使用基于靜態(tài)分析的方法，嚴(yán)格要求跨文件上下文以實(shí)現(xiàn)準(zhǔn)確的代碼補(bǔ)全。

點(diǎn)擊圖片可查看完整電子表格

在主流編程語(yǔ)言的效果評(píng)測(cè)上，CodeGeeX4代模型相比上一代模型優(yōu)化效果明顯。

以上內(nèi)容是否對(duì)您有幫助：

← CodeGeeX GoodCase：通過注釋生成代碼的示例

CodeGeeX進(jìn)階指南：系統(tǒng)提示與高級(jí)功能使用 →

寫筆記

我要補(bǔ)充

CodeGeeX4-ALL-9B評(píng)測(cè)結(jié)果：性能卓越的代碼生成模型

推薦文章

推薦教程

推薦課程