近日,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(簡(jiǎn)稱AIIA)第十四次全體會(huì)議暨人工智能賦能新型工業(yè)化深度行(南京站)活動(dòng)在南京成功召開。會(huì)上,“方升-Coder”代碼大模型首次基準(zhǔn)測(cè)試結(jié)果重磅發(fā)布。

當(dāng)前,以大模型為代表的人工智能技術(shù)飛速發(fā)展,代碼是大模型重要能力之一,代碼大模型已成為軟件開發(fā)工程師的必備工具,如何準(zhǔn)確評(píng)估大模型的代碼能力,充分挖掘其優(yōu)勢(shì)與不足是業(yè)界持續(xù)關(guān)心的問題。AIIA于2025年正式啟動(dòng)了“方升-Coder”基準(zhǔn)測(cè)試,以代碼大模型標(biāo)準(zhǔn)為依據(jù),通過精心設(shè)計(jì)科學(xué)合理的測(cè)試任務(wù)和測(cè)試數(shù)據(jù),實(shí)現(xiàn)對(duì)大模型的代碼能力客觀、公正且全面的評(píng)估。
此次“方升-Coder”代碼大模型基準(zhǔn)測(cè)試共涉及主流大語言模型21個(gè),其中國(guó)內(nèi)大模型15個(gè)、國(guó)外大模型6個(gè),測(cè)試過程圍繞代碼生成、代碼解釋、代碼注釋三個(gè)維度對(duì)國(guó)內(nèi)外大模型能力進(jìn)行詳細(xì)測(cè)試。測(cè)試結(jié)果表明,推理模型相較基礎(chǔ)模型的代碼綜合能力更優(yōu);相關(guān)大模型代碼理解任務(wù)表現(xiàn)趨同,代碼生成任務(wù)差異顯著;大模型在代碼注釋、代碼解釋、代碼生成任務(wù)中的能力依次遞減。
下一步,南京將搶抓機(jī)遇,加入“方升”合作伙伴計(jì)劃,吸引更多大模型頭部企業(yè)來寧布局發(fā)展,支持制造、能源等領(lǐng)域企業(yè)與大模型頭部企業(yè)深度合作。同時(shí),推動(dòng)南京人工智能企業(yè)依托現(xiàn)有大模型服務(wù)能力,積極支撐參與基準(zhǔn)測(cè)試建設(shè),為國(guó)家AI標(biāo)準(zhǔn)體系貢獻(xiàn)更多南京力量。