中國(guó)新聞網(wǎng)-上海新聞
上海分社正文
報(bào)告:中文大模型2024半年報(bào)出爐,通義千問(wèn)通用能力國(guó)內(nèi)第一
2024年07月10日 16:19   來(lái)源:中新網(wǎng)上海  

  中新網(wǎng)上海新聞7月10日電(李佳佳)中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE 近日發(fā)布2024上半年報(bào)告,披露針對(duì)國(guó)內(nèi)外33個(gè)大模型的綜合測(cè)評(píng)結(jié)果。阿里通義千問(wèn)的開源模型Qwen2-72B成為排名第一的中國(guó)大模型,也是全球最強(qiáng)的開源模型,SuperCLUE報(bào)告認(rèn)為通義千問(wèn)“超過(guò)眾多國(guó)內(nèi)外閉源模型”“引領(lǐng)全球的開源生態(tài)”。

  CLUE(The Chinese Language Understanding Evaluation)是發(fā)起于2019年的中文語(yǔ)言理解測(cè)評(píng)基準(zhǔn),致力于開展科學(xué)、客觀、中立的語(yǔ)言模型評(píng)測(cè),SuperCLUE聚焦于通用大模型的綜合性測(cè)評(píng)。

  本次半年度測(cè)評(píng)針對(duì)國(guó)內(nèi)外33個(gè)大模型的6月份版本進(jìn)行,由理科、文科和Hard三大維度構(gòu)成。理科任務(wù)包括計(jì)算、邏輯推理、代碼測(cè)評(píng);文科任務(wù)分為知識(shí)百科、語(yǔ)言理解、長(zhǎng)文本、角色扮演、生成與創(chuàng)作、安全和工具使用七大測(cè)評(píng);Hard任務(wù)主要是精確指令遵循測(cè)評(píng),未來(lái)還將推出復(fù)雜多步推理和高難度問(wèn)題解決等測(cè)評(píng)。

  從代表通用能力的一級(jí)總分來(lái)看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet與通義千問(wèn)開源模型Qwen2-72B-Instruct并列第二,得分均為77。通義千問(wèn)既是排名最高的中國(guó)大模型,也是排名最高的開源大模型,性能超越文心一言4.0、訊飛星火V4.0、Llama-3-70B等開閉源大模型。

  具體到理科、文科、Hard三個(gè)維度來(lái)看,國(guó)內(nèi)外大模型的理科能力存在一定差距,GPT-4o以絕對(duì)優(yōu)勢(shì)領(lǐng)跑,Qwen2-72B的理科測(cè)試比GPT-4o少5分;文科任務(wù)上,大模型之間的區(qū)分度不明顯,GPT-4o與Qwen2-72B等模型的得分均為76;精確指令遵循能力方面,僅有GPT-4o和Claude 3.5 Sonnet得分超過(guò)80,國(guó)內(nèi)表現(xiàn)最好的Qwen2-72B比GPT-4o低6分。

  報(bào)告同時(shí)公布了端側(cè)小模型測(cè)評(píng)榜單,通義千問(wèn)70億參數(shù)開源模型Qwen2-7B排名第一,打敗了上一代版本的Qwen1.5-32B(320億參數(shù))和Llama-3-8B-Instruct(130億參數(shù)),展現(xiàn)了更小尺寸的模型的極致性能。報(bào)告認(rèn)為,2024年上半年端側(cè)小模型進(jìn)展迅速、表現(xiàn)驚艷,極大提升了落地的可行性。

  據(jù)悉,Qwen2是阿里在今年6月推出的通義千問(wèn)第二代開源模型,已先后登頂國(guó)內(nèi)外多個(gè)權(quán)威榜單,引領(lǐng)中國(guó)開源模型強(qiáng)勢(shì)崛起。Qwen系列開源模型下載量已經(jīng)突破2000萬(wàn)次。SuperCLUE報(bào)告點(diǎn)評(píng):“綜合來(lái)看,Qwen2-72B 整體能力不俗,引領(lǐng)全球的開源生態(tài),是一個(gè)非常有競(jìng)爭(zhēng)力的通用開源大模型,可應(yīng)用于推理、數(shù)理分析、信息處理或相對(duì)專業(yè)復(fù)雜場(chǎng)景,重點(diǎn)推薦應(yīng)用于工業(yè)、金融、醫(yī)療、汽車等垂直專業(yè)場(chǎng)景!

注:請(qǐng)?jiān)谵D(zhuǎn)載文章內(nèi)容時(shí)務(wù)必注明出處!   

編輯:李佳佳  

本網(wǎng)站所刊載信息,不代表中新社和中新網(wǎng)觀點(diǎn)。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
常年法律顧問(wèn):上海金茂律師事務(wù)所