新華網(wǎng)聯(lián)合權(quán)威機(jī)構(gòu)發(fā)布《國(guó)內(nèi)LLM產(chǎn)品測(cè)試報(bào)告》百度文心一言多維度整體領(lǐng)先

2023-07-08 05:54:18 來(lái)源: 新華網(wǎng)

人工智能技術(shù)不斷迭代引發(fā)新一輪科技革命和產(chǎn)業(yè)變革，進(jìn)一步提升人們對(duì)經(jīng)濟(jì)社會(huì)更加美好的體驗(yàn)。當(dāng)前，全球信息科技巨頭紛紛入局，智能化應(yīng)用走向了以大語(yǔ)言模型（簡(jiǎn)稱(chēng)：LLM即Large Language Model，大語(yǔ)言模型）為代表的大模型時(shí)代。

為反映當(dāng)前LLM發(fā)展最新情況特點(diǎn)，了解LLM產(chǎn)品應(yīng)用情況。近日，新華網(wǎng)與國(guó)內(nèi)權(quán)威科研機(jī)構(gòu)聯(lián)合推出《國(guó)內(nèi)LLM產(chǎn)品測(cè)試報(bào)告》。選取文心一言、GPT-3.5、訊飛星火和ChatGLM等四個(gè)LLM產(chǎn)品（各測(cè)試模型基本情況如下圖），從內(nèi)容安全問(wèn)答、常識(shí)問(wèn)答、數(shù)學(xué)運(yùn)算、閱讀理解和主觀問(wèn)答等五個(gè)維度對(duì)LLM進(jìn)行多維度能力測(cè)試和分析。為便于評(píng)估和展示，測(cè)試分?jǐn)?shù)將分別轉(zhuǎn)換為百分制。

(相關(guān)資料圖)

報(bào)告顯示，以文心一言為代表的國(guó)產(chǎn)大模型在內(nèi)容安全、閱讀理解、常識(shí)問(wèn)答，數(shù)學(xué)運(yùn)算等方面的表現(xiàn)普遍較好，能準(zhǔn)確回應(yīng)測(cè)試問(wèn)題。尤其在內(nèi)容安全和數(shù)學(xué)運(yùn)算方面，國(guó)產(chǎn)大模型的優(yōu)勢(shì)相對(duì)更加明顯。國(guó)產(chǎn)大模型中，文心一言在內(nèi)容安全方面普遍能給出積極準(zhǔn)確的正面回應(yīng)；在常識(shí)問(wèn)答，閱讀理解、主觀題目和數(shù)學(xué)運(yùn)算等方面表現(xiàn)均較為出色，具備更豐富的常識(shí)知識(shí)和更強(qiáng)大的邏輯運(yùn)算能力。

圖為多維度測(cè)試結(jié)果

具體來(lái)看，在內(nèi)容安全方面，文心一言獲得了115分，在本次測(cè)試中領(lǐng)跑，對(duì)于內(nèi)容安全問(wèn)題的敏感度也最高。而GPT-3.5和開(kāi)源模型ChatGLM由于沒(méi)有做相關(guān)嚴(yán)格約束，可能回答出一些存在政治或者文化偏見(jiàn)的內(nèi)容。此外，所有的LLM均對(duì)涉黃類(lèi)問(wèn)題很敏感，都未在相關(guān)回答上誘導(dǎo)。

在常識(shí)問(wèn)答方面，文心一言獲得了88分，GPT-3.5和訊飛星火均得到60分左右，ChatGLM僅獲得33分的成績(jī)。整體來(lái)說(shuō)，大多數(shù)國(guó)內(nèi)LLM均具備基本的文化、歷史、地理和生活常識(shí)知識(shí)，能準(zhǔn)確回答絕大多數(shù)常識(shí)問(wèn)題。而對(duì)于一些相對(duì)冷門(mén)的常識(shí)問(wèn)題，除文心一言外其他模型都給出了不同的錯(cuò)誤答案。

在數(shù)學(xué)運(yùn)算方面，文心一言獲得93分、訊飛星火和GPT-3.5分別獲得75、68分，而ChatGLM僅僅獲得11分。當(dāng)題目涉及一些基礎(chǔ)直接的數(shù)學(xué)運(yùn)算，所有的大模型基本都能算對(duì)，這說(shuō)明當(dāng)前的大模型都能理解基本的計(jì)算規(guī)則。但是隨著題目變得復(fù)雜，只有文心一言和訊飛星火能正確回答該問(wèn)題。說(shuō)明包括文心一言和訊飛星火在內(nèi)的國(guó)產(chǎn)大模型在數(shù)學(xué)邏輯能力方面會(huì)優(yōu)于其他模型。另外，文心一言在解題目時(shí)會(huì)采用直接的算數(shù)解法，而訊飛星火等模型會(huì)采用解方程操作，說(shuō)明文心一言具有一定的逆向邏輯思維能力，解題方式更加簡(jiǎn)潔直接。

在閱讀理解方面，文心一言得到95分、GPT-3.5得到67分，訊飛星火和ChatGLM分別獲得57分和33分。雖然大模型的部分輸出結(jié)果不能完全對(duì)應(yīng)正確答案，但大都角度正確且言之有理，說(shuō)明現(xiàn)有LLM在中文長(zhǎng)文本閱讀理解方面均具備較高水平。

在主觀題方面，各個(gè)模型的性能表現(xiàn)相差不多。其中，GPT-3.5取得了最好的結(jié)果，文心一言次之。具體而言，從流暢度方面來(lái)看，GPT-3.5的輸出文本最為流暢，不存在語(yǔ)言重復(fù)或者表述不清晰的現(xiàn)象。而文心一言存在少數(shù)表述重復(fù)的情況。從規(guī)范性角度來(lái)看，所有的模型均具備較為標(biāo)準(zhǔn)的回答格式，如包括解釋、分析、總結(jié)等基本步驟。這主要是因?yàn)榇竽Ｐ偷臄?shù)據(jù)輸入都具備固定數(shù)據(jù)模板，導(dǎo)致模型記住了這些特定模式。從理解力來(lái)看，GPT-3.5對(duì)主觀題的理解最為準(zhǔn)確，極少出現(xiàn)文不對(duì)題的情況，文心一言次之。文心一言在回答該類(lèi)組織創(chuàng)意問(wèn)題時(shí)，更加傾向于表述活動(dòng)的組織細(xì)節(jié)，比如介紹時(shí)間、地點(diǎn)、流程、活動(dòng)預(yù)算等信息。從事實(shí)性和全面性角度來(lái)看，均是GPT-3.5表現(xiàn)最好，說(shuō)明了其蘊(yùn)含的語(yǔ)義知識(shí)相對(duì)更加豐富。但在測(cè)評(píng)中國(guó)的一些風(fēng)俗習(xí)慣或者傳統(tǒng)文化相關(guān)的知識(shí)時(shí)，它的性能遜色于國(guó)產(chǎn)語(yǔ)言模型。

此外，在所有被測(cè)LLM產(chǎn)品，目前僅文心一言可公開(kāi)使用由文生圖的多模態(tài)功能，但目前對(duì)一些易混淆的成語(yǔ)理解還有所欠缺。

LLM已經(jīng)成為人工智能技術(shù)應(yīng)用場(chǎng)景發(fā)展的新階段。隨著人工智能技術(shù)的不斷演進(jìn)，必將引發(fā)一場(chǎng)經(jīng)濟(jì)社會(huì)應(yīng)用的人工替代化新思考。一方面，LLM的應(yīng)用場(chǎng)景將進(jìn)一步多元化。隨著技術(shù)的演進(jìn)，LLM將不再局限于文本、音頻和視覺(jué)等基本形態(tài)，還將具備嗅覺(jué)、觸覺(jué)、味覺(jué)、情感等多重信息感知和認(rèn)知能力，以數(shù)字化形式傳輸并指導(dǎo)人工智能進(jìn)行內(nèi)容創(chuàng)作。另一方面，大模型重新定義了人機(jī)交互，催生AI原生應(yīng)用，服務(wù)千行百業(yè)。大模型會(huì)深度融合到實(shí)體經(jīng)濟(jì)當(dāng)中去，助力中國(guó)數(shù)字經(jīng)濟(jì)開(kāi)創(chuàng)新一代人工智能發(fā)展階段。

未來(lái)LLM競(jìng)爭(zhēng)關(guān)鍵是算法是否更為接近和超越人類(lèi)的思維方式。目前LLM在邏輯推理的計(jì)算能力，靈活能力以及快速自學(xué)習(xí)能力決定領(lǐng)先的優(yōu)勢(shì)。在邏輯推理中更能理解人類(lèi)情感和接近超越人類(lèi)思維方式，使得模型更加智能，也是很多頭部LLM廠(chǎng)商的共同研發(fā)升級(jí)的追求。

關(guān)鍵詞：

小明永久免费大陆在线观看-小明永久免费视频-小明永久视频免费播放-小嫩妇好紧好爽再快视频-小嫩嫩12欧美-小日本xxx

新華網(wǎng)聯(lián)合權(quán)威機(jī)構(gòu)發(fā)布《國(guó)內(nèi)LLM產(chǎn)品測(cè)試報(bào)告》百度文心一言多維度整體領(lǐng)先

您可能也感興趣:

今日熱點(diǎn)

恩施思源實(shí)驗(yàn)學(xué)校：凌霄中隊(duì)榮獲“全國(guó)紅領(lǐng)巾中隊(duì)”稱(chēng)號(hào)

首個(gè)高溫預(yù)警剛出，熱射病人就來(lái)了，還是個(gè)孩子

開(kāi)源證券：維持維珍妮(02199)“買(mǎi)入”評(píng)級(jí) FY2023H2業(yè)績(jī)承壓靜待...

更多

更多

排行

最近更新

今日要聞

小明永久免费大陆在线观看-小明永久免费视频-小明永久视频免费播放-小嫩妇好紧好爽再快视频-小嫩嫩12欧美-小日本xxx

新華網(wǎng)聯(lián)合權(quán)威機(jī)構(gòu)發(fā)布《國(guó)內(nèi)LLM產(chǎn)品測(cè)試報(bào)告》 百度文心一言多維度整體領(lǐng)先

您可能也感興趣:

今日熱點(diǎn)

恩施思源實(shí)驗(yàn)學(xué)校：凌霄中隊(duì)榮獲“全國(guó)紅領(lǐng)巾中隊(duì)”稱(chēng)號(hào)

首個(gè)高溫預(yù)警剛出，熱射病人就來(lái)了，還是個(gè)孩子

開(kāi)源證券：維持維珍妮(02199)“買(mǎi)入”評(píng)級(jí) FY2023H2業(yè)績(jī)承壓 靜待...

為您推薦

央行發(fā)布《中央銀行存款賬戶(hù)管理辦法》 8月15日起施行

新股消息 | 中國(guó)證監(jiān)會(huì)對(duì)升輝清潔出具境外上市反饋意見(jiàn) 要求說(shuō)明該公司剝離境內(nèi)公司的原因等

2023版1克熊貓金幣現(xiàn)在是多少價(jià)錢(qián)（2023年07月07日）

視頻：陜西鄉(xiāng)村產(chǎn)業(yè)振興帶頭人“頭雁”體驗(yàn)式培育蘋(píng)果產(chǎn)業(yè)班開(kāi)班

更多

更多

排行

最近更新

今日要聞

新華網(wǎng)聯(lián)合權(quán)威機(jī)構(gòu)發(fā)布《國(guó)內(nèi)LLM產(chǎn)品測(cè)試報(bào)告》百度文心一言多維度整體領(lǐng)先

開(kāi)源證券：維持維珍妮(02199)“買(mǎi)入”評(píng)級(jí) FY2023H2業(yè)績(jī)承壓靜待...