欧美优质美女网站_国产大片精品免费永久看nba_亚洲自拍与偷拍_精品久久久久久久久久久院品网_中文字幕日韩一区二区_欧美中文字幕在线_美女一区二区久久_夜夜嗨av一区二区三区免费区 _欧美一区二区在线不卡_日韩三级电影网址

商湯與上海AI實驗室等發(fā)布“書生·浦語”大模型,高考成績超越GPT

速途網(wǎng)6月7日訊 近日,商湯科技、上海AI實驗室聯(lián)合香港中文大學、復旦大學及上海交通大學發(fā)布千億級參數(shù)大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有1040億參數(shù),是在包含1.6萬億token的多語種高質(zhì)量數(shù)據(jù)集上訓練而成。

全面評測結(jié)果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數(shù)學推理、多語翻譯等多個測試任務上表現(xiàn)優(yōu)秀,而且具備很強的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個科目的數(shù)據(jù)集(GaoKao)。

“書生·浦語”聯(lián)合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集

  • 由伯克利加州大學等高校構(gòu)建的多任務考試評測集MMLU;
  • 微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);
  • 由上海交通大學、清華大學和愛丁堡大學合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval;
  • 以及由復旦大學研究團隊構(gòu)建的高考題目評測集Gaokao;

實驗室聯(lián)合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。

“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學術(shù)開源模型,還在AGIEval、C-Eval,以及Gaokao等多個綜合性考試中領(lǐng)先于ChatGPT;在以美國考試為主的MMLU上實現(xiàn)和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優(yōu)秀的綜合能力。

雖然 “書生·浦語”在考試評測上取得優(yōu)秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測數(shù)據(jù)集結(jié)果

MMLU是由伯克利加州大學(UC Berkeley)聯(lián)合哥倫比亞大學、芝加哥大學和UIUC共同構(gòu)建的多任務考試評測集,涵蓋了初等數(shù)學、物理、化學、計算機科學、美國歷史、法律、經(jīng)濟、外交等多個學科。

細分科目結(jié)果如下表所示。

(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)

AGIEval是由微軟研究院在今年新提出的學科考試評測集,主要目標是通過面向的考試來評估語言模型的能力,從而實現(xiàn)模型智能和人類智能的對比。

這個評測集基于中國和美國各類考試構(gòu)建了19個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個大項有9個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中,帶GK的是中國高考科目。

(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)

C-Eval是由上海交通大學、清華大學和愛丁堡大學合作構(gòu)建的面向中文語言模型的綜合性考試評測集。

它包含了52個科目的近14000道考題,涵蓋數(shù)學、物理、化學、生物、歷史、政治、計算機等學科考試,以及面向公務員、注冊會計師、律師、醫(yī)生的職業(yè)考試。

測試結(jié)果可以通過leaderboard獲得。

(https://cevalbenchmark.com/static/leaderboard.html)

Gaokao是由復旦大學研究團隊構(gòu)建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。

在GaoKao測評中,“書生·浦語”在超過75%的項目中均領(lǐng)先ChatGPT。

分項評測:閱讀理解、推理能力表現(xiàn)出色

為避免“偏科”,研究人員還通過多個學術(shù)評測集,對“書生·浦語”等語言模型的分項能力進行了評測對比。

結(jié)果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學推理、編程能力等評測中也取得較好成績。

知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。

閱讀理解(英語)方面,“書生·浦語”明顯領(lǐng)先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。

中文理解方面,“書生·浦語”成績?nèi)娉街饕膬蓚€中文語言模型ERNIE-260B和GLM-130B。

多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。

數(shù)學推理方面,“書生·浦語”在GSM8K和MATH這兩項被廣泛用于評測的數(shù)學考試中,分別取得62.9和14.9的得分,明顯領(lǐng)先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。

編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項最具代表性的考評中,分別取得28.1和41.4的得分(其中經(jīng)過在代碼領(lǐng)域的微調(diào)后,在HumanEval上的得分可以提升至45.7),明顯領(lǐng)先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。

此外,研究人員還對“書生·浦語”的安全性進行評測,在TruthfulQA(主要評價回答的事實準確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達到領(lǐng)先水平。

(0)
上一篇 2023年6月7日 18:16
下一篇 2023年6月7日 20:18
欧美优质美女网站_国产大片精品免费永久看nba_亚洲自拍与偷拍_精品久久久久久久久久久院品网_中文字幕日韩一区二区_欧美中文字幕在线_美女一区二区久久_夜夜嗨av一区二区三区免费区 _欧美一区二区在线不卡_日韩三级电影网址
欧美一级片在线观看| 亚洲www啪成人一区二区麻豆| 91精品国产高清一区二区三区| 92精品国产成人观看免费| 懂色一区二区三区免费观看| 国产成人综合在线观看| 成人免费视频视频| 99精品久久只有精品| 欧美性大战久久久久久久蜜臀| 欧美在线你懂的| 日韩欧美亚洲一区二区| 国产亚洲综合在线| 一区二区日韩电影| 美女mm1313爽爽久久久蜜臀| 国产99久久久国产精品免费看| 99精品国产热久久91蜜凸| 欧美日韩国产一二三| 亚洲精品一线二线三线无人区| 国产喂奶挤奶一区二区三区| 一区二区日韩av| 国产精品一区免费在线观看| 色天天综合色天天久久| 日韩亚洲欧美高清| 亚洲精品久久7777| 精品一区二区久久久| www.66久久| 精品日本一线二线三线不卡| 亚洲免费在线视频| 韩国精品久久久| 欧美中文字幕一区二区三区亚洲| 日韩美女天天操| 一区二区三区四区蜜桃| 国产麻豆成人精品| 91精品国产综合久久福利软件| 成人欧美一区二区三区在线播放| 蜜桃av一区二区三区电影| 在线一区二区观看| 国产精品久久久久久久久图文区 | 国产精品嫩草影院av蜜臀| 亚洲一级二级在线| 不卡的av在线| 精品国产三级电影在线观看| 亚洲丰满少妇videoshd| 91一区二区三区在线观看| 国产清纯白嫩初高生在线观看91 | 国产一区二区三区电影在线观看| 麻豆免费看一区二区三区| 久久欧美中文字幕| 欧美日韩一区二区在线观看| 欧美日韩亚州综合| 18涩涩午夜精品.www| 国产乱子伦视频一区二区三区| 欧美精品电影在线播放| 亚洲 欧美综合在线网络| 91久久精品一区二区三| 亚洲人成网站色在线观看| 成人黄色a**站在线观看| 欧美国产97人人爽人人喊| 国产河南妇女毛片精品久久久| 精品久久久久av影院| 久久国产尿小便嘘嘘| 欧美va亚洲va| 国产凹凸在线观看一区二区| 日本一区二区三区dvd视频在线 | 国产精品天干天干在观线| 成人高清av在线| 亚洲国产中文字幕在线视频综合 | 成人免费高清在线观看| 日韩美女久久久| 精品视频免费在线| 粉嫩av亚洲一区二区图片| 成人av影院在线| 日韩电影在线免费| 欧美在线免费观看视频| 亚洲综合久久av| 欧美福利电影网| 国产综合久久久久久久久久久久| 亚洲精品一区二区三区福利| 成人免费视频网站在线观看| 亚洲高清在线精品| 久久青草国产手机看片福利盒子| 99免费精品视频| 日韩一区欧美二区| 欧美韩日一区二区三区| 91麻豆福利精品推荐| 免费欧美高清视频| 亚洲欧洲日韩综合一区二区| 欧美女孩性生活视频| 国产成人亚洲综合a∨婷婷 | 91猫先生在线| 美女在线一区二区| 亚洲青青青在线视频| 欧美zozo另类异族| 91国产视频在线观看| 激情图区综合网| 亚洲国产日韩a在线播放| 国产网站一区二区| 久久夜色精品一区| 欧美一区二区人人喊爽| 91久久线看在观草草青青| 国产一区二区三区不卡在线观看| 午夜视黄欧洲亚洲| 亚洲人成精品久久久久久| 国产日韩欧美制服另类| 精品国产网站在线观看| 日韩一区二区三区精品视频| 欧美日韩免费不卡视频一区二区三区| 粉嫩aⅴ一区二区三区四区五区| 激情综合色综合久久综合| 奇米888四色在线精品| 五月天亚洲婷婷| 偷拍一区二区三区| 亚洲国产精品久久久久婷婷884| 国产精品超碰97尤物18| 国产精品久久久久久久久快鸭 | 亚洲美女偷拍久久| 亚洲乱码中文字幕| 一区二区视频在线| 一区二区成人在线| 亚洲精品免费一二三区| 一级日本不卡的影视| 亚洲国产精品久久久男人的天堂| 亚洲国产日韩在线一区模特| 亚洲bdsm女犯bdsm网站| 日韩国产成人精品| 美美哒免费高清在线观看视频一区二区 | 久久综合色8888| 国产免费久久精品| 亚洲欧美日韩国产综合| 亚洲激情在线播放| 日韩电影免费一区| 黄一区二区三区| 99久久精品免费看国产免费软件| 91在线视频免费观看| 在线免费不卡视频| 欧美r级在线观看| 中文字幕一区二区三区四区| 亚洲香蕉伊在人在线观| 激情欧美一区二区| 91蜜桃免费观看视频| 欧美欧美欧美欧美首页| 久久精品欧美日韩精品 | 欧美午夜不卡在线观看免费| 欧美一级理论性理论a| 欧美国产成人精品| 日本不卡视频在线观看| 成人av电影在线观看| 宅男噜噜噜66一区二区66| 国产精品久久久久久户外露出| 视频精品一区二区| 91尤物视频在线观看| 日韩女同互慰一区二区| 伊人婷婷欧美激情| 国产乱人伦偷精品视频不卡| 欧美性一区二区| 中文欧美字幕免费| 激情综合网最新| 欧美三级视频在线观看| 18欧美乱大交hd1984| 国产综合久久久久久鬼色| 91精品国产一区二区三区| 亚洲一区二区高清| 91猫先生在线| 亚洲理论在线观看| 成人动漫一区二区| 久久九九99视频| 久久99精品久久久久婷婷| 欧美精品色综合| 丝袜美腿一区二区三区| 欧美午夜精品一区| 亚洲制服丝袜在线| 欧美羞羞免费网站| 亚洲在线观看免费视频| 91麻豆国产精品久久| 亚洲精品免费在线播放| 日本久久电影网| 一级日本不卡的影视| 欧美制服丝袜第一页| 香蕉乱码成人久久天堂爱免费| 91在线porny国产在线看| 亚洲黄色av一区| 欧美日韩国产精选| 免费在线欧美视频| 精品国产91洋老外米糕| 国产一区二区视频在线播放| 久久在线观看免费| 国产很黄免费观看久久| 中文字幕一区二区在线播放| 色天天综合久久久久综合片| 亚洲成人动漫在线免费观看| 欧美精品久久久久久久多人混战| 亚洲大尺度视频在线观看| 欧美精品丝袜久久久中文字幕| 毛片av一区二区| 国产精品丝袜在线| 欧美视频在线不卡| 激情小说欧美图片| 亚洲美女区一区| 欧美电影免费观看高清完整版 | 成人免费在线视频观看|