
9月7日,在2023騰訊全球數(shù)字生態(tài)大會上,騰訊混元大模型正式發(fā)布。早在發(fā)布會前一天,騰訊就已經(jīng)揭示了其相關(guān)命名和圖標(biāo)。
而今日在發(fā)布會上,騰訊混元大模型正式開啟公測,目前需要排隊預(yù)約體驗。

圖為9月7日騰訊安全公眾號

圖源:騰訊云
騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生表示,騰訊將邁入“全面擁抱大模型”時代,他指出,大模型需要基于產(chǎn)業(yè)場景,與企業(yè)數(shù)據(jù)融合,才能釋放出最大的價值,“騰訊將立足于未來,立足于實效,讓數(shù)字化工具在產(chǎn)業(yè)中用起來、用得好。
全鏈路自主研發(fā),混元大模型超越ChatGPT

圖源:網(wǎng)絡(luò)
從2021年開始,騰訊先后推出千億和萬億參數(shù)的NLP稀疏大模型,打破CLUE三大榜單紀(jì)錄,實現(xiàn)在中文理解能力上的新突破。近期,騰訊的混元AI萬億大模型登頂權(quán)威中文測評基準(zhǔn)CLUE榜首并超越人類水平。
目前,騰訊混元大模型參數(shù)規(guī)模超千億,預(yù)訓(xùn)練語料超2萬億tokens,擁有強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語境下的邏輯推理能力以及可靠的任務(wù)執(zhí)行能力。
有數(shù)據(jù)顯示,混元大模型采用騰訊太極機(jī)器學(xué)習(xí)平臺自研的機(jī)器學(xué)習(xí)框架,太極AngelPTM訓(xùn)練框架的訓(xùn)練速度相比業(yè)界主流框架提升1倍,AngelHCF推理框架的推理速度比業(yè)界主流框架提升1.3倍。

圖源:騰訊
此外,混元大模型依托于騰訊領(lǐng)先的基礎(chǔ)設(shè)施,騰訊云星星海自研服務(wù)器、騰訊云高性能算力集群性能提升3倍,自研星脈高速網(wǎng)絡(luò)3.2T通信帶寬,實現(xiàn)10倍通信性能提升。
基于此,混元大模型在算法層面進(jìn)行了一系列自研創(chuàng)新,提高了模型可靠性和成熟度。

圖源:騰訊
針對大模型出現(xiàn)的“幻覺”問題,騰訊優(yōu)化了預(yù)訓(xùn)練算法及策略,讓混元大模型的幻覺相比主流開源大模型降低了30%至50%;
通過強(qiáng)化學(xué)習(xí)的方法,讓混元大模型學(xué)會識別陷阱問題,對不安全問題說“不”,面對安全誘導(dǎo)類問題的拒答率提升20%;
通過位置編碼優(yōu)化,提高了超長文的處理效果和性能,結(jié)合指令跟隨優(yōu)化,讓產(chǎn)出內(nèi)容更符合字?jǐn)?shù)要求,提升超長文本的生成和續(xù)寫能力;

圖源:騰訊
騰訊提出思維鏈的新策略,有效強(qiáng)化模型對問題的拆解和分步思考的傾向,讓應(yīng)用助手能夠像人一樣結(jié)合實際的應(yīng)用場景進(jìn)行思維推理。
在現(xiàn)場演示中,騰訊并沒有對混元大模型進(jìn)行現(xiàn)場的“刁難”測試,而是通過5個簡單的問題,揭開了混元大模型的“神秘身份”。
1.你是誰?
2.混元的核心技術(shù)架構(gòu)是什么?
3.混元的模型參數(shù)量有多大?
4.混元的訓(xùn)練數(shù)據(jù)截止到什么時候?
5.作為混元大模型,你有什么特長和優(yōu)點?

圖源:騰訊

圖源:騰訊
從現(xiàn)場演示透露出的一些信息可以看到,混元大模型的核心架構(gòu)基于Transformer,進(jìn)行多輪迭代,并具有一定調(diào)用外部插件工具的能力;參數(shù)量達(dá)到千億級別,當(dāng)前版本的混元大模型知識截止到2023年7月,在現(xiàn)場中,騰訊集團(tuán)副總裁蔣杰還提到混元大模型的知識庫還將不斷更新,將進(jìn)行每月迭代。
而在第5個問題中,演示工作人員打錯“特點”做“特長”,混元大模型也能夠進(jìn)行糾正理解。
蔣杰還在現(xiàn)場出題,考驗混元大模型在實際場景中是否具備邏輯推理能力:“買一堆咖啡,上午喝了一半,下午又喝了剩下的一半,這時還剩30杯,一共買了多少杯”

圖源:騰訊
混元大模型也能夠?qū)崿F(xiàn)快速響應(yīng),利用數(shù)學(xué)方程進(jìn)行推理并回答正確。

圖源:騰訊
在信通院測評中,混元大模型在模型開發(fā)中共測試29個能力項,模型能力中共測試37個能力項,綜合評級4+級,獲當(dāng)前最高分。并在中文理科高考題子項、數(shù)學(xué)題子項均超越GPT4。

圖源:騰訊
目前,混元大模型已實現(xiàn)與騰訊會議、騰訊文檔、騰訊廣告、騰訊游戲、騰訊金融科技、微信搜一搜、QQ瀏覽器等超過50個騰訊業(yè)務(wù)和產(chǎn)品結(jié)合,并取得初步效果。
其中混元大模型在廣告場景中的應(yīng)用,實現(xiàn)適應(yīng)行業(yè)與地域特色、滿足千人千面要求以及文字、圖片、視頻的自然融合,蔣杰更是表示混元大模型超越Midjourney、超過開源的SD模型。不需爭搶,混元+業(yè)務(wù)打造騰訊技術(shù)底座

圖為騰訊集團(tuán)副總裁蔣杰
此前,馬化騰曾表示騰訊不急于推出大模型半成品。此次,騰訊集團(tuán)副總裁蔣杰將當(dāng)下推出的混元大模型,定義成一個“可用”“可實踐”的版本。
蔣杰表示,大模型的發(fā)展不能也不會只靠燒錢推動,一定需要落地到具體的場景產(chǎn)生價值,落的場景越多,使用的用戶越多,產(chǎn)生的商業(yè)價值、數(shù)據(jù)越多,通用大模型的訓(xùn)練成本就會被攤的越薄、推理成本也就降的越低,而模型能力卻會更強(qiáng)

圖源:騰訊
在發(fā)布會上,騰訊宣布混元大模型今日起對外開放,用戶可通過騰訊云進(jìn)行體驗,支持直接調(diào)用 API 接口,或者將混元作為基底模型,在公有云上進(jìn)行精調(diào)。
目前的混元大模型版本支持多輪對話、內(nèi)容創(chuàng)作、邏輯推理、知識增強(qiáng)等功能,多模態(tài)文生圖也將在后續(xù)上線。

圖源:混元大模型
收費方面,騰訊混元大模型將為每個在白名單中的已實名騰訊云企業(yè)賬號提供累計10萬 token的免費調(diào)用額度,開通服務(wù)后即可使用。在免費額度用完后,按如下價格進(jìn)行計費:騰訊混元大模型高級版每1000 token收費0.14元。(注:1token約等于1個中文漢字或3個英文字母)
蔣杰在接受媒體采訪時表示,其實今天騰訊大模型的應(yīng)用就是跟騰訊業(yè)務(wù)的深度結(jié)合,今天是和騰訊會議的結(jié)合,與騰訊文檔的結(jié)合,那未來可以是跟微信的結(jié)合,QQ、騰訊視頻、騰訊音樂等的結(jié)合。
清華大學(xué)人工智能研究院視覺智能研究中心主任鄧志東表示,大模型的價值在于應(yīng)用。只有在多樣化的實際應(yīng)用場景中賦能智能經(jīng)濟(jì)與智能社會的發(fā)展,才能找到產(chǎn)業(yè)價值,同時也才能成就大模型自身。

大模型之家認(rèn)為,騰訊此次推出混元大模型,是作為國內(nèi)領(lǐng)先的技術(shù)企業(yè)發(fā)展的必然,將混元大模型結(jié)合騰訊自身業(yè)務(wù)場景,能夠?qū)崿F(xiàn)數(shù)據(jù)訓(xùn)練庫的不斷擴(kuò)充和數(shù)智化業(yè)務(wù)的提升,助力推動中國人工智能行業(yè)新發(fā)展,同時,混元大模型的推出也是騰訊在推進(jìn)數(shù)字化轉(zhuǎn)型、加快技術(shù)創(chuàng)新方面的重要舉措,混元大模型具體表現(xiàn)如何,讓我們一起拭目以待!