午夜av免费在线观看,久久久国产精华液,国产片高清在线观看

速途網(wǎng)10月22日消息（報道：李楠）今日，百川智能發(fā)布循證增強(qiáng)醫(yī)療大模型Baichuan-M2 Plus，同步升級配套應(yīng)用百小應(yīng)并開放API。這是百川自8月開源Baichuan-M2以來的又一次重要動作。評測顯示，M2 Plus的醫(yī)療幻覺率較通用大模型顯著降低，相比DeepSeek低約3倍，優(yōu)于美國最火醫(yī)療產(chǎn)品OpenEvidence，可信度比肩資深臨床醫(yī)生水準(zhǔn)。

通用大模型固有的幻覺問題導(dǎo)致其在嚴(yán)肅醫(yī)療場景中難以真實應(yīng)用。國內(nèi)眾多醫(yī)院雖積極嘗試部署和優(yōu)化DeepSeek，但實際效果不盡人意。反觀大洋彼岸的現(xiàn)象級醫(yī)療大模型產(chǎn)品OpenEvidence，能給我們重要的啟示。該產(chǎn)品因符合醫(yī)學(xué)認(rèn)知的循證增強(qiáng)，已有40%美國醫(yī)生在臨床場景中注冊使用，每月咨詢量達(dá)1650萬次。兩天前，該公司C輪融資2億美金，估值達(dá)60億美元。

百川M2 Plus首創(chuàng)六源循證推理（EAR）范式，打造“醫(yī)生版ChatGPT”，讓大模型技術(shù)在輔助臨床診療場景邁過“敢用、可用”關(guān)鍵門檻，不僅適合中國醫(yī)療環(huán)境，在美、日、英的醫(yī)療評測中均超過OpenEvidence，代表中國在世界大模型擂臺上再下一城。

首創(chuàng)六源循證推理范式，把循證做“全”、檢索做“準(zhǔn)”、推理做“對”

（一）六源循證：打造從原始研究到真實世界的完整知識體系

循證醫(yī)學(xué)（Evidence-Based Medicine, EBM）作為現(xiàn)代醫(yī)學(xué)知識體系的核心范式，是確保醫(yī)療決策可信的關(guān)鍵。

通用大模型像一個“博學(xué)但不可靠”的專家，即便有搜索增強(qiáng)，也會因為知識來源混雜不符合循證醫(yī)學(xué)范式。

百川不僅主動屏蔽了互聯(lián)網(wǎng)的非專業(yè)信息來源，只使用權(quán)威來源的醫(yī)學(xué)證據(jù)，還在此基礎(chǔ)上構(gòu)建了從證據(jù)、到實踐、再到真實世界反饋六層證據(jù)類型的知識體系：

原始研究層： 索引海量醫(yī)學(xué)期刊論文4000余萬篇，超過PubMed收錄數(shù)量，涵蓋基礎(chǔ)與臨床研究成果，是循證鏈條的起點；
證據(jù)綜述層： 整合系統(tǒng)評價和Meta分析等高等級證據(jù)，提供經(jīng)過匯總的研究結(jié)論；
指南規(guī)范層： 引入國際和國內(nèi)權(quán)威機(jī)構(gòu)發(fā)布的臨床指南、專家共識和行業(yè)標(biāo)準(zhǔn)，確保回答符合最新規(guī)范；
實踐知識層： 包含臨床病例報道、一線專家經(jīng)驗和診療技巧等實用知識，貼近醫(yī)療實踐場景；
公共健康教育層： 匯集權(quán)威科普和公共衛(wèi)生知識，如疾病預(yù)防宣教、健康指導(dǎo)等內(nèi)容，服務(wù)大眾健康教育；
監(jiān)管與真實世界層：?涵蓋藥監(jiān)部門公告、臨床試驗登記及大規(guī)模真實世界研究數(shù)據(jù)等信息，以反映最新的監(jiān)管動態(tài)與人群研究結(jié)果；

這個金字塔形的“六源”，是一層一層演化而來：原始層回答“事實是否存在”、證據(jù)層回答“結(jié)論是否一致”、指南層回答“行業(yè)如何規(guī)范”、實踐層回答“醫(yī)生應(yīng)如何決策”、公共層回答“患者應(yīng)如何理解”、真實世界層回答“是否存在新風(fēng)險”。這讓模型從“生成答案”走向“據(jù)實回答”，實現(xiàn)了從語言可信度到知識可信度的躍升。

（二）循證檢索：從“找得到”躍升到“找得準(zhǔn)”

傳統(tǒng)的RAG檢索往往追求“找得到”，而循證檢索追求“找得準(zhǔn)”。

M2 Plus采用PICO框架（人群Population、干預(yù)Intervention、對照Comparison、結(jié)局Outcome）思維，將查詢轉(zhuǎn)化為結(jié)構(gòu)化醫(yī)學(xué)問題，并在六源數(shù)據(jù)庫中進(jìn)行分層匹配。例如：當(dāng)輸入“老年OSA患者使用CPAP能否改善高血壓？”時，系統(tǒng)優(yōu)先在高等級證據(jù)（系統(tǒng)綜述、RCT元分析）中搜索，并自動辨識研究質(zhì)量、樣本量、置信區(qū)間與結(jié)局指標(biāo)。

這種方法克服了通用RAG的兩大缺陷：一是缺乏醫(yī)學(xué)語義理解（無法區(qū)分CPAP療效與依從性分析）；二是無法辨別文獻(xiàn)可靠性（新聞與指南同權(quán)）。在此基礎(chǔ)上，M2 Plus能夠三步精準(zhǔn)鎖定“鐵證”：

第一步，智能提問：自動將用戶問題拆解成多個專業(yè)的PICO查詢，進(jìn)行“地毯式”證據(jù)搜索，兼顧精度與廣度。

第二步，精準(zhǔn)鎖定：通過自研的Medical Contextual Retrieval技術(shù)，完整保留文獻(xiàn)的臨床因果鏈，避免信息割裂。

第三步，證據(jù)排序：內(nèi)置“審稿人”模型，自動評估證據(jù)等級（如RCT、Meta分析），將最可信、最相關(guān)的“鐵證”優(yōu)先呈現(xiàn)。

（三）循證推理：讓模型“像醫(yī)生一樣思考”

如果說“六源循證”解決了醫(yī)療AI知識從哪來的問題，“PICO智能檢索”解決了如何快速找到正確證據(jù)的問題，那么最關(guān)鍵的一步是如何確保AI在手握證據(jù)時，不會“自由發(fā)揮”、脫離事實胡亂回答。

百川智能在M2 Plus中引入“循證增強(qiáng)訓(xùn)練”機(jī)制，為模型的回答過程“上了一道鎖”，從根本上改變了其生成邏輯，讓它學(xué)會“引用，而非臆測”。

首先，在訓(xùn)練中獎勵“引用”，懲罰“臆測”，準(zhǔn)確引用權(quán)威來源（如指南、文獻(xiàn)）時會獲得高分，一旦回答脫離了檢索到的證據(jù)就會受到懲罰；

其次，內(nèi)置“證據(jù)評估器”，模型被訓(xùn)練得能夠自動評估檢索到的證據(jù)質(zhì)量，優(yōu)先采納高可信度的信息（如RCT、Meta分析），并將其無縫嵌入到推理鏈中；

第三，句句有據(jù)，可回溯、可驗證：經(jīng)過訓(xùn)練，M2-Plus的回答風(fēng)格發(fā)生了根本性改變，在輸出關(guān)鍵結(jié)論時，會自動附上參考文獻(xiàn)、指南出處等來源，這賦予了AI回答更高的可解釋性與可信賴度。

幻覺最低，達(dá)到與人類資深臨床專家同等可信度

這種“循證驅(qū)動”的生成邏輯，讓M2 Plus幾乎杜絕了無中生有的內(nèi)容。在多場景評測中，其綜合幻覺率在所有大模型當(dāng)中最低，相較DeepSeek R1最新版降低3倍，顯著領(lǐng)先OpenEvidence。不僅如此，在病史分析、診斷思路、治療方案等真實復(fù)雜的核心醫(yī)療場景中，達(dá)到了與人類資深臨床專家同等的可信度。

301醫(yī)院的姜醫(yī)生提問，“目前公認(rèn)最有效的基因治療藥物靶向足細(xì)胞遞送方案有哪些？”很多通用大模型回答這個問題時都產(chǎn)生了明顯幻覺，而M2 Plus的回答不僅查到了全球最新研究成果，還能按納米系統(tǒng) / AAV病毒載體等維度分類。姜醫(yī)生贊嘆：“引用文獻(xiàn)非常具有專業(yè)性、且信息源緊貼頂刊ERA等最新進(jìn)展，對足細(xì)胞基因治療這么前沿的方向，能幫我快速了解國際熱點技術(shù)路線，少走彎路。”

北京天壇醫(yī)院的熊醫(yī)生，在研究目前PACAP在偏頭痛中的研究進(jìn)展如何時發(fā)現(xiàn)，頭痛相關(guān)的研究越來越多，想找到真正有價值的文獻(xiàn)并不容易，多數(shù)大模型給出的答案都因幻覺問題而不可用。他試用百小應(yīng)時看到，“能梳理全球PACAP偏頭痛研究，從機(jī)制到III期臨床試驗自動串聯(lián)證據(jù)鏈，不僅回答問題，更讓醫(yī)生站在未來看科研進(jìn)展。”

無論是專業(yè)醫(yī)療問題還是常規(guī)醫(yī)療問答 M2 Plus都會引用權(quán)威醫(yī)學(xué)證據(jù)

多國醫(yī)學(xué)考試斷崖領(lǐng)先，醫(yī)學(xué)知識運用能力超越人類醫(yī)生

美國執(zhí)業(yè)醫(yī)師資格考試（USMLE）是評估臨床知識和推理能力的黃金標(biāo)準(zhǔn)，即便是經(jīng)驗豐富的臨床專家，要突破90分也極具挑戰(zhàn)。在此項考試中，M2-Plus取得了驚人的97分，不僅遠(yuǎn)超人類考生平均水平，更與GPT-5的成績持平，穩(wěn)居全球第一梯隊，展示了其世界級的臨床問題解決能力。

中國執(zhí)業(yè)醫(yī)師資格考試（NMLE）及格線為360分，對于廣大醫(yī)學(xué)生而言，能考到450分以上已是高分，超過500分則被視為“學(xué)神”級別。M2 Plus取得了568分的“碾壓級”成績，在所有公開測試的主流大模型中位列第一，充分證明其對中國臨床指南和醫(yī)療實踐的掌握已爐火純青。

如果說執(zhí)醫(yī)考是“從業(yè)門檻”，那么中國碩士研究生招生考試臨床醫(yī)學(xué)綜合能力（西醫(yī)）考試則是頂尖醫(yī)學(xué)生競爭的“華山論劍”。該考試不僅知識面廣，且題目設(shè)計極為復(fù)雜，對臨床思維要求高。通常，能考到280分以上的考生，都是協(xié)和、北醫(yī)等頂尖學(xué)府的頭部學(xué)霸。M2 Plus在此項考試中取得了282分。同時，在日本、英國、澳大利亞等國高級醫(yī)師職稱晉升考試中，準(zhǔn)確率85%以上，遠(yuǎn)超各國及格線。

這些壓倒性的成績充分說明，M2 Plus 在復(fù)雜醫(yī)學(xué)知識運用上的能力，已經(jīng)超越了人類醫(yī)生水準(zhǔn)。

“醫(yī)生版ChatGPT”推動醫(yī)療AI邁入可信可用階段

接入M2 Plus的百小應(yīng)已在各大手機(jī)應(yīng)用商店更新，成為”醫(yī)生版ChatGPT”。為方便電腦端使用，網(wǎng)頁版（ying.ai）也同步上線。

除了需要高效地輔助臨床決策，醫(yī)生還開始面對新的挑戰(zhàn)：患者用DeepSeek自診和帶著DeepSeek就醫(yī)的現(xiàn)象越來越多。雖然知道大模型可能有幻覺和偏頗，但沒有時間和精力去甄別哪句對哪句錯。通過百小應(yīng)，醫(yī)生有了面對通用模型挑戰(zhàn)的“專屬武器”。

對于希望深入理解診斷、治療、預(yù)后、病因、檢查等背后科學(xué)邏輯的患者及家屬，面對復(fù)雜的就醫(yī)環(huán)境和不同醫(yī)生給出的診療方案，百小應(yīng)讓他們有機(jī)會獲得最新最權(quán)威的知識、頂尖專家的思維和視角，得到無限耐心的專業(yè)解答。

Baichuan-M2 Plus也提供了標(biāo)準(zhǔn)化API接口，醫(yī)院信息化部門、互聯(lián)網(wǎng)醫(yī)療、大健康服務(wù)等各類泛醫(yī)學(xué)機(jī)構(gòu)，以及從事醫(yī)療AI行業(yè)的開發(fā)者，則可以通過API將循證推理接入服務(wù)場景，提升AI服務(wù)的醫(yī)學(xué)專業(yè)性。

通過開源Baichuan-Ｍ2、發(fā)布Baichuan-Ｍ2 plus、百小應(yīng)，開放API，百川致力于持續(xù)提升AI醫(yī)療在真實臨床場景的可用性，推動大模型在嚴(yán)肅醫(yī)療場景進(jìn)入落地可用新階段。

百川發(fā)布最強(qiáng)循證增強(qiáng)大模型M2 Plus，幻覺率相比DeepSeek降低3倍

首創(chuàng)六源循證推理范式，把循證做“全”、檢索做“準(zhǔn)”、推理做“對”

幻覺最低，達(dá)到與人類資深臨床專家同等可信度

多國醫(yī)學(xué)考試斷崖領(lǐng)先，醫(yī)學(xué)知識運用能力超越人類醫(yī)生

“醫(yī)生版ChatGPT”推動醫(yī)療AI邁入可信可用階段