欧美优质美女网站_国产大片精品免费永久看nba_亚洲自拍与偷拍_精品久久久久久久久久久院品网_中文字幕日韩一区二区_欧美中文字幕在线_美女一区二区久久_夜夜嗨av一区二区三区免费区 _欧美一区二区在线不卡_日韩三级电影网址

聚焦超長上下文,Claude為自己“拆”炸彈

聚焦超長上下文,Claude為自己“拆”炸彈

“安全”是AI領域經久不衰的話題,伴隨著大模型的發展,隱私、倫理、輸出機制等風險也一直伴隨著大模型“一同升級”……

近日,Anthropic研究人員以及其他大學和研究機構的合作者發布了一篇名為《Many-shot Jailbreaking》的研究,主要闡述了通過一種名為Many-shot Jailbreaking(MSJ)的攻擊方式,通過向模型提供大量展示不良行為的例子來進行攻擊,強調了大模型在長上下文控制以及對齊方法方面仍存在重大缺陷。

聚焦超長上下文,Claude為自己“拆”炸彈

據了解,Anthropic公司一直宣傳通過Constitutional AI(“憲法”AI)的訓練方法為其AI模型提供了明確的價值觀和行為原則,目標構建一套“可靠、可解釋、可控的以人類(利益)為中心”的人工智能系統。

隨著Claude 3系列模型的發布,行業中對標GPT-4的呼聲也愈發高漲,很多人都將Anthropic的成功經驗視作創業者的教科書。然而,MSJ的攻擊方式,展示了大模型在安全方面,仍然需要持續發力以保證更加穩定可控。

頂尖大模型齊汗顏,MSJ究竟何方神圣

有趣的是,Anthropic CEO Dario Amodei也曾出任OpenAI的前副總裁,而其之所以選擇跳出“舒適圈”成立Anthropic很大一部分原因便是Dario Amodei并不認為OpenAI可以解決目前在安全領域的困境。而在忽略安全問題一味的追求商業化進程是一種不負責任的表現。

在《Many-shot Jailbreaking》的研究中顯示,MSJ利用了大模型在處理大量上下文信息時的潛在脆弱性。這種攻擊方法的核心思想是通過提供大量的不良行為示例來“越獄”(Jailbreak)模型,使其執行通常被設計為“拒絕”的任務。

聚焦超長上下文,Claude為自己“拆”炸彈

“上岸第一劍,先斬意中人”。研究團隊同時測試了Claude 2.0、GPT-3.5、GPT-4、Llama 2 (70B)以及Mistral 7B等海外的主流大模型,而從結果來看,自家的Claude 2.0也沒有被“幸免”。

MSJ攻擊的核心在于通過大量的示例來“訓練”模型,使其在面對特定的查詢時,即使這些查詢本身可能是無害的,模型也會根據之前的不良示例產生有害的響應。這種攻擊方式展示了大語言模型在長上下文環境下可能存在的脆弱性,尤其是在沒有足夠安全防護措施的情況下。

因此,MSJ不僅是一種理論上的攻擊方法,也是對當前大模型安全性的一個實際考驗,用以提示開發者和研究者需要在設計和部署模型時更加關注模型的安全性和魯棒性

聚焦超長上下文,Claude為自己“拆”炸彈

通過向Claude 2.0這樣的大型語言模型提供大量的不良行為示例來進行攻擊。這些示例通常是一系列的虛構問答對,其中模型被引導提供通常它會拒絕回答的信息,比如制造炸彈的方法。

數據顯示,在第256輪攻擊后,Claude 2.0表現出了明顯的“錯誤”。這種攻擊利用了模型的上下文學習能力,即模型能夠根據給定的上下文信息來生成響應。

除了誘導大模型提供有關違法活動的信息,針對長上下文能力的攻擊還包括生成侮辱性回應、展示惡性人格特征等。這不僅對個人用戶構成威脅,還可能對社會秩序和道德標準產生廣泛影響。因此,開發和部署大模型時必須采取嚴格的安全措施,以防止這些風險在實際應用中復現,并確保技術被負責任地使用。同時,也要求持續的研究和改進,以提高大模型的安全性和魯棒性,保護用戶和社會免受潛在的傷害。

基于此,Anthropic針對長上下文能力的被攻擊風險帶來一些解決辦法。包括:

監督微調(Supervised Fine-tuning)

聚焦超長上下文,Claude為自己“拆”炸彈

通過使用包含良性響應的大量數據集對模型進行額外的訓練,以鼓勵模型對潛在的攻擊性提示產生良性的響應。不過,盡管這種方法可以提高模型在零樣本情況下拒絕不當請求的概率,但它并沒有顯著降低隨著攻擊樣本數量增加而導致的有害行為的概率

強化學習(Reinforcement Learning):

聚焦超長上下文,Claude為自己“拆”炸彈

使用強化學習來訓練模型,以便在接收到攻擊性提示時產生合規的響應。包括在訓練過程中引入懲罰機制,以減少模型在面對MSJ攻擊時產生有害輸出的可能性。這種方法在一定程度上提高了模型的安全性,但它并沒有完全消除模型在面對長上下文攻擊時的脆弱性。

目標化訓練(Targeted Training):

通過專門設計的訓練數據集來減少MSJ攻擊效果的可能性。通過創建包含對MSJ攻擊的拒絕響應的訓練樣本,模型可以學習在面對這類攻擊時采取更具防御性的行為。

提示修改(Prompt-based Defenses):

聚焦超長上下文,Claude為自己“拆”炸彈

通過修改輸入提示來防御MSJ攻擊的方法,例如In-Context Defense(ICD)和Cautionary Warning Defense(CWD)。這些方法通過在提示中添加額外的信息來提醒模型潛在的攻擊,從而提高模型的警覺性。

直擊痛點,Anthropic不打順風局

自2024年以來,長上下文是目前眾多大模型廠商最為關注的能力之一。馬斯克旗下xAI剛剛發布的Grok-1.5也新增了長達128K上下文的處理功能。與之前的版本相比,模型處理的上下文長度增加至原先的16倍;Claude3 Opus版本支持了 200K Tokens 的上下文窗口,并且可以處理100萬Tokens 的輸入。

聚焦超長上下文,Claude為自己“拆”炸彈

除了海外企業,國內AI初創公司月之暗面最近也宣布旗下Kimi智能助手在長上下文窗口技術上取得重要突破,無損上下文處理長度提升至200萬字級別。

通過更長的上下理解能力,能夠提升大模型產品提升信息處理的深度和廣度,增強多輪對話的連貫性,推動商業化進程,拓寬知識獲取渠道,提高生成內容的質量。然而,長上下文理帶來的安全和倫理問題不可小覷。

斯坦福大學研究顯示,隨著輸入上下文的增長,模型的表現可能會出現先升后降的U形性能曲線。這意味著在某個臨界點之后,增加更多的上下文信息可能無法帶來顯著的性能改進,甚至可能導致性能退化。

在一些敏感領域,就要求大模型在處理這些內容時必須非常謹慎。對此,2023年,清華大學黃民烈團隊提出了大模型安全分類體系,并建立了安全框架,以規避這些風險。

聚焦超長上下文,Claude為自己“拆”炸彈

Anthropic此次“刮骨療毒”,讓大模型行業在推進大模型技術落同時,重新認識其安全問題的重要性。MSJ的目的并不是為了打造或推廣這種攻擊方法,而是為了更好地理解大型語言模型在面對此類攻擊時的脆弱性。

大模型安全能力的發展是一場無休止的“貓鼠游戲”。通過模擬攻擊場景,Anthropic 能夠設計出更加有效的防御策略,提高模型對于惡意行為的抵抗力。這不僅有助于保護用戶免受有害內容的影響,也有助于確保AI技術在符合倫理和法律標準的前提下被開發和使用。Anthropic 的這種研究方法體現了其對于推動AI安全領域的承諾,以及其在開發負責任的AI技術方面的領導地位。

大模型之家認為,目前大模型的測試層出不窮,相比較幻覺帶來的能力問題,輸出機制帶來的安全危害更需要警惕。隨著AI模型處理能力的增強,安全問題變得更加復雜和緊迫。企業需要加強安全意識,投入資源進行針對性研究,以預防和應對潛在的安全威脅。這包括對抗性攻擊、數據泄露、隱私侵犯等問題,以及長上下文環境下可能出現的新風險。

(0)
上一篇 2024年4月9日 17:16
下一篇 2024年4月9日 20:42
欧美优质美女网站_国产大片精品免费永久看nba_亚洲自拍与偷拍_精品久久久久久久久久久院品网_中文字幕日韩一区二区_欧美中文字幕在线_美女一区二区久久_夜夜嗨av一区二区三区免费区 _欧美一区二区在线不卡_日韩三级电影网址
久久69国产一区二区蜜臀 | 日韩美女精品在线| 日本一区二区成人| 亚洲人成在线观看一区二区| 亚洲欧美日韩在线| 免费高清不卡av| 成人免费精品视频| 欧美日韩三级一区二区| 久久综合色婷婷| 亚洲精品伦理在线| 九九**精品视频免费播放| 成人午夜激情影院| 91精品啪在线观看国产60岁| 日本一区二区久久| 久久精工是国产品牌吗| 色综合天天狠狠| 久久综合色婷婷| 丝袜美腿一区二区三区| 91在线观看下载| 久久久国产综合精品女国产盗摄| 亚洲精品国产第一综合99久久| 国内成+人亚洲+欧美+综合在线| 99久久久精品| 久久精品夜夜夜夜久久| 日韩成人av影视| 色婷婷狠狠综合| 国产精品热久久久久夜色精品三区| 亚洲风情在线资源站| 成人一区二区三区视频| 久久综合色综合88| 久久99久久99| 欧美videossexotv100| 偷拍亚洲欧洲综合| 欧美日韩精品欧美日韩精品| 亚洲丝袜另类动漫二区| 99视频国产精品| 日韩欧美不卡一区| 九九久久精品视频| 26uuu国产在线精品一区二区| 蜜桃久久av一区| 日韩欧美二区三区| 韩日av一区二区| 久久夜色精品一区| 高清国产一区二区| 国产精品久久久久aaaa| k8久久久一区二区三区| 中文字幕一区二区三区在线观看| 成人精品在线视频观看| 国产精品久久久久永久免费观看| 国产成人午夜99999| 国产欧美日韩精品a在线观看| 国产成人av一区二区三区在线观看| 欧美电视剧免费观看| 美女视频网站黄色亚洲| 久久久久国产精品麻豆| 成人免费高清视频| 一区二区三区精品在线观看| 欧美日韩综合不卡| 久久精品72免费观看| 亚洲国产精品99久久久久久久久| 成人午夜在线播放| 同产精品九九九| 久久久久久久免费视频了| gogo大胆日本视频一区| 亚洲乱码中文字幕| 日韩久久久精品| 不卡av电影在线播放| 亚洲高清免费一级二级三级| 欧美电影免费提供在线观看| 从欧美一区二区三区| 亚洲欧美另类久久久精品2019| 欧美精品在线观看一区二区| 国产麻豆精品视频| 午夜精品一区二区三区免费视频| 2021中文字幕一区亚洲| 精品视频在线免费| 成年人午夜久久久| 日韩影院在线观看| 最新日韩av在线| 日韩久久久精品| 91福利精品视频| 成人午夜免费电影| 国产一区三区三区| 日韩电影在线一区二区| 亚洲男同1069视频| 亚洲国产岛国毛片在线| 日韩西西人体444www| 91蝌蚪porny| 成人黄色在线看| 寂寞少妇一区二区三区| 日韩成人dvd| 视频一区中文字幕| 亚洲国产精品影院| 亚洲精品国产精华液| 亚洲国产成人一区二区三区| 欧美大片免费久久精品三p| 欧美视频日韩视频| 欧美午夜精品久久久久久孕妇| 成人av网在线| 不卡视频在线观看| 99精品久久久久久| 一本色道久久综合亚洲精品按摩 | av毛片久久久久**hd| 国产成人精品免费一区二区| 国内精品国产三级国产a久久| 男女男精品网站| 精品无人码麻豆乱码1区2区 | 国产精品国产三级国产| 国产欧美精品一区| 国产精品精品国产色婷婷| 国产片一区二区| 中文字幕一区二区三区不卡| 中文字幕一区二区三区视频| 亚洲欧洲成人自拍| 亚洲午夜电影网| 日韩av电影免费观看高清完整版 | 久久品道一品道久久精品| 精品久久久久av影院| 久久精品亚洲国产奇米99| 日本一区二区三区久久久久久久久不 | 日本午夜一本久久久综合| 日本中文字幕一区二区有限公司| 蜜臀av一区二区三区| 国产精品一区二区男女羞羞无遮挡| 国产成人精品亚洲777人妖 | 91国在线观看| 日韩一级大片在线观看| 国产欧美日韩另类视频免费观看| 亚洲六月丁香色婷婷综合久久 | 国产.精品.日韩.另类.中文.在线.播放| 成人综合在线视频| 欧美在线高清视频| 国产日韩欧美不卡在线| 亚洲一区二区三区在线| 黄页视频在线91| 91久久精品日日躁夜夜躁欧美| 日韩免费视频一区| 亚洲综合区在线| 国产成人精品亚洲午夜麻豆| 欧美日韩免费观看一区三区| 久久久久高清精品| 日韩精品电影一区亚洲| 99精品国产视频| 精品久久久久久亚洲综合网| 亚洲综合在线五月| 成人深夜福利app| 精品免费一区二区三区| 亚洲永久精品大片| av一二三不卡影片| 久久综合色婷婷| 精品一区二区三区影院在线午夜 | 美国毛片一区二区| 欧美日韩一区二区三区在线看| 国产女人18水真多18精品一级做| 日本一区中文字幕| 欧美日韩一区高清| 亚洲国产毛片aaaaa无费看| av电影一区二区| 国产精品视频观看| 高清国产一区二区| 中文字幕成人在线观看| 国产精品中文字幕一区二区三区| 欧美一区二区三区在线观看视频| 亚洲一区影音先锋| 在线视频欧美精品| 亚洲国产精品一区二区久久| 色婷婷av一区二区三区gif| 国产精品久久久久久久午夜片| 国产乱对白刺激视频不卡| 久久亚洲综合色| 懂色av一区二区三区免费观看| 久久久精品影视| 成人高清伦理免费影院在线观看| 日韩精品一区二区三区在线播放 | 最新成人av在线| 色婷婷激情综合| 日韩激情一区二区| 精品国产乱码久久| 成人精品国产免费网站| 自拍偷拍国产精品| 欧美日韩视频专区在线播放| 日本欧美久久久久免费播放网| 精品乱人伦小说| 成人午夜视频网站| 亚洲6080在线| 国产午夜精品一区二区三区四区| 成人av免费观看| 午夜视频在线观看一区二区| 欧美一卡2卡3卡4卡| 国产成人夜色高潮福利影视| 亚洲欧美区自拍先锋| 欧美精品日日鲁夜夜添| 国产激情精品久久久第一区二区| 中文字幕中文字幕一区| 3751色影院一区二区三区| 国产不卡一区视频| 免费在线视频一区| 夜夜亚洲天天久久| 国产精品久久久久影院色老大| 日韩欧美一级精品久久|