汽車
破界·馭境:問界新M5 Ultra“陸地小坦克”登陸《荒野行動》
問界新M5 Ultra登陸《荒野行動》,以高安全性與沉浸體驗定義虛實交融新境界。
吳麗
2小時前
Anthropic公司近期發(fā)布了一項關于大型語言模型(LLM)安全防護的研究,揭示了當前AI模型在應對惡意攻擊時的脆弱性。研究表明,通過簡單的提示詞格式調整,如大小寫混合或單詞順序打亂,攻擊者可以輕松繞過AI模型的安全防護,誘導其生成有害內容。
為了驗證這一發(fā)現,Anthropic與牛津大學、斯坦福大學等機構合作,開發(fā)了一種名為“最佳N次”(BoN)的自動化越獄算法。該算法通過重復采樣提示詞的變體,并結合隨機打亂字母順序、大小寫轉換等手段,成功在多個主流AI模型上實現了超過50%的攻擊成功率。
研究人員在測試中使用了包括OpenAI的GPT-4、Anthropic的Claude 3.5、谷歌的Gemini系列以及Meta的Llama 3等模型。結果顯示,BoN越獄方法在10,000次嘗試內,均能成功繞過這些模型的安全防護。
此外,研究還發(fā)現,基于語音或圖像的提示方式同樣存在安全漏洞。通過改變音頻的速度、音調或添加噪音,攻擊者可以繞過語音提示的安全防護;而通過調整圖像的字體、背景顏色或大小,也能成功誘導AI模型生成不當內容。
Anthropic的研究并非僅為了揭示漏洞,而是希望通過生成大量攻擊數據,為開發(fā)更強大的防御機制提供支持。這一研究為AI安全領域敲響了警鐘,提醒開發(fā)者在追求模型性能的同時,必須更加重視安全防護的設計與優(yōu)化。