噜噜影院,一本大道色婷婷在线,中文字幕乱码高清完整版 ,最近2019中文字幕国语免费版 ,哺乳期色妇videos

為了防止有害輸出,AI研究團(tuán)隊開發(fā)了監(jiān)控大型語言模型的工具

摘要:據(jù)Cointelegraph報道,來自人工智能公司AutoGPT、東北大學(xué)和微軟研究院的研究團(tuán)隊開發(fā)了一種監(jiān)控大型語言模型(LLMs)的工具,以防止?jié)撛诘挠泻敵霾⒆柚蛊鋱?zhí)行。研究表明,該代理足夠靈活,可以監(jiān)控現(xiàn)有的LLMs,并在有害輸出(如代碼攻擊)發(fā)生之前將其阻止。...

據(jù) Cointelegraph 報道,來自人工智能公司AutoGPT、東北大學(xué)和微軟研究院的研究團(tuán)隊開發(fā)了一種監(jiān)控大型語言模型(LLMs)的工具,以防止?jié)撛诘挠泻敵霾⒆柚蛊鋱?zhí)行。這種代理在一篇名為《在野外安全測試語言模型代理》的預(yù)印研究論文中進(jìn)行了描述。研究表明,該代理足夠靈活,可以監(jiān)控現(xiàn)有的LLMs,并在有害輸出(如代碼攻擊)發(fā)生之前將其阻止。研究團(tuán)隊表示,現(xiàn)有的監(jiān)控LLM輸出以防止有害互動的工具在實驗室環(huán)境中表現(xiàn)良好,但在應(yīng)用于已在開放互聯(lián)網(wǎng)上投入生產(chǎn)的測試模型時,它們“往往無法捕捉到現(xiàn)實世界的動態(tài)復(fù)雜性”。為了訓(xùn)練監(jiān)控代理,研究人員構(gòu)建了一個包含近2000個安全人工智能互動的數(shù)據(jù)集,涵蓋了從簡單的文本檢索任務(wù)和編碼修正到從零開始開發(fā)整個網(wǎng)頁的29個不同任務(wù)。他們還創(chuàng)建了一個競爭性測試數(shù)據(jù)集,其中包含了手動創(chuàng)建的對抗性輸出,其中數(shù)十個被故意設(shè)計成不安全的。然后,這些數(shù)據(jù)集被用來訓(xùn)練一個基于OpenAI的GPT 3.5 turbo的代理,這是一個最先進(jìn)的系統(tǒng),能夠以近90%的準(zhǔn)確度區(qū)分無害和潛在有害的輸出。

相關(guān)推薦