有用戶在測(cè)試中發(fā)現(xiàn),只要提到現(xiàn)在是12月份,GPT-4的輸出內(nèi)容就明顯變少。在某項(xiàng)測(cè)試中,用戶告訴GPT-4現(xiàn)在是5月份和12月份后對(duì)比輸出結(jié)果,得出了12月份的結(jié)果相對(duì)較差的結(jié)論。這引起了大家的討論,認(rèn)為GPT-4可能是因?yàn)榉藕倭瞬挪辉敢夤ぷ鳌?p>但是根據(jù)論文作者的觀點(diǎn),GPT-4降智的主要原因是由于大型模型缺乏持續(xù)學(xué)習(xí)和進(jìn)化能力,這是一個(gè)看起來(lái)幾乎無(wú)解的缺陷。論文還指出,GPT-4表現(xiàn)良好的原因在于它只是記住了答案,而沒(méi)有有效地獲得新知識(shí)和理解。
而造成這種表現(xiàn)差別如此巨大的原因,則在于‘任務(wù)污染。作者發(fā)現(xiàn),GPT-3系列各個(gè)版本在新任務(wù)上的性能增強(qiáng)都是由任務(wù)污染導(dǎo)致的,而對(duì)于沒(méi)有任務(wù)污染證據(jù)的分類任務(wù),大型語(yǔ)言模型很少在零樣本和少樣本設(shè)置下顯著優(yōu)于簡(jiǎn)單多數(shù)基準(zhǔn)。
研究人員進(jìn)行了針對(duì)12個(gè)模型的測(cè)試,發(fā)現(xiàn)了在模型數(shù)據(jù)訓(xùn)練截止日期之后發(fā)布的數(shù)據(jù)集,模型的零樣本和多樣本性能均明顯下降。進(jìn)一步確定的研究分析顯示,任務(wù)污染的增加與性能的提高存在著很強(qiáng)的相關(guān)性。
因此,這些發(fā)現(xiàn)引起了人們的悲觀情緒,認(rèn)為很難構(gòu)建能夠持續(xù)適應(yīng)的機(jī)器學(xué)習(xí)模型。ChatGPT已經(jīng)過(guò)時(shí)了,大型模型公司必須不斷重新訓(xùn)練新模型,才能夠保證模型的性能和效果。
在種種研究結(jié)果和觀察的推動(dòng)下,人們開(kāi)始意識(shí)到GPT-4‘變笨是由于不斷追問(wèn)新問(wèn)題對(duì)其進(jìn)行考驗(yàn),使得其真實(shí)水平慢慢暴露出來(lái)。這一切都在反映出巨大的系統(tǒng)性問(wèn)題存在于機(jī)器學(xué)習(xí)模型中。