當前位置：首頁 > 新聞資訊 > 機器人知識 > 學一個忘一個？人工智能遭遇“災難性遺忘”，克服“失憶”有何良策

學一個忘一個？人工智能遭遇“災難性遺忘”，克服“失憶”有何良策

來源：-- 編輯：創澤時間：2020/4/22 主題：其他 [加盟]

麵對繁重的識記任務時，你是否有想象過擁有一個能幹的AI幫手替你學習？心想：若是能像AI一樣，就要衝這鋪天蓋地的學習任務輕輕一笑，然後瞬間掌握、過目不忘。可是實際上，人工智能也正麵對著 “這邊學，那邊忘”噩夢，這一現象還有個聽起來就透著幾分窒息的名字——“災難性遺忘”。

近日，來自穀歌大腦的最新研究發現，在街機學習環境的由多個子任務組成的單任務場景中也存在著“災難性遺忘”。特別像在蒙特祖瑪的複仇這種探索型遊戲裏，場景變化較大，也會出現學習完當前遊戲場景後，忘記上一個遊戲場景知識的情況。

人工智能為什麼會產生“災難性遺忘”？目前，解決災難性遺忘的方案有哪些？難點在哪？來看看專家怎麼說！

學一個忘一個，深度學習效率低下
自從阿爾法狗相繼戰勝多名圍棋冠軍後，深度強化學習成為人工智能領域最耀眼的“明星”，也是各大研發機構角逐的主戰場。而穀歌大腦團隊這次麵臨的“災難性遺忘”，正是人工智能深度學習中一個普遍且嚴重的問題。
“‘災難性遺忘’指的是人工智能係統，如深度學習模型，在學習新任務或適應新環境時，忘記或喪失了以前習得的一些能力。”騰訊人工智能實驗室副主任俞棟博士在接受記者采訪時說，“災難性遺忘”會造成人工智能係統在原有任務或環境性能大幅下降。
因此，“災難性遺忘”的存在，一定程度上限製了人工智能在一些場景中的應用。
福州大學數學與計算機科學學院、福建省新媒體行業技術開發基地副主任柯逍博士舉例說，如一個AI圖像識別係統，當需要添加一個新的類別的物體時，就不得不把原先的所有物體都再學習一次；或在文物鑒定係統中，當有一天發現原始數據中有一個文物朝代錯了，同樣沒辦法單獨對這一個錯誤的文物進行修改學習；再如，讓AI係統學習英語之後，再讓它學習德語，它可能會把原來學習的英語語法全部忘光。
而在穀歌大腦的最新研究的遊戲場景中，“災難性遺忘”又造成了哪些影響？有何新穎的發現？
“除了傳統新知識學習會覆蓋舊知識之外，穀歌大腦還發現，在如超級瑪麗等探索型遊戲裏，‘災難性遺忘’會阻礙模型對新知識的學習。”廈門大學人工智能係、科技處副處長紀榮嶸教授說。
紀榮嶸進一步解釋說，麵向街機遊戲學習的強化學習方法都會采用“經驗回放”的訓練方式，就是將模型在遊戲探索時候的片段進行保存，然後給模型進行“回放”訓練。而像蒙特祖瑪複仇這種遊戲，遊戲場景變化比較大，模型需要不間斷探索遊戲場景，因此，在訓練時候就必須不斷回放早期場景的遊戲經驗，不然會因為“災難性遺忘”而忘記了早期的遊戲知識。
“這也導致了，新的遊戲經驗雖然能夠被采樣到“經驗回放”庫裏，但因為學習方式的設定，導致學習效率低，同時由於不同階段的學習會互相幹擾，使得AI無法一次通過該遊戲的全部關卡。”紀榮嶸說。
AI“腦容量”存上限，新舊知識難共存
AI為什麼會產生“災難性遺忘”？
“深度學習的結構一旦確定，在訓練過程中很難調整。神經網絡的結構直接決定學習模型的容量。”柯逍說，AI“腦容量”存在上限，也就導致了人工智能隻能有限地處理特定任務。就像水桶一半高的地方有個洞，以至於無論怎麼增加水桶的高度，這個水桶隻能裝一半高的水。

中科院自動化所腦網絡組研究中心研究員、模式識別國家重點實驗室副主任餘山指出，這還涉及到神經網絡學習知識的機製。在單個任務的訓練過程中，網絡中各個神經元之間的連接權重進行了專門的調整，以勝任當前的任務。而在新任務的訓練中，連接權重要針對新任務進行調整，這將“抹去”適應舊任務的原有結構，導致在舊任務上的性能大大下降。
人類的記憶能力其實是有限的，但為何出現“災難性遺忘”情況卻比較小？“主要是人類在學習過程當中，大腦能夠主動保留些有用的知識和技巧，同時不影響新的信息獲取。” 紀榮嶸說，但現在的人工智能模型大部分是基於隨機梯度下降來更新模型參數，這個過程主要服務於當前任務的優化，並不會去評估哪些參數權重對舊的知識是有用的，所以就很容易出現知識被覆蓋的情況。
紀榮嶸也表示，當前像Siri或小愛這樣的人工智能助手產品，還不能算真正意義上的通用人工智能，一方麵，這些人工智能助手隻能在預設的知識範圍內和人類互動，完成指令；另一方麵，人類沒辦法像養寵物或養小孩一樣，通過互動去教導這些人工智能助手學習新的知識或新的指令。

解決之策有哪些？
據了解，“破解災難性遺忘”是實現通用人工智能的一個關鍵。解決了“災難性遺忘”問題後，模型就能具備持續學習的能力, 可以像人類一樣不斷獲取新的知識、新的技能，同時能夠最大化地保持舊的經驗知識和技巧。
那麼，目前解決“災難性遺忘”的方案有哪些？
“最常見的方式是多任務學習, 就是把所有任務的訓練數據同時放到一起，模型就可以針對多種任務進行聯合優化。”紀榮嶸舉例說，如讓模型同時學習坦克大戰和超級瑪麗兩個任務，等兩個任務同時學的差不多的時候，模型才停止訓練。
但柯逍也指出，這種方式隨著任務增多，新任務樣本數量被稀釋，訓練會拖慢學習新知識的效率，並且，不是任何情況都能獲得先前任務的數據來複習的。
還有的解決方案是根據新的任務知識來擴充模型結構，保證舊的知識經驗不被損害。此次，穀歌大腦所提出的“記憶碎片觀察”方法正是對不同任務（場景）構建多個人工智能模型來進行學習。“模型擴充的方式從本質上並沒有解決災難性遺忘的問題，隻是用多個模型來替代單個模型去學習多種任務，避免舊參數被覆蓋。”紀榮嶸說。
當前，解決災難性遺忘還存在著一對矛盾：在學習新任務的過程中，需要給予網絡足夠多的自由度進行連接權重調整，但是又要避免這樣的調整“抹去”原有的記憶。
“因此，科學家們開始設計新的學習算法解決上述矛盾，使得網絡在進行權重調整的時候，對已有知識的影響最小化。”餘山表示，其團隊近期提出的正交權重修改算法，就屬於這類，主要通過限製權重修改隻能在舊任務的解空間中進行，這一算法較好的克服了災難性遺忘，使得同一個分類器網絡可以連續的學習多達數千個類別的識別。

	創澤智能機器人中國智能服務機器人領軍企業，涵蓋商用、家庭、特種等多用途的智能機器人產品體係，十幾年行業應用解決方案提供商