ACD在回轉(zhuǎn)窯控制系統(tǒng)設(shè)計中的應(yīng)用
自適應(yīng)評價方法(Adaptive Critic Designs,ACD)的中心思想就是使用神經(jīng)網(wǎng)絡(luò)等函數(shù)逼近方法來近似cost-to-go函數(shù)J,以避免動態(tài)規(guī)劃在計算最優(yōu)代價函數(shù)時所遇到的“維數(shù)災(zāi)”問題。ACD方法可利用神經(jīng)網(wǎng)絡(luò)求解最優(yōu)性能泛函,避免了動態(tài)規(guī)劃方法的缺點。
ACD方法基本構(gòu)成包含評價(Critic)、模型(Model)和控制(Action)三個網(wǎng)絡(luò)。其中評價網(wǎng)絡(luò)是對cost-to-go(J)函數(shù)進行近似,對系統(tǒng)控制進行評價,該方法常用于回轉(zhuǎn)窯的設(shè)計計算當中。其作用主要體現(xiàn)為以輸出來影響控制網(wǎng)絡(luò)和評價網(wǎng)絡(luò)的權(quán)值,控制網(wǎng)絡(luò)則產(chǎn)生控制動作,是傳統(tǒng)意義上的控制器;模型網(wǎng)絡(luò)模擬被控對象的動態(tài)特性,輸入系統(tǒng)狀態(tài)量以及對應(yīng)的控制量,輸出系統(tǒng)的下一時刻輸出的狀態(tài)量估計值,模型網(wǎng)絡(luò)可以在線或離線訓(xùn)練。評價網(wǎng)絡(luò)則是將動作網(wǎng)絡(luò)的學(xué)習(xí)能力分離出來單獨組成的結(jié)構(gòu)。評價網(wǎng)絡(luò)和動作網(wǎng)絡(luò)的分離,就有可能采取更多的方法來調(diào)整和加強控制器的學(xué)習(xí)。自適應(yīng)評價控制系統(tǒng)是通過評價網(wǎng)絡(luò)和控制網(wǎng)絡(luò)聯(lián)合訓(xùn)練使二者的權(quán)值能夠進行適應(yīng)性調(diào)整,以便控制系統(tǒng)做出合適的控制決策。
ACD方法的訓(xùn)練按照動態(tài)規(guī)劃中的策略迭代過程進行:評價網(wǎng)絡(luò)對控制網(wǎng)絡(luò)的性能進行評估,相當于策略評價過程;控制網(wǎng)絡(luò)則產(chǎn)生控制動作,并根據(jù)評價網(wǎng)絡(luò)的評價改進其策略,相當于策略改進過程。
相關(guān)文章:
回轉(zhuǎn)窯內(nèi)結(jié)圈的危害及產(chǎn)生原因回轉(zhuǎn)窯的表面溫度與壁厚紅外監(jiān)測系統(tǒng)開發(fā)對回轉(zhuǎn)窯運行狀態(tài)進行巡檢的重要性利用回轉(zhuǎn)窯煅燒石油焦的利與弊回轉(zhuǎn)窯測溫技術(shù)的提高回轉(zhuǎn)窯系統(tǒng)有哪些輔助設(shè)備?
上一篇: 提升球磨機生產(chǎn)能力的三個方法下一篇: 妨礙球磨機工作效率的幾項因素