專家視點
機器學(xué)習(xí)在超快光子學(xué)領(lǐng)域的應(yīng)用越來越廣泛。針對基于飽和吸收體的超快光纖激光器的自動鎖模問題,Yan等人提出并實現(xiàn)了一種 基于深度 確定性策略梯度的低延遲深度強化學(xué)習(xí)算法。該算法包括兩個提供腔內(nèi)激光偏振態(tài)修正策略的actor神經(jīng)網(wǎng)絡(luò)和兩個評估actor網(wǎng)絡(luò)效果的critic神經(jīng)網(wǎng)絡(luò)。 actor神經(jīng)網(wǎng)絡(luò)的作用是根據(jù)狀態(tài)選擇適當(dāng)?shù)膭幼鳌?critic神經(jīng)網(wǎng)絡(luò)的目的是評估執(zhí)行的動作對系統(tǒng)的影響。 將深度強化學(xué)習(xí)算法和低延遲算法與基于可飽和吸收體的超快光纖激光器相結(jié)合,構(gòu)成自動鎖模控制系統(tǒng)。 在算法與環(huán)境的交互過程中,為了保證環(huán)境狀態(tài)的穩(wěn)定,需要經(jīng)歷一個必要的時延, 原因是在更新電偏振控制器的偏振狀態(tài)后,超快光纖激光器的狀態(tài)需要一段時間才能變得穩(wěn)定。進(jìn)一步地,為了保證其有效性和魯棒性,研究人員提出了兩個實驗。在有效性方面,一個實驗驗證了訓(xùn)練后網(wǎng)絡(luò)模型的性能,將其應(yīng)用于在環(huán)境振動下恢復(fù)鎖模狀態(tài),模擬了超快光纖激光器快速失去鎖模狀態(tài)的情況。至于魯棒性,另一個實驗首先用不同溫度下的超快光纖激光器建立數(shù)據(jù)庫。然后,研究人員對模型進(jìn)行訓(xùn)練并測試其性能。 實驗發(fā)現(xiàn),該算法在振動后最快的基本鎖?;謴?fù)時間為0.472 s,平均恢復(fù)時間為1.948 s。 與以往提出的偏振控制算法相比,該算法可以一步實現(xiàn)大規(guī)模的偏振態(tài)調(diào)整,從而優(yōu)化初始偏振態(tài)遠(yuǎn)離理想偏振態(tài)的解。 在不同溫度下,訓(xùn)練后的網(wǎng)絡(luò)模型也能在短時間內(nèi)恢復(fù)超快光纖激光器的鎖模狀態(tài)。 這是具有低延遲算法的深度強化學(xué)習(xí)算法在平均鎖模恢復(fù)時間上比類人算法快的主要原因。此外,在計算機上部署了具有低延遲算法的深度強化學(xué)習(xí)算法,這意味著系統(tǒng)可以實現(xiàn)遠(yuǎn)程自動鎖??刂?,表明該系統(tǒng)能夠?qū)崿F(xiàn)遠(yuǎn)程維護和監(jiān)控。最后,一臺計算機可以同時控制多個激光系統(tǒng),對串級系統(tǒng)的調(diào)試和控制具有重要意義。 因此,這項研究實現(xiàn)了遠(yuǎn)程算法訓(xùn)練和自動鎖??刂疲瑸槌旃饫w激光器的遠(yuǎn)程維護和集中控制奠定了基礎(chǔ)。該工作發(fā)表在 Photonics Research 上。
Qiu-Quan Yan, Qing-Hui Deng, Jun Zhang, Ying Zhu, Ke Yin, Teng Li, Dan Wu and Tian Jiang, Low-latency deep-reinforcement learning algorithm for ultrafast fiber lasers, Photonics Research 9(8): 1493-1501 (2021).
計算機領(lǐng)域研究的人工智能算法在醫(yī)學(xué)、金融和光學(xué)等許多其他領(lǐng)域發(fā)揮了巨大作用。人工智能的應(yīng)用主要包括反饋控制、模式識別、大數(shù)據(jù)分析、特征提取和降噪。作為人工智能領(lǐng)域的一個重要分支,深度強化學(xué)習(xí)以其感知和決策能力為復(fù)雜系統(tǒng)的反饋控制問題提供了一種解決方案。因此,它被廣泛應(yīng)用于自動駕駛和工業(yè)自動化等領(lǐng)域的反饋控制。當(dāng)深度強化學(xué)習(xí)在不同的環(huán)境中應(yīng)用時,策略是不同的。因此,出現(xiàn)了大量的基于強化學(xué)習(xí)的算法,如馬爾可夫決策過程、動態(tài)規(guī)劃、蒙特卡羅方法、時態(tài)差分、SARSA、深度
轉(zhuǎn)載請注明出處。