專家視點
機器學習在超快光子學領域的應用越來越廣泛。針對基于飽和吸收體的超快光纖激光器的自動鎖模問題,Yan等人提出并實現(xiàn)了一種 基于深度 確定性策略梯度的低延遲深度強化學習算法。該算法包括兩個提供腔內激光偏振態(tài)修正策略的actor神經網絡和兩個評估actor網絡效果的critic神經網絡。 actor神經網絡的作用是根據狀態(tài)選擇適當的動作。 critic神經網絡的目的是評估執(zhí)行的動作對系統(tǒng)的影響。 將深度強化學習算法和低延遲算法與基于可飽和吸收體的超快光纖激光器相結合,構成自動鎖??刂葡到y(tǒng)。 在算法與環(huán)境的交互過程中,為了保證環(huán)境狀態(tài)的穩(wěn)定,需要經歷一個必要的時延, 原因是在更新電偏振控制器的偏振狀態(tài)后,超快光纖激光器的狀態(tài)需要一段時間才能變得穩(wěn)定。進一步地,為了保證其有效性和魯棒性,研究人員提出了兩個實驗。在有效性方面,一個實驗驗證了訓練后網絡模型的性能,將其應用于在環(huán)境振動下恢復鎖模狀態(tài),模擬了超快光纖激光器快速失去鎖模狀態(tài)的情況。至于魯棒性,另一個實驗首先用不同溫度下的超快光纖激光器建立數據庫。然后,研究人員對模型進行訓練并測試其性能。 實驗發(fā)現(xiàn),該算法在振動后最快的基本鎖?;謴蜁r間為0.472 s,平均恢復時間為1.948 s。 與以往提出的偏振控制算法相比,該算法可以一步實現(xiàn)大規(guī)模的偏振態(tài)調整,從而優(yōu)化初始偏振態(tài)遠離理想偏振態(tài)的解。 在不同溫度下,訓練后的網絡模型也能在短時間內恢復超快光纖激光器的鎖模狀態(tài)。 這是具有低延遲算法的深度強化學習算法在平均鎖?;謴蜁r間上比類人算法快的主要原因。此外,在計算機上部署了具有低延遲算法的深度強化學習算法,這意味著系統(tǒng)可以實現(xiàn)遠程自動鎖模控制,表明該系統(tǒng)能夠實現(xiàn)遠程維護和監(jiān)控。最后,一臺計算機可以同時控制多個激光系統(tǒng),對串級系統(tǒng)的調試和控制具有重要意義。 因此,這項研究實現(xiàn)了遠程算法訓練和自動鎖??刂?,為超快光纖激光器的遠程維護和集中控制奠定了基礎。該工作發(fā)表在 Photonics Research 上。
Qiu-Quan Yan, Qing-Hui Deng, Jun Zhang, Ying Zhu, Ke Yin, Teng Li, Dan Wu and Tian Jiang, Low-latency deep-reinforcement learning algorithm for ultrafast fiber lasers, Photonics Research 9(8): 1493-1501 (2021).
計算機領域研究的人工智能算法在醫(yī)學、金融和光學等許多其他領域發(fā)揮了巨大作用。人工智能的應用主要包括反饋控制、模式識別、大數據分析、特征提取和降噪。作為人工智能領域的一個重要分支,深度強化學習以其感知和決策能力為復雜系統(tǒng)的反饋控制問題提供了一種解決方案。因此,它被廣泛應用于自動駕駛和工業(yè)自動化等領域的反饋控制。當深度強化學習在不同的環(huán)境中應用時,策略是不同的。因此,出現(xiàn)了大量的基于強化學習的算法,如馬爾可夫決策過程、動態(tài)規(guī)劃、蒙特卡羅方法、時態(tài)差分、SARSA、深度
轉載請注明出處。