320 likes | 428 Views
Accelerated Ants Routing in Dynamic Networks. Hiroshi Matsuo, Kouichi Mori Nagoya Institute of Technology, Gokiso , Nagoya, 466-8555, JAPAN matsuo@elcom.nitech.ac.jp. 指導 老師:郭文興 學生 :黃仁襄. Abstract. 根據個人資料助理 (PDA) 和無線網路設備的發展,在 ad hoc 網路上效率高的路由動態網路是一個重要的問題。
E N D
Accelerated Ants Routing in Dynamic Networks Hiroshi Matsuo, Kouichi Mori Nagoya Institute of Technology, Gokiso, Nagoya, 466-8555, JAPAN matsuo@elcom.nitech.ac.jp 指導老師:郭文興 學生:黃仁襄
Abstract • 根據個人資料助理(PDA)和無線網路設備的發展,在ad hoc網路上效率高的路由動態網路是一個重要的問題。 • 但是常規的路由很難適用在動態網路拓樸上,另外Q-Routing、DRQ-routing和Ants-Routing都是基於強化學習方法提出的。 • 本篇的accelerated Ants-Routing增加了收斂速度和獲得較佳的路徑。 • 實驗指出,accelerated Ants-Routing在收斂速度及平均封包延遲方面會學習到理想的路由。
Outline • 1. Introduction • 2. Reinforcement Learning • 2.1. Framework of Reinforcement Learning • 2.2. Q-Learning • 3. Related work • 3.1. Q-Routing • 3.2. Dual Reinforcement Q-Routing • 3.3. Ants-Routing • 4. Accelerated Ants-Routing • 4.1. No return rule • 4.2. N step backward exploration
Outline • 5. Experimental results • 5.1. Conditions of simulations • 5.2. Topology and dynamics of networks • 5.3. Results • 6. Conclusion • 7. References
1. Introduction • 在ad hoc網路裡,個人資料助理的發展是高效的路由在動態網路裡一個重要問題。 • ad hoc網路的特色是頻繁和不可預料的變動網路拓樸,因此常規的網路路由如RIP和OSPF[1]是不適合的。 • RIP:Routing Information Protocol • OSPF:開放式最短路徑優先 • 這些演算法是找出hop數的最小值,但改變的拓樸會產生許多路由資訊封包和需要許多時間來會集路由資訊。
1. Introduction • 為了解決這些問題,基於強化學習的路由演算法被提出,這些演算法在中繼點上只利用局部的資訊來決定路由表。 • 如Boyan and Littman提出Q-Routing[2] Kumar and Miikkulainen提出Dual Reinforcement Q-Routing[3] Subramanian提出的Ants-Routing[5]。 • 本篇提出修改的Ants-Routing演算法,叫accelerated Ants-Routing,它收斂速度跟剛提到的演算法比起來較快。
2. Reinforcement Learning2.1. Framework of Reinforcement Learning • 強化學習是透過經驗來改善代理程式在環境中行為的過程。 • 環境回饋是一簡單的數量值。 • 在強化訊號進行了一連串行動後,它反映出整個系統的成敗 • 因此,強化訊號不分配信任或責任給任何一動作,或任何特定節點或系統要件
2.1. Framework of Reinforcement Learning • 相較之下,監督學習的回饋消除了時間信任分配問題,此外,它指出個體節點的錯誤而不是簡單的說結果多好。 • 監督學習方法,如反向傳播,它依靠系統輸出節點的錯誤訊號,而且通常可預先得知一連串固定的例子,但非所有學習問題適合此範例。 • 當系統需要學習連線,或者“teacher”不能用來提供錯誤信號或目標輸出時,強化學習方法就較為合適。
2.1. Framework of Reinforcement Learning • 代理程式根據觀察時間t的情況來決定行動,然後執行 選擇的動作at • 環境從St改變成St+1,代理程式取得與轉變的環境一致的報酬rt • t t+1,回到1. • PS. 代理程式選擇行動的目的是取得最高報酬。
2.2. Q-Learning • Q-Learning是典型的強化學習演算法,Watkins在[6]裡提到,步驟如下: • 代理程式觀察當前狀況S • 根據輪盤法或貪婪法來決定合適的動作 • 代理程式從環境中獲得報酬r • 觀察其次的狀況S’ • Q值根據下式來更新 α是學習因素(0<α≦1) γ是折扣率(0≦γ<1) • t t+1,回到1.
3. Related work3.1. Q-Routing • Boyan利用Q-Learning架構提出了Q-Routing[2]。 • 在Q-Routing裡,每個節點x的路由表都有一個值Qx(d, y) • y為鄰居,d為目的地, • QX(d, y)為一封包經由鄰居y傳遞到目的地d的時間
3.1. Q-Routing • 當訊息從x傳到y時,會更新Qx值 • N(y)為y的鄰居集合 • qy為在節點y queue的時間 • sy為從x到y的傳遞時間 • α為“學習率”參數 • 在流量大的環境下,Q-Routing跟基於最短路徑的演算法比起,可獲得較好的路由[2]。
3.2. Dual Reinforcement Q-Routing • Dual reinforcement learning是開發來給衛星通訊的變異訊號的[4]。 • 相同的想法被用來合併反向探索與Q-Routing演算法,名為Dual reinforcement Q-Routing(DRQ routing)[3]。 • 當節點x傳一封包給它鄰居之一節點y,封包攜帶與節點x相同Q值 • 當節點y收到封包後,可以利用此訊息來更新自己預先對節點x的評估 • 晚點當y要做決定時,更新對x的Q值 • 探索的overhead只會微量的增加封包大小
3.2. Dual Reinforcement Q-Routing • Qy為在y點上,利用從x到y的的封包更新的Q值 • 理論上,使用DRQ-Routing可以獲得2倍的收斂速度 w ∈ N(x) qxsx
3.3. Ants-Routing • Ants-Routing有下列2個特色: • (1) Q-Routing和DRQ-Routing在路由表裡保有評估到目的地節點時間的Q值;Ants-Routing將它視為隨機變數 • (2) 只有在DRQ-Routing用反向探索來更新路由表 • 當節點r從節點x接收到訊息,要往鄰居yi傳時,會根據一機率pi。 • 機率表是一種機制,探索網路中備用路徑及保持評估它們與現有最佳路徑的關係。
3.3. Ants-Routing • Py(s, x)為從節點x傳到節點y的機率 • s為來源節點 • z為y的鄰居節點 • k為學習率 • c為產生訊息後經過的時間 • f(c)為一不遞減的函數
4. Accelerated Ants-Routing • ad hoc網路的特色是頻繁和不可預料的變動網路拓樸,所以路由表的收歛速度是一評估路由演算法的重要因素 • 演算法包含2個概念: • 機率表更新方法 • 其餘簡略的與Ants-Routing相同
4.1. No return rule • 在常規的強化路由,當Q值或機率不收斂時,下一節點將隨機選擇。 • 由於這種選擇方法,封包只是往下一相鄰節點去,對尋找理想路徑是無益的。 • 第一個想法就是當選擇下一節點時,消除“返回規則”。 • 在開始的階段,這方法對效能的改進是可以期待的,因為強化學習中,無效的規則是難以抑制的[7]。 • [7]:在動態環境下的利益分享理論
4.1. No return rule • 這想法是來消除迂迴,所以不會促成在迂迴中獲得報酬。
4.2. N step backward exploration • 在Ants-Routing,只有單一路由項會更新。 • 如果封包包含自己的路由歷史,當單一封包被接收時,可同時的更新一些路由項 • 在常規的Ants-Routing,只有一路由表項對A是更新的,更新是利用從A經由B、C送到D的單一封包 • 另一方面,對於B、C項可利用提出的方法來更新,它包含了前兩步的路由資訊。
4.2. N step backward exploration • all ∈ m • M為接收封包的節點集合
5. Experimental results5.1. Conditions of simulations • 本節中,我們呈現模擬結果來評估提出的演算法,並且跟Q-Routing和DRQ-Routing來比較 • 單一模擬週期中,一個節點會執行下列步驟之一 • 接收封包 • 轉送封包 • 產生封包(如果沒有訊息在queue,產生率為5%) • 無動作 • 如果沒有訊息在本地queue,封包產生率為5%,source與destination節點會隨機選擇。 • 在“N step backward exploration”中,N值為2或5。
5.2. Topology and dynamics of networks • 每一節點可以傳送在3個blocks以內 • 通常,在分散式架構裡,去利用本地資訊偵查封包的可達性是不可能的。 • 另一方面,我們目標是加速收斂速度,然而“封包可達性”和“路由表的收斂速度”是認定在不同架構裡。 • 相對應的,設置4個固定位置的節點以確保封包的可達性,所有節點無疑的可跟其他所有節點通訊。
5.2. Topology and dynamics of networks • 為了檢驗在動態拓樸的 環境下路由的能耐, 動員發生率MO從100%~0% • 100%代表動員發生在 每一模擬步驟, 0%代表沒有動員的發生。
6. Conclusion • 對於像ad hoc網路的動態網路拓樸,本篇提出新的適應網路路由演算法,名為accelerated Ants-Routing • 沒有返回及N步的反向探索延伸使路由表收斂達到較好的加速性 • 未來研究會比較其他強化學習的路由演算法,如AntNet[8],尤其是overhead
References • [1] Tanenbaum,A.:”Computer Networks second edition”,Prentice Hall, 1989. • [2] Justin A. Boyan and Michael L. Littman:”Packet routingin dynamically changing networks: A reinforcementlearning approach”, Advances in Neural InformationProcessing Systems, vol.6, pp 671–678, 1993. • [3] Shailesh Kumar and RistoMiikkulainen,”DualReinforcementQ-Routing: An On-line adaptive routingalgorithm”, Intelligent Engineering Systems ThroughArtificial Neural Networks (ANNIE-97, St. Louis,MO), vol.7, pp. 231-238, 1997.
References • [4] Patrick Goetz, Shailesh Kumar and RistoMiikkulainen:”On-Line Adaptation of a Signal Predistorter thoughDual Reinforcement Learning”, Proc. 13th AnnualConf. on Machine Learning, pp.175-181, 1996 • [5] Devika Subramanian, Peter Druschel and JohnnyChen: “Ants and reinforcement learning : A case study inrouting in dynamic network”, In Proceedings of InternationalJoint Conference on Artificial Intelligence(IJCAI-97), pp.832-839, 1997. • [6] J.C.H Watkins and P.Dayan: ”Q-learning”, MachineLearning Vol.8, pp.279-292,1992.
References • [7] Singo Kato and Hiroshi Matsuo: “A Theory ofprofit sharing in dynamic environment”, 6th PacificRim International Conference on Artificial Intelligence(PRICAI2000),Lecture Note in Artificial Intelligence1886. pp.115-124 (2000) • [8] Di Caro, G. and Dorigo, M. ”AntNet: DistributedStigmergeticControl for Communications Networks”,Journal of Artificial Intelligence Research, Vol. 9,pp.317-365 (1998)