摘 要: 針對網格資源調用的特點,從提高系統的時間性能、安全性能和自適應性能方面分別提出并實現了動態鏈接表技術、身份鑒別技術、散列化處理技術" title="散列化處理技術">散列化處理技術和自適應技術" title="自適應技術">自適應技術。
關鍵詞: 網格 動態鏈接表 身份鑒別 散列化 自適應機制
隨著網絡技術的不斷發展,以Internet為基礎的新技術——網格(Grid)有了長足的進步。在網格資源調用中,時間性能、安全性能和穩定性能是衡量網格功能的重要指標,相關技術已經成為網格研究的重要課題。本文分別從這三個方面出發,對動態鏈接表技術、身份鑒別技術、散列化處理技術和自適應技術做了較深入的研究并進行了仿真實驗。這些技術對網格資源調用起到很好的支撐作用。
1 網格資源調用中必須考慮的問題
從需求角度看,網格資源調用具有以下特點:
(1)資源搜索速度快。網格資源中,有很大一部分駐留于大型資源庫,而在大型資源庫中,對共享資源進行搜索的時間開銷直接影響時間性能。所以,提高搜索速度對于提高網格資源調用的時間性能至關重要。
(2)信息傳輸" title="信息傳輸">信息傳輸安全性高。網格資源調用時,信息通過Internet進行傳輸,傳輸的安全性是至關重要的。這里的安全性包括數據的完整性,以及數據接收者的合法性。為此,需要有效的安全協議予以保證。
(3)資源傳輸過程的持續性和穩定性。因為物理網絡存在帶寬有限、延遲大、傳輸狀態可變以及穩定性差等缺點,所以需要在信息傳輸過程中,面對網格傳輸狀態的變化自動做出相應調整,即具有很好的自適應性。
2 網格資源調用中支撐技術的研究與實現
2.1 動態鏈接表
隨著網格規模的發展,不斷地有更多的客戶機加入網格,并提供更加豐富的資源,從而,在數據網格和信息網格中,也會有更大量的文件被共享。這樣,當網格在線客戶機通過資源管理器搜索網格資源時,其搜索范圍將會隨著共享文件的增多而變得越來越大。實驗表明:當資源中的文件搜索范圍在104或者更高的數量級時,其搜索速度明顯變慢。
在網格發展初期,這種搜索可能不會造成明顯的負擔,可是,隨著網格規模的不斷擴大,勢必使網格的負擔日益加重。具體表現在網格資源調用的時間開銷大大增加,甚至不堪承受。
動態鏈接表技術的設計思想是:根據文件資源的調用情況以鏈接表方式建立一種數據結構,鏈接表本身根據資源使用情況實時、動態地交互更新。鏈接表中統計的資源是近期某個時間到當前時間段內,共享資源中被搜索或被共享次數較多的文件。資源使用者在對網格資源進行調用時,先在動態鏈接表中進行搜索。如果搜索命中,則資源使用者可以直接調用資源;如果沒有命中,則退出動態鏈接表,再對資源直接進行搜索。
圖1是動態鏈接表技術相應的工作流程圖。
因為動態鏈接表中的搜索范圍相對于資源的直接搜索范圍要小得多,所以,在資源很龐大的情況下,即使鏈接表不能命中,對鏈接表檢索的時間開銷也幾乎可忽略不計。圖2是動態鏈接表在搜索命中的情況下,其搜索時間開銷與對資源直接搜索的時間開銷的對比圖。
圖2中,實線表示直接對資源搜索并命中的時間與文件數目的關系,虛線表示用動態鏈接表搜索資源并命中的時間與文件數目的關系。可以看出,隨著文件數目的增多,直接對資源搜索并命中的搜索時間開銷近似為一個線性遞增函數,而采用動態鏈接表搜索的時間開銷很小,而且幾乎呈水平直線,與資源中的文件數目無關。
實驗表明:客戶機對資源的搜索情況呈正態分布,利用動態鏈接表中搜索命中的概率約為30%。表1列出了網格資源調用中加入動態鏈接表技術以后關于時間性能的測試結果。
表1第2列表示直接對資源搜索并命中目標所用的時間開銷的平均值,第3列表示客戶機在動態鏈接表中搜索所用的時間開銷的平均值。
從表1可看出:當資源中的文件在2000~11000范圍時,由于通過動態鏈接表而造成系統時間性能少量下降;但是,在文件達到15000個時,由于動態鏈接表而造成的負面作用消失;隨著資源中文件的不斷增加,動態鏈接表對網格資源搜索的時間性能提高越來越顯著。
由此可見,如果資源中的文件數少,則不宜用動態鏈接表,而當資源中的文件達到一定數量時,使用動態鏈接表可有效地提高網格資源調用的時間性能。在實際編程中,安排了程序段先判斷資源中的文件數量,然后據此決定是否啟動動態鏈接表機制。
由于龐大的網格系統" title="網格系統">網格系統中存在無數的大型資源,因此,動態鏈接表技術將從總體上有效提高網格資源調用的時間性能。
2.2 身份鑒別和散列化處理技術
在數據網格和信息網格中,資源的調用體現在對數據資源和信息資源的在線瀏覽或下載等操作上,其中涉及信息在網格中的傳輸問題。
盡管網格資源具有不必探求其來源的特點,不必對資源的來源進行判斷,但是在網格中傳輸信息時,仍然特別需要保證通信安全。這體現在:在傳輸過程中,要防止出現數據丟失或數據被他人截獲后篡改;此外,對于調用網格資源的客戶機,需要對其調用資格進行審定,再決定是否授權其進行資源調用。
身份鑒別和散列化處理技術可以有效地解決上述問題。其設計思想分兩層實現。第一層是資源管理器在檢測到客戶機有資源調用請求后,對客戶機進行身份鑒別,依照鑒別結果向客戶機發送資源調用證書,并接收反饋信息,據此判斷該客戶機是否有網格資源調用資格;第二層是通過散列化處理對所傳輸數據的完整性進行安全校驗。
客戶機一旦登錄并向資源管理器發送資源調用請求,資源管理器就會生成一個資源調用證書。生成資源調用證書的過程,實際上是一個對資源調用者身份鑒別和確認的過程。如果是,則發出證書,相當于實現對資源調用者的授權。證書中包括資源調用者的身份信息和資源本身的相關信息。
同時,資源管理器周期性地生成隨機數組,并在每一個周期起點時刻,向已被授權的資源調用者和被調用者發送隨機數組。例如,在周期n的起點時刻,發送隨機數組arrayA,在周期n+1的起點時刻,發送隨機數組arrayB……所有的隨機數組都是不相同的。
一個具體的身份鑒別工作流程如下:在線客戶機A通過網格系統準備調用資源S,于是先向資源管理器發送資源調用請求。資源管理器內部有關于S的路徑信息,并確定S位于在線客戶機B。資源管理者在得到A的申請后,對A進行審核,向A發送資源調用證書和隨機數組。同時,資源管理器還向B發送資源要被調用的信息和隨機數組。
A和B同時反饋隨機數組到資源管理器,資源管理器通過對來自A和B的隨機數組對比作判斷,據此真正授權A可進行網格資源的調用。這種方法通過較復雜的確認資源調用者的身份,可以有效地保證網格資源的安全性。
當網格系統對客戶機授予資源調用資格后,就開始資源調用過程。資源調用過程中要求保證傳輸數據的安全性。為此,資源所有者同時發送數據資源和附加的散列。客戶機收到數據資源和附加的散列后,首先對數據資源進行散列化處理。散列化處理用SHA1算法實現,結果為160位的信息摘要。然后進行散列比較,即將用SHA1算法獲得的散列與附加的散列作比較,如比較結果相同,則說明數據完整;否則,說明數據在傳輸過程中有部分丟失或者在被他人截獲后進行了篡改。
由上可見,附加的散列和散列化處理過程確保了數據傳輸的安全。圖3是身份鑒別和散列化處理過程的流程圖。
身份鑒別和散列化處理技術用于網格系統的資源調用,能有效地保證網格資源的安全性和信息傳輸的完整性。
2.3 自適應機制
物理網絡的傳輸狀態總是隨著用戶使用情況而不斷變化的,所以,存在隨機性大和穩定性差的缺點,這會給網格大數據量的實時傳輸要求帶來很大影響。自適應技術將使這種影響降到最低程度。
自適應技術的設計思想是:讓系統自動檢測當前的網絡狀態,并對網絡狀態的變化做出反應,通過調整發送策略,即基于負反饋的平衡控制策略來適應網絡的變化,從而使系統既充分又合理地利用信道進行數據傳輸。
理想的情況是:在不造成信道堵塞的前提下,發送端充分利用信道帶寬發送數據。
設Ms表示發送端發送數據的速率(字節/秒),ω為網絡帶寬(字節/秒)。如果Ms<<ω,則發送端不能充分利用網絡帶寬;如果Ms>>ω,則發送端發送的只有一部分能被接收,多余的部分將造成網絡的擁塞。
所以應使Ms≈ω,即發送端發送信息的速率約等于帶寬。
對于接收端" title="接收端">接收端,有:
Mr為接收端接收數據的速率(字節/秒)。
由于ω是會變化的,為了滿足Ms≈ω的條件,系統要檢測ω的變化情況并使Ms對其變化做出反應。為此,可以每隔特定時間執行以下步驟:
(1)增加Ms,如果Mr不隨Ms增加則恢復為原來Ms的值;反之則表明ω增加了,繼續增加Ms,當Mr不隨Ms繼續增長時,設置Ms為現在的Mr。
(2)ω的減小會導致Mr的減小,可通過接收端的包間間隔來檢測。在每次Ms改變后開始一次檢測周期T,記發送端和接收方包間隔時間差的累積度量為E,于是:
預先設定一個閾值D,每傳輸一包就計算一次的值,當滿足E>D時,即檢測到帶寬減小時,將Ms設置成該檢測周期Mr的平均值,然后開始下一個檢測周期。
這樣,當網絡帶寬不穩定時,可以根據網絡帶寬的變化動態調節發送速率策略。這種基于負反饋的平衡控制策略,使網格在進行資源調用時,可以有效、充分地利用網絡帶寬,提高效率。
針對網格資源調用的需求特點,動態鏈接表技術能夠有效地加快資源搜索速度,提高系統的時間性能;身份鑒別技術和散列化處理技術保證了信息傳輸的安全性;自適應技術則提高了資源調用傳輸的穩定性,并且可以充分地利用信道帶寬。仿真實驗證明:這些技術能夠對網格資源調用的性能改善提供很好的支撐作用。
參考文獻
1 Gabrielle Allen,Edward Seidel,John Shalf.Scientific Computing on the Grid, Byte, Spring. 2002
2 Borja Sotomayor.The Globus Toolkit 3 Programmer′s Tutorial. 2004.03
3 Fran Berman,Geoffrey Fox,Tony Hey.Grid Computing:Making the Global Infrastructure a Reality.Wiley Publishing Company.2003.3
4 Ian Foster,Carl Kesselman. The Grid: Blueprint for a New Computing Infrastructure.2003.2
5 http://www.globus.org
6 http://www.chinagrid.net