五月激情天,日一区二区三区,国产福利在线永久视频,2020国产成人精品视频网站,国产网站在线免费观看,善良的嫂子3在线观看

樹人論文網一個專業的學術咨詢網站!!!
樹人論文網

CERNET分布式中英文WWW信息發現系統設計刊發論文

來源: 樹人論文網發表時間:2014-12-13
簡要:摘要:本文首先介紹了Internet及WWW的迅速發展狀況,隨后分析了Internet信息資源的特點,并說明了Internet不但是信息的源泉同時也是信息的迷宮,必須有信息發現工具協助用戶定位所需信

  摘要:本文首先介紹了Internet及WWW的迅速發展狀況,隨后分析了Internet信息資源的特點,并說明了Internet不但是信息的源泉同時也是信息的迷宮,必須有信息發現工具協助用戶定位所需信息,為了適應Internet的規模,變化性以及自治性等特點,文中介紹了在廣域網絡環境下設計分布式應用的若干技術和應引起重視的問題。例如:增加應用的容錯性,適應Internet自治性,控制分布操作以及廣域環境下數據一致性問題等。接著分析了Internet IRTF信息發現研究課題組研制的分布式信息發現系統Harvest,說明了Harvest中許多值得利用和借鑒的技術以及幾個影響推廣使用的問題。

  關鍵詞: 資源信息發現、 WWW、 搜索引擎

  一、Internet 的發展

  Internet是一個由各種不同類型和規模的獨立運行和管理的計算機網絡組成的全球范圍的計算機網絡。它的前身是60年代末,70年代初美國國防部高級研究計劃署的實驗性網絡ARPANET。1983年后,ARPANET中有關軍事的部分被隔離為MILNET。其后,1986年誕生的美國國家科學基金會NSFNET對Internet的發展起了劃時代的作用。

  90年代初到現在,是Internet增長最迅速的時期,加入Internet的人員、計算機和網絡的數量以指數方式增長,Internet上的網絡從1985年的100個左右,迅速發展到1992年的5000多個。截止1996年7月,Internet已連接了134346個網絡,入網主機1228萬臺,以及數以億計的用戶。

  二、Internet信息資源的特點

  隨著各個國家和組織的網絡不斷加入,Internet成為一個規模巨大、自治性強、發展變化快,用戶訪問頻繁的國際互聯網絡。Internet上的信息資源隨著Internet的發展也呈現了以下特點:

  ·信息量大而且分散:目前,網上有幾千個匿名FTP服務器分布在網上的不同區域,為用戶提供了數以百萬計的文件資料。我們將在后面提到的WWW技術給每個用戶展現自己的機會,這又構成了另一個廣闊的信息空間。可以說,Internet是世界范圍內的信息量最大的圖書館,為人們提供了豐富的信息資源。

  ·自治性強:作為廣域互連的Internet不是也不可能是由一個國家或組織單獨管理的。提供何種服務,如何提供,使用何種技術都是由每個接入Internet的組織自己作主。在這種廣域網的環境下,要達成廣泛的一致意見往往比較困難。

  ·信息資源多種多樣: 用戶可以通過Internet上的多種服務獲得信息,如FTP,Gopher,Archie,WAIS等等,這些信息資源無論從內容還是形式都呈現出多樣異構的特點。

  ·信息變化快:首先,隨著Internet的增加,新的信息不斷涌現,其次,現有的信息也在不斷變化。最典型的當屬“News”服務,其以GB為單位的信息隔幾天就要更新一次。

  ·不一致性和不完整性。例如,一個人的信息可以在個人WWW主頁,X.500目錄服務等多個信息源中出現,當信息發生改變時,在這些信息源中改動的次序和改動是否完整都會影響信息的一致性和完整性。

  信息發現系統的一個重要目標就是提供給用戶一個有組織的一致的信息視圖,在設計系統時,我們應當考慮到Internet上信息的特點。

  三、WWW的特點及其迅速發展

  WWW(World Wide Web)是九十年代初Internet上的全球性的網絡信息系統。超文本和超媒體是WWW使用的關鍵技術。它使文本、圖象、音頻和視頻等信息有機地結合起來,提供了豐富的信息表示能力。用戶可以用友好、方便多樣的界面存取信息,成為人們發布和共享信息的重要工具。越來越多的公司通過自己的主頁展示推銷自己;越來越多的大學、科研機構也通過網頁來交流研究成果;越來越多的個人也擁有了自己的主頁,所有這些都導致WWW信息迅速膨脹。在1993年下半年,WWW在不到三個月的時間里翻了一翻,即使現在WWW也以每六個月一翻的速度增長。1995年4月,WWW在網上的流量超過了Internet上其它服務的流量,并一直穩居首位。據不完全統計,1996年初,網上大約有1900萬網頁,到現在WWW上的網頁數決不會低于2億。

  四、信息發現服務的迫切性

  作為一個無窮無盡的信息源泉,Internet為人們提供了巨大的并且還在不斷增長的信息資源和服務,Internet上各種各樣的信息源源不斷地流向人們。然而在你尋找所需的信息時,Internet又象是一個信息的迷宮,讓人感覺無所適從,不知如何迅速定位自己真正需要的信息,僅依靠超文本鏈在迷宮中漫游,多半會徒勞無功。所以,人們迫切希望有信息發現工具為他們在WWW上搜尋信息提供導航。

  五、Internet信息發現技術的發展狀況

  (一)已有信息發現系統的回顧

  隨著Internet發展,Internet上的信息發現服務和工具也逐漸發展起來。比較典型的有Archie,WAIS, Gopher,X.500等,另外,還有眾多的“搜索引擎”(Search Engine),如Excite,Infoseek,Alta Vista。

  1、Archie實際上是一個大型的數據庫,和與這個數據庫相關的一套檢索方法。Archie數據庫存有通過FTP獲取的資源信息,包括這些資源的文件名、文件長度、存放該文件的主機名及目錄。目前,Archie數據庫已存入了大約1200個 FTP服務器、250萬個文件的資料。Internet上有三十幾個Archie服務器,查詢 FTP的任務分布在各個服務器,它們之間通過執行基于擴散(flooding_based)的一致性保持協議,來保證信息的一致性。Archie的開發者把它描述為資源發現和信息獲取的低端技術(low_tech)方案。Archie的成功要歸結于它的簡單性和對已有機制的利用。Archie有點類似于圖書館中的檢索卡片。當你去圖書館查閱書籍時,如果你不知道你要尋找的書放于哪一個館區的哪一個書架,那么,你通常不會挨個書架去找,而是會先查閱圖書檢索卡片。Archie也一樣,如果你不知道您要拷貝的文件放在哪一臺FTP 服務器中,你根本不可能挨個FTP服務器去查找,通過Archie,你可以根據文件名比較方便地找到文件存貯的位置。不過,Archie沒有針對文件的簡要說明,僅通過文件名進行索引,利用Archie檢索時,你必須事先知道文件名或文件名的某些部份。Archie 還有另外一個不足的地方,就是它收集的資料還不全面。由于是否把 FTP服務器的資料放入Archie完全取決于自愿原則,錯漏或更新不及時的情況就難以避免。

  2、Gopher 與Archie一樣,在最初的時候也是為解決查找FTP文件的難題而被研制和開發的。Archie提供了一種根據文件名查找FTP文件的方法,Gopher則提供一種通過文件類別去查找文件的途徑。

  Gopher系統最早由Minnesota大學的一群計算機人員開發,按他們的構想,每個信息源的擁有者應為自己的資源建立一個分類目錄。 分類目錄按一定的層次結構進行組織,并被放入Gopher 服務器中供用戶檢索。用戶是通過一個稱為Gopher 客戶軟件的程序以菜單的方式查閱該目錄,直到找到所需要的信息為止。Gopher服務器的另一個功能是服務器之間的互聯性,通過一個Gopher 服務器,你可進入另一個Gopher服務器,直接獲得該服務器中列出的資源。這樣,只要進入任何一個Gopher服務器,您就可以在不同的Gopher 服務器之間漫游,方便地檢索和拷貝已建立Gopher目錄的任何一臺計算機中的信息。

  不過,隨著 Gopher 服務器的增多,其目錄系統變得越來越復雜,以每個Gopher 服務器有一百條子目錄計,1000個服務器就有十萬條目錄,這樣,光是察看目錄系統就會占用大量的時間,而且難以找到你所需要的目錄,于是,一些幫助用戶更好地在Gopher 空間中漫游的工具不斷地被開發出來,例如,通過一種稱為Veronica 服務,你可以通過輸入目錄的名稱直接進入某個目錄,省去了逐級調用目錄菜單以及查找所需目錄的麻煩。

  3、WAIS 是“Wide area information servers” (廣域信息服務) 的縮寫。WAIS與Archie,Gopher類似,提供了一種檢索Internet資源的方法。Archie通過文件名進行檢索,Gopher通過文件類別進行檢索,WAIS則按關鍵字對文件進行全文檢索。WAIS是一種基于客戶/服務器結構的軟件系統。在服務器端,管理員建立一個文件索引數據庫。與Archie數據庫一樣,該數據庫包括文件的名稱及查找路徑,比Archie數據庫更進一步的是,該數據庫還包括文件內容的全文索引。這樣,用戶不但可以通過文件名,而且可以通過關鍵字去檢索文件內容。在用戶端,用戶只需要輸入某些關鍵字,WAIS服務器就會自動查找出現該關鍵字頻率最高的文件,并根據這個頻率按一定的加權方法計算文件與關鍵字的“關聯值” ,選中的文件將依據“關聯值”進行排列,“關聯值”最大的文件目錄排在最前面。

  WAIS系統雖面世不久,但已在Internet上得到廣泛應用。由于WAIS服務器已相當多,人們建立了一個稱為“Directory of servers”的專門收集 WAIS服務器資料的數據庫,這個數據庫本身也采用了WAIS系統。當用戶需要查找某一文件,而又不清楚該文件會放在哪一個WAIS 服務器時, 就可以采用二級查找方法: 先通過“Directory of servers”確定哪些WAIS服務器可能包含要查找的文件,然后在選中的WAIS服務器中進行二級查找。

  4、 X.500是CCITT和ISO在目錄服務領域標準化努力的結果。與DNS不同的是X.500的條目由一組屬性與值的對構成,它可以接受基于屬性的查詢。X.500的名字空間被組織成層次結構分布于多個服務器上。這個全球名字空間的各部分的管理權被委派給了不同的自治的組織,這些組織又可以將此子樹進一步分派管理權。部分X.500的名字空間通過指定主從服務器的簡單復制機制復制到不同的服務器。

  5、隨著WWW的迅速發展,Internet上出現了WWW信息查詢服務,它們通常被稱作搜索引擎。目前網上比較有名的搜索引擎有Yahoo!,Alta Vista,Excite,Infoseek,Lycos等。這些搜索引擎一般是預先由程序自動地在網上遞歸地訪問WWW頁面,將訪問的信息存入數據庫。然后將數據庫中的信息建立索引,并提供給用戶WWW的查詢界面。搜索引擎根據用戶的請求查詢數據庫,并將結果按相關程度排序后輸出給用戶。這樣用戶可以很方便地定位所需資源。值得一提的是Yahoo!,它更應被稱之為WWW的主題分類目錄。它在人工的參與下將WWW信息作了較好的分類,用戶可以直接沿著分類目錄找到網頁。搜索引擎的出現給用戶帶來了極大方便,吸引了大批用戶。下圖顯示了1998年3月訪問各個搜索引擎用戶數目的估計。

  近來隨著搜索引擎的不斷增多,網上又出現了“Meta-search Engine”[14]或者“Search Broker”。它本身并不收集和存儲任何數據,只是代理用戶同時向多個搜索引擎提交查詢,將各個搜索引擎的查詢結果通過一定的策略規整后返回給用戶。目前,這個領域也在不斷發展之中。

  (二)信息發現服務的分類及技術

  Internet上的信息發現模式可以分為兩類:一類是基于數據組織提供用戶瀏覽。數據組織是指人工參與下的如何使信息相關聯的過程,通常是將數據排序和組織成有向圖。如FTP文件系統中的層次目錄,Gopher中的菜單條目等。用戶可以使用相應的瀏覽工具來瀏覽和搜索資源空間。這種方法的有效性依賴于如何有效地組織數據空間,Internet上數據量如此之大,保持一個良好的數據組織是非常困難的。另外,由于不同的用戶有不同的需求,何種數據有用,如何有效地組織等,都是很難確定的。

  另一類信息發現系統是基于搜索的。一般是用戶提供有關資源的描述,由信息發現系統自動定位。這種方法能較好的適應數據的增長,應用也越來越普遍。

  從系統實現來看,基于搜索的信息發現又可以分為兩類:一類是基于服務器的搜索工具,另一類是基于客戶機的搜索工具。

  基于服務器的搜索工具由軟件自動地在網上發現資源,把搜索的結果保存必要的信息,并建立索引供用戶查詢。一般,這類系統可以分為收集和檢索兩個子系統。收集子系統以一定的策略引導信息的發現并處理信息的更新,檢索子系統則負責使用戶能快速有效地利用收集到的信息,其特點是提供服務,被動地接受用戶查詢。

  基于客戶機的搜索工具是由客戶方按照用戶事先定義的信息檢索要求,在發現滿足要求的信息或指定的信息發生改變時主動通知用戶。用戶無需反復搜索所需信息,減少了用戶檢索信息的時間。但往往由于客戶機能力的限制,對于龐大的Internet只能搜尋極少的部分,而且速度較慢,如果許多用戶使用,則對網絡資源消耗比較大。

  隨著Internet網上的數據量呈指數增長,為了達到適當的性能要求,信息發現服務以及它們的數據必須在成百上千個網絡上加以復制。以Internet的News系統為例,News管理的是高度動態(用戶可以隨時向News發消息),弱一致性,(一個用戶的文章在一段時間后才能被其它用戶響應),數據量大(可以達到千兆字節)的數據,然而由于News有數千個副本服務器,對用戶查詢的響應時間卻在幾秒之內。與此形成對比的是Archie服務,Archie管理的數據要少得多(150MB),響應時間卻可能會長達15分鐘。這是因為Archie在Internet上只有30多個副本。所以采用分布式系統中的多副本技術、分布協同技術[1]是建立一個擴展性強、可用性高、響應時間合理并具有良好的信息定位能力的信息發現系統的重要技術傾向。

  小編推薦優秀電子期刊 《網絡安全技術與應用》網絡技術期刊征稿

  期刊信息:《網絡安全技術與應用》雜志成立于2003年,先由中華人民共和國公安部主管、中國人民公安大學出版社主辦。從2009年起,本刊改由中華人民教育部主管,北京大學出版社主辦,是國內網絡安全技術與應用領域行業指導性科技月刊,國內外公開發行。本刊系“三高兩強”刊物,即信息量高、學術水平高、技術含量高;專業性強、應用性強。

主站蜘蛛池模板: 青春草在线视频免费 | 伊人久久国产精品 | 免费观看美女视频的网站 | 久久久久99| 日韩精品视频在线观看免费 | 久久精品人人爽人人爽快 | 嫩草影视在线观看 | 日本不卡一区二区三区四区 | 四虎影视大全免费入口 | 天天摸天天操天天爽 | 久久久久久久综合日本亚洲 | 狠狠干综合 | 国产视频首页 | 成人国产精品免费网站 | 免费在线观看网址 | 午夜精品一区二区三区免费视频 | 高清中国一级毛片免费 | 久久永久影院免费 | 成人国产精品视频频 | 婷婷资源综合 | 久久久无码精品亚洲日韩按摩 | 久久综合免费视频 | 99热网址 | 精品一区二区三区视频日产 | 狠狠久久久久综合网 | 五月天婷婷免费观看视频在线 | www大片| 久久免费国产精品一区二区 | 亚洲国产免费 | 男女www视频 | 五月天情网 | 黄网站色视频免费观看 | 99久久精品国产一区二区成人 | 久久久久久免费观看 | 精品综合一区二区三区 | 精品精品 | 九九九热在线精品免费全部 | 欧美精品亚洲精品日韩经典 | 黄视频网站在线免费观看 | 欧美综合区自拍亚洲综合天堂 | 日本国产高清色www视频在线 |