數(shù)字圖書館系統(tǒng) [數(shù)字圖書館建設實踐中的智能技術應用]

發(fā)布時間:2020-03-07 來源: 人生感悟 點擊:

  [摘要]將智能技術在數(shù)字圖書館中的應用歸納為智能信息訪問、智能信息搜索、個性化信息服務、信息代理以及語義網(wǎng)和社會網(wǎng)絡應用等5個方面,重點介紹前三個方面的智能技術在數(shù)字圖書館建設中的實踐案例,給出具體應用的體系結構和關鍵技術。
  [關鍵詞]數(shù)字圖書館智能技術應用
  [分類號]G250
  
  1 引言
  
  數(shù)字圖書館智能技術,實質是智能信息技術在數(shù)字圖書館系統(tǒng)建設中的應用。所謂智能技術,是指為了有效地達到某種預期的目的,用計算機模仿人腦的功能,進行規(guī)劃、推理、學習等思維活動,解決由人腦才能處理好的復雜問題的一系列相關技術。有關智能技術的研究,如果從1956年正式提出人工智能學科算起,已經有50多年的歷史了。自美國于20世紀90年代初期提出“數(shù)字圖書館”概念開始,數(shù)字圖書館領域就十分重視智能技術在數(shù)字圖書館中的應用。例如,1994年啟動的“美國數(shù)字圖書館創(chuàng)新計劃(DLll)”就已經開始強調智能技術的應用。
  但是,從總體上看,在相當長的時間里,數(shù)字圖書館領域的智能技術主要還是處于研究階段,研究成果基本上停留在實驗室,表現(xiàn)在實驗系統(tǒng)中,投入到實際應用中的還很少。著名的圖書情報學者F.W.Lan-easter和J.Warner在他們2001年所著《圖書館與信息服務應用的中智能技術》一書中做過這樣的總結:“專家系統(tǒng)或‘智能技術’在圖書館中的應用已經在文獻中有許多探討,但是,這帶來了很多誤導。已經發(fā)展成‘運行’狀態(tài)――即在日常工作中發(fā)揮作用并向圖書館工作人員或用戶提供實際服務――的系統(tǒng)幾乎是不存在的”。Lancaster等人的結論,的確反映了上個世紀智能技術在數(shù)字圖書館實踐中應用的狀況。
  然而,進人21世紀以后,隨著數(shù)字圖書館研究的發(fā)展和實踐經驗的積累,數(shù)字圖書館中的智能技術已經開始逐漸走出實驗室,投入到實際運行的數(shù)字圖書館系統(tǒng)中,成為了當前數(shù)字圖書館技術和數(shù)字圖書館系統(tǒng)發(fā)展與建設的一種趨勢。
  本文目的不是系統(tǒng)地綜述這一領域研究進展,而是重點介紹一些實際應用案例,用應用案例來說明智能技術在數(shù)字圖書館建設實踐中應用的實際,所舉的示例都是已經投入了實際使用的公開的數(shù)字圖書館系統(tǒng),可以從所提供的網(wǎng)址進入其系統(tǒng)界面,其中有些可以從網(wǎng)上下載其完整的系統(tǒng)代碼。本文不涉及僅有文獻報道的研究及其實驗系統(tǒng)以及沒有具體公開應用的開源系統(tǒng)。
  
  2 數(shù)字圖書館建設實踐中的智能技術應用
  
  目前,從國內外數(shù)字圖書館建設和研究的實際情況來看,已經初步形成了智能信息訪問、智能信息搜索、個性化信息服務、信息代理以及語義網(wǎng)和社會網(wǎng)絡應用等數(shù)字圖書館智能技術的熱點研究領域,其中前三個領域中的研究成果,已經部分地投入實際應用。
  
  2.1智能信息訪問
  智能信息訪問(Intelligent Information Access,IlA)是指利用人類知識或類人智能,有效和充分地訪問大規(guī)模、分布式、異構和多語言(目前主要是文本)信息資源。換句話說,凡是應用人的智能進行檢索、理解、綜合或抽取信息的信息訪問技術,都被認為是智能信息訪問技術。
  
  
  2006年,歐洲的PASCAL將IIA列為專題計劃(Thematic Programme),并于2006年7月6日至8日在芬蘭首都赫爾辛基召開了國際智能信息訪問研討會(HIA-2006)。從相關的文獻及會議內容來看,HA主要包括文檔自動分類與聚類、文檔概要、信息抽取、跨語言檢索、問題應答、整合與可視化等6個子領域。
  從上述IIA的研究領域來看,研究范圍較為廣泛,其中的每一個子領域都比較多的研究成果,在數(shù)字圖書館系統(tǒng)中也有一些實際應用,這里不一一列舉,著重介紹一個比較綜合的開源項目Lemur。
  Lemur是美國卡內基梅隆大學語言技術研究所和美國馬薩諸塞大學智能信息檢索中心開發(fā)的一個開放源碼項目,其目標是促進語言建模和信息檢索方面的研究,包括特定目標檢索、分布式檢索、跨語言檢索、自動概要、信息過濾和文本分類等技術的研究。圖1顯示了Lemur的功能結構。
  從圖1中可以看出,Lemur主要由索引模塊和檢索模塊組成,同時提供簡單的用戶界面和應用程序接口,因此,Lemur不僅僅是一個獨立的系統(tǒng),而且是一個程序接口庫API,用戶可以根據(jù)自己的要求調用其索引方法和檢索方法,從而達到預定的目的。
  Lemur最大特點是支持多種語言模型,不僅支持較為傳統(tǒng)的向量空間、TF/IDF、Okapi、InQuery等模型,而且支持基于統(tǒng)計的語言模型如KL-divergence、相關度模型等。加上Lemur可以處理多種格式的文本(平面文本、HTML、XML、PDF、Microsoft Word、MicrosoftPowerPoint、TREC Text、TREC Web以及MBox)和多種語言的文本(可以處理英文、中文和阿拉伯文的文本),這使得Lemur有強大的智能處理功能以及多文本處理適應性,從而能夠完成HA領域中的大多數(shù)工作,包括常規(guī)文本檢索、段落檢索、分布式檢索(基于查詢取樣的數(shù)據(jù)源描述以及基于CORI算法的數(shù)據(jù)源選擇等)、跨語言檢索、文檔聚類、文檔概要等。
  Lemur的技術在美國國家科學、數(shù)學、工程和技術教育數(shù)字圖書館(NSDL)、美國國會圖書館的“美國記憶”(American Memory)、歐盟的“多媒體國際數(shù)字圖書館”(MIND)項目”0中均有應用。
  Lemur的代碼可以從http://www.省略/上獲得。
  
  2.2智能信息搜索
  智能信息搜索是根據(jù)用戶的意圖,在特定的網(wǎng)絡空間上應用人的智能對信息進行處理(如查詢、理解、綜合或抽取),從而發(fā)現(xiàn)、下載與用戶需求相關的信息。與普通搜索引擎相比,智能信息搜索更注重對用戶需求以及搜索內容的理解,旨在確保搜索到的內容符合用戶需求。
  除在計算機領域召開的國際學術會議中對智能搜索問題進行探討以外,2004年在德國召開的“第七屆比勒費爾德國際會議”專門舉辦了題為“數(shù)字圖書館與信息門戶中智能搜索引擎及導航技術”的專題研討會。概括地說,智能信息搜索的主要研究內容包括資源理解技術、查詢理解技術、用戶需求理解技術以及智能搜索策略等幾個方面。
  加州大學圖書館開發(fā)的Nalanda iVia FocusedCrawler(NiFC),是一個面向主題(專題)的智能搜索系統(tǒng),它可以根據(jù)圖書館工作人員指定的主題樣例(即種子站點或種子URL)自動發(fā)現(xiàn)Web上的主題相關信息,圖2顯示了NiFC的結構:
  從圖2中可以看出,NiFC使用了兩種類型的分類器;一種是學習模式的分類器,它利用NiFC存儲在系統(tǒng)“分類表”中的內置分類體系以及存儲在“樣例表”的URL指定的種子站點進行學習,建立Web文檔的分 類模型,爬行器進而據(jù)此判斷采集到的文檔是否屬于預定的主題,從而確定應該采集回來那些文檔;另一種分類器是過濾模式的分類器,它的功能是分析采集回來的Web文檔中的鏈接與采集要求的相關性,根據(jù)網(wǎng)頁鏈接與預定主題的相關度來維護一個鏈接優(yōu)先級隊列,確保與預定主題相關度大的鏈接能夠被先訪問。NiFC的另一項特色技術是鏈接分析技術,采用了HITS和PageRank相結合的算法來提高爬行效率。此外,NiFC還提供了一個用戶界面,允許用戶根據(jù)當前的采集結果調整相應的類別和樣例,以便更好地訓練分類器,使之建立的分類模型更加符合用戶的需求,這實質是一個用戶的反饋過程。
  NiFC是加州大學圖書館開發(fā)的開源系統(tǒng)iVia的四個組成部分之一(另外三個組成部分分別是iVia虛擬圖書館軟件、DataFountains以及iVia c++接口庫)。加州大學圖書館的INFOMINE系統(tǒng)則是利用iVia構建起來的Internet資源的虛擬圖書館,該系統(tǒng)面向大學教師、學生和研究人員服務,資源類型包括網(wǎng)絡上的數(shù)據(jù)庫、電子期刊、電子圖書、公告、郵件列表、圖書館聯(lián)機目錄、網(wǎng)絡文章、研究人員人名錄以及其他類型的信息資源。INFOMINE系統(tǒng)的特點之一是利用NiFC來自動地爬行和識別相關的Internet資源。
  iVia的源碼可以從http://ivia.ucr.edu/中獲得。
  
  2.3個性化服務
  個性化服務是指以用戶為中心,根據(jù)用戶提出的明確要求,或基于用戶的學科、偏好、興趣等個人特征,通過用戶定制、系統(tǒng)推薦和推送等方式,主動向用戶提供其可能需要的信息和服務。
  個性化服務的思想來源于電子商務領域,隨著數(shù)字圖書館的發(fā)展,個性化服務的概念被引入到圖書情報領域,并得到了廣泛的重視,2007年DELOS的第10屆專題研討會的主題就是“數(shù)字圖書館中的個性化訪問、模型管理和環(huán)境感知”?傮w上說,目前數(shù)字圖書館個性化服務技術的主要研究內容為用戶建模、用戶信息收集、信息推送等三個大的方面。
  意大利烏迪內大學開發(fā)的個性化服務系統(tǒng)Bib-lioMed,綜合運用了上述用戶建模技術、用戶信息收集技術以及信息推送技術,是一個已經投入實際使用的數(shù)字圖書館個性化服務系統(tǒng)。該系統(tǒng)可以提供的資源包括醫(yī)學數(shù)據(jù)庫(如PubMed等)、聯(lián)機醫(yī)學期刊、網(wǎng)上書店資源(如Amazon等)、烏迪內大學及相關機構的圖書館目錄、醫(yī)學網(wǎng)絡資源門戶以及醫(yī)學論壇、博客、名錄等。圖3顯示了BiblioMed系統(tǒng)的結構:
  在BiblioMed中,允許最終用戶以文檔片段的方式提交自己感興趣的信息,例如用戶可以將其感興趣的文章作為樣本,提交給系統(tǒng)。ifMONITOR模塊用語詞共現(xiàn)技術對用戶提交的樣本文檔進行分析,形成由共現(xiàn)詞對來表達的用戶興趣模型。當元搜索模塊和期刊搜索模塊發(fā)現(xiàn)有新的文獻時,iIMONITOR模塊對新文獻進行處理,得到基于語詞共現(xiàn)的文檔內容表示,并將這種文檔內容表示與已有的用戶模型做匹配,將匹配結果大于一定閾值的文獻作為符合用戶需求的文獻主動推送給用戶。
  BiblioMed系統(tǒng)于2006年開發(fā)完成,部署在烏迪內大學圖書館和烏迪內醫(yī)院,當年即有l(wèi) 250名注冊用戶,平均每天的信息推送服務超過了70名用戶。目前BiblioMed系統(tǒng)還在不斷地進行改進,根據(jù)用戶的反饋,提升系統(tǒng)的性能并增加服務項目和服務方式。
  4 結語
  
  正如本文開始所說的那樣,自從數(shù)字圖書館這個概念出現(xiàn)的那一天開始,研究人員就一直試圖引入智能化技術,以提高數(shù)字圖書館的服務性能,因而,這方面的研究成果很多,發(fā)表的文章無數(shù),也有很多實驗性的系統(tǒng)。本文所舉的實例可能不是眾多研究中最好的,但它們卻是實實在在投入實用的系統(tǒng),能夠真實地反映智能技術在當前數(shù)字圖書館建設中的應用現(xiàn)狀?梢灶A見,隨著研究人員對現(xiàn)有研究成果的總結和提煉,在不久的將來,數(shù)字圖書館的智能化水平將會被提升到一個新的高度。

相關熱詞搜索:數(shù)字圖書館 智能 建設 數(shù)字圖書館建設實踐中的智能技術應用 人工智能技術應用于數(shù)字展廳設計 人工智能與設計

版權所有 蒲公英文摘 m.serialtips.com
谁有黄色毛片黄色网站,天天操美女的逼干,美女131湿影院,完美伴侣电视剧