系統架構師

當前位置 /首頁/職業師/系統架構師/列表

圖書檢索系統體系架構研究

圖書檢索系統可以歸納為索引子系統、檢索子系統、資源匹配子系統和資源子系統四大部分,每一個子系統在整個系統中都有著不可忽視的作用,各個子系統之間統籌合作完成圖書資訊的檢索工作。 下面yjbys小編為大家準備了圖書檢索系統體系架構的文章,歡迎閱讀。

圖書檢索系統體系架構研究

  1 圖書資訊檢索系統評價指標

資訊檢索評價是對資訊檢索系統效能(主要滿足使用者資訊需求的能力)進行評估的活動。通過評估可以評價不同技術的優劣,不同因素對系統的影響,從而促進本領域研究水平的不斷提高。資訊檢索系統的目標是在較少消耗的情況下儘快、全面返回準確的結果。根據aster的闡述,判定一個檢索系統的優劣,主要從質量、費用和時間三方面來衡量。因此,對計算機資訊檢索的效果評價也應該從這三個方面進行。本文主要研究資訊檢索系統的質量標準,質量標準主要通過查全率與查準率進行評價。

查全率和查準率是判定檢索效果的主要標準,而後兩者相對來說要次要些。

查全率是指系統在進行某一檢索時,檢出的相關文獻量與系統文獻庫中相關文獻總量的比率,它反映該系統文獻庫中實有的相關文獻量在多大程度上被檢索出來。

查全率=[檢出相關文獻量/文獻庫內相關文獻總量]×100% (1)

查準率是指系統在進行某一檢索時,檢出的相關文獻量與檢出文獻總量的比率,它反映每次從該系統文獻庫中實際檢出的全部文獻中有多少是相關的。

查準率=[檢出相關文獻量/檢出文獻總量]×100% (2)

查全率與查準率是評價檢索效果的兩項重要指標。查全率和查準率與文獻的儲存與資訊檢索兩個方面是直接相關的,也就是說,與系統的收錄範圍、索引語言、標引工作和檢索工作等有著非常密切的關係。

影響查全率的因素:從文獻儲存來看,主要有:文獻庫收錄文獻不全;索引詞彙缺乏控制和專指性;詞表結構不完整;詞間關係模糊或不正確;標引不詳;標引前後不一致;標引人員遺漏了原文的'重要概念或用詞不當等。此外,從情報檢索來看,主要有:檢索策略過於簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索人員業務不熟練和缺乏耐心;檢索系統不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等。

影響查準率的因素:主要有:索引詞不能準確描述文獻主題和檢索要求;組配規則不嚴密;選詞及詞間關係不正確;標引過於詳盡;組配錯誤;檢索時所用檢索詞(或檢索式)專指度不夠,檢索麵寬於檢索要求;檢索系統不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數量有限;截詞部位不當,檢索式中使用邏輯“或”不當等等。

  2 資訊檢索系統體系架構

一個完整的圖書資訊檢索系統應當包括圖書資訊的預處理,圖書資訊的入庫、使用者檢索介面、資源匹配、資源排序等部分,本文主要就以下幾個部分進行闡述。

2.1 索引子系統

索引子系統主要完成的工作是對圖書資訊的入庫工作,圖書館中資訊資源具有完整的資源名,然而使用者在搜尋時是通過輸入關鍵字來發現類似的資源,因此需要對資訊資源進行預處理。主要通過對資訊資源名構建倒排索引,通過建立關鍵詞和資訊資源名之間的鄰接矩陣,如此則完成資訊資源和關鍵詞之間的關聯性,使用者可以通過關鍵詞發現自身需要的相關聯文件。

2.2 查詢子系統

查詢子系統主要提供給使用者查詢介面,使用者通過輸入檢索關鍵詞,查詢子系統需要對使用者的檢索關鍵詞進行分析,可能使用者輸入的關鍵詞並非規範的形式,可能還存在著錯誤資訊,或者是以字母形式輸入,或者是以英文或者其它方式輸入,查詢子系統需要對輸入的檢索關鍵詞進行消歧工作。

2.3 資源匹配子系統

資源匹配子系統主要根據使用者的檢索關鍵詞在圖書館資料庫資源中進行資源匹配,尋找和使用者相關聯的資源,資源匹配的方式有很多種,諸如採用完全匹配方式(即使用者輸入的關鍵詞和資料庫中資源完成匹配)、部分匹配方式(使用者輸入的關鍵詞中部分資訊和資料庫中資訊匹配成功)、語義匹配方式(使用者輸入的關鍵詞與資料庫中資源存在語義上的關聯性)。

2.4 資源排序子系統

資源排序子系統主要根據使用者的檢索關鍵詞對匹配完成的資源資訊進行排序,按照資源的重要性和使用者檢索的相關聯程度進行梯度排序,排序的原則有多種方式,諸如餘弦相似度,向量相似度,Jaccard相似度,Dice相似度等多種方式,有些排序子系統根據現今流行的搜尋引擎頁面排序演算法進行改進,並將改進的排序演算法移植於圖書資訊檢索系統中。