什麼都不會 慢慢研究中
●全文檢索(full-text search):
從文本或數據庫中,不限定資料字段,自由地萃取出訊息的技術。
●搜索引擎(search engine):
執行全文檢索任務的程序,一般稱作搜索引擎(search engine),它將使用者隨意輸入的文字,試圖從數據庫中,找到符合的內容。
上面是來自百科全書的兩個名詞的解釋。
目前一般用戶理解的搜索引擎,通常是指自動從互聯網蒐集信息,經過一定整理以後,提供給用戶進行查詢的系統。互聯網上的信息浩瀚萬千,而且毫無秩序,所有的信息象汪洋上的一個個小島,網頁鏈接是這些小島之間縱橫交錯的橋樑,而搜索引擎,則為用戶繪製一幅一目瞭然的信息地圖,供用戶隨時查閱。其實還有桌面搜索引擎,網站站內搜索引擎等
對於英文,需要經過語根處理 (stemming),符素解析(token parser),分詞(word segmentation),索引(index)等處理後,才可以進行查詢(Search/Query),中文沒有詞形的變化,不需要語根處理 (stemming),但是中文分詞不像英文那樣可以按照空格來劃分,相對比較複雜,目前採用的技術比較普遍的是1-gram, 2-gram, N-gram。
索引(index)效率比較高的算法是反向索引(inverted index),通常也成為倒排索引。
搜索引擎處理的對象一般是文本(Text),可以通過《利用Minidx Extract-Text Com組件從Word,Xls,Pdf……等文件中讀取文本內容》中的技術,對doc,xls等非文本文件進行文本抽取,但是這些都屬於搜索引擎外圍部件。
評測一個搜索引擎的好壞,查全率(recall rate)和查准率(precision)是兩個非常重要的參數,互聯網由於海量的信息量,所以有了Google PageRank和百度的中文搜索由超鏈分析技術,使得用戶可以更加快速的找到自己需要的。
引用 URL :
http://blog.minidx.com/2008/01/03/340.html