文章出處

摘 要:作為大眾連接互聯網的主要入口,搜索引擎根據搜索引擎使用者提交的請求有針對性地為其提供準確、高效以及可靠的檢索結果。然而由于互聯網資源的巨大性以及搜索引擎技術的復雜性,目前搜索引擎的檢索結果面臨準確性、可靠性和時效性等挑戰。本文將對當前的搜索引擎以及搜索引擎技術進行討論,并對他們的發展趨勢進行分析,同時對搜索引擎所面臨的問題進行剖析并給出相應的解決方法。

  關鍵詞:搜索引擎;網絡爬蟲;檢索
  中圖分類號:TP311.52 文獻標識碼:A
  1.搜索引擎介紹
  搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯網上采集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將檢索的相關信息展示給用戶的系統。搜索引擎是工作于互聯網上的一門檢索技術,它旨在提高人們獲取搜集信息的速度,為人們提供更好的網絡使用環境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。
  全文搜索引擎是當前應用最為普遍的主流搜索引擎,國內外知名的有baidu,Google,Bing等。全文搜索引擎的工作原理是分詞程序將爬蟲程序從互聯網上抓取的文章中的內容預處理后進行分詞,然后計算機索引程序掃描分好的詞,對每一個詞建立倒排索引,并將該詞在文章中出現的位置以及次數記錄在數據庫中,當用戶檢索程序在用戶提交檢索請求時根據數據庫中事先建立的索引進行檢索,并將檢索結果反饋給用戶。全文搜索引擎數據庫的容量極大,檢索的范圍很廣,易用性較強,然而由于知識來源較為廣泛,導致重復的內容過多且繁雜,更新不夠迅速。
  元搜索引擎就是通過一個統一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索操作,是對分布于網絡中的多種檢索工具的全局控制機制。目前國內外有諸如360綜合搜索、InfoSpace等。元搜索引擎可以充分集中各搜索引擎的優勢有效地擴大了搜索引擎的檢索廣度和提高了檢索結果的準確率。元搜索引擎是基于多個搜索引擎上的二次整合,它沒有數據庫,因此相同的檢索請求會導致重復檢索。
  垂直搜索引擎是針對某一個行業進行搜索的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再返回給用戶。垂直搜索引擎是在特定的搜索領域來滿足特定的搜索需求如火車票搜索、視頻搜索等,其檢索范圍小而且是基于結構化數據和元數據的搜索,檢索結果準確度高,檢索時間短,所需耗費的成本低。
  目錄搜索引擎是以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。它有別于其他的各類搜索引擎。
  2.搜索引擎所用主要技術
  搜索引擎工作流程主要有數據采集、數據預處理、數據處理、結果展示等階段。在各工作階段分別使用了網絡爬蟲、中文分詞、大數據處理、數據挖掘等技術。
  網絡爬蟲也被稱為蜘蛛或者網絡機器人,它是搜索引擎抓取系統的重要組成部分。網絡爬蟲根據相應的規則,以某些站點作為起始站點通過各頁面上的超鏈接遍歷整個互聯網,利用URL引用根據廣度優先遍歷策略從一個html文檔爬行到另一個html文檔來抓取信息。
  中文分詞是中文搜索引擎中一個相當關鍵的技術,在創建索引之前需要將中文內容合理的進行分詞。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。
  大數據處理技術是通過運用大數據處理計算框架,對數據進行分布式計算。由于互聯網數據量相當龐大,需要利用大數據處理技術來提高數據處理的效率。在搜索引擎中,大數據處理技術主要用來執行對網頁重要度進行打分等數據計算。
  數據挖掘就是從海量的數據中采用自動或半自動的建模算法,尋找隱藏在數據中的信息,是從數據庫中發現知識的過程。數據挖掘一般和計算機科學相關,并通過機器學習、模式識別、統計學等方法來實現知識挖掘。在搜索引擎中主要是進行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數據中抽取隱含的、未知的、可能有用的信息。
  3.搜索引擎以及搜索引擎技術發展趨勢
  3.1 搜索引擎的發展趨勢
  隨著移動業務、科技的發展和人們生活方式的改變,在未來搜索引擎將會發生明顯的變化。
  3.1.1 知識圖譜搜索
  知識圖譜是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。當用戶發起一個搜索請求后,除了顯示用戶搜索的結果,其他與之相關的重要信息也將以發散圖表的形式呈現出來。這一功能將在滿足用戶信息檢索的同時,可以更好的理解用戶所需要的內容。
  3.1.2 個性化搜索
  搜索引擎技術的通用性決定了它的普適性,從而忽略了搜索用戶個體之間的差異。個性化的搜索技術可以根據不同背景、不同目的和不同時期的查詢請求為不同用戶提供有�對性的個性化的搜索服務。個性化搜索通過采集以及分析不同的用戶數據信息來學習不同用戶的行為和愛好,從而實現對不同用戶進行差異化信息檢索的目的。
  3.1.3 多媒體搜索
  當前搜索引擎主要是基于文字進行搜索的,而圖片、音頻和視頻等多媒體搜索比純文本搜索要復雜得多,目前主流技術是通過對他們的描述文字進行解析來搜索,所以本質上來說還是基于文字的搜索,然而多媒體的描述文字經常與多媒體資料不匹配的問題導致多媒體搜索結果具有高度的不確定性,搜索結果極易受描述文字的干擾。未來的多媒體搜索技術將會通過對多媒體資料內容進行深度解析來彌補這一缺點。
  3.1.4 跨語言搜索
百度搜索“看文倉”,專業資料、生活學習,盡在看文倉,您的在線圖書館!
歡迎轉載:http://www.kanwencang.com/xuexi/20170310/116097.html

文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()