隨著網絡的發展,網絡文本信息的數量程爆炸式增長,手工獲取所需文本信息的難度日益增大,為了能夠有效地處理海量的文本數據,需要在文本分類、文本聚類、自動文摘和信息檢索等方向進行了大量的研究,而這些研究都涉及到一個關鍵而又基礎的問題,即如何獲取文本中的關鍵詞。
關鍵詞是對文本主題信息的精煉,高度概括了文本的主要內容,能幫助用戶快速理解文本的主旨,易于使用戶判斷出文本是否是自己所需的內容,從而提高信息訪問和信息搜索的效率。在查詢問句中,關鍵詞代表了用戶問句的主體含義。在問題分析時,提取問題中的關鍵詞對于理解問題的語義至關重要。在信息檢索中,需要從用戶輸入的問句中提取出對檢索有用的關鍵詞,關鍵詞的提取的效果直接影響到信息檢索的結果和答案的相似度計算與排序。
NLPIR文本搜索與挖掘開發平臺針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用于技術二次開發的基礎工具集。
NLPIR關鍵詞提取能夠在全面把握文章中心思想的基礎上,提取出若干個代表文章語義內容的詞匯或短語,相關結果可用于精化閱讀、語義查詢和快速匹配等。NLPIR主要采用交叉信息熵計算每個候選詞的上下文條件熵,所處理的文檔不受行業領域限制,且能夠識別出新出現的新詞語,所輸出的詞語可以配以權重。
NLPIR文章關鍵詞提取的主要特色在于:
1、速度快:可以處理海量規模的網絡文本數據,平均每小時處理至少50萬篇文檔。
2、處理精準:Top N的分析結果往往能反映出該篇文章的主題特征。
3、精準排序:關鍵詞按照影響權重排序,可以輸出權重值。
4、開放式接口:文章關鍵詞提取組件作為NLPIR的一部分,采用靈活的開發接口,可以方便地融入到用戶的業務系統中,可以支持各種操作系統和各類調用語言。
關鍵詞提取技術已被廣泛應用于新聞服務、查詢服務等領域,并被證明能夠在信息檢索、自動摘要、文本分類等任務中發揮重要作用。在當下精準化、個性化推薦大行其道的時候,關鍵詞提取技術可以全面、準確、真實的了解用戶瀏覽行為數據信息或文章的主要內容信息,實現全景式、豐富化用戶畫像描述的同時,從而減少對用戶的干擾。 |
|