|
九九信用 大象金服北京科技有限公司
聯(lián)系人:張
先生 (CEO) |
電 話:010-62648216 |
手 機(jī): |
 |
|
 |
|
NLPIR大數(shù)據(jù)技術(shù)自動(dòng)語義提取關(guān)鍵詞 |
隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)文本信息的數(shù)量程爆炸式增長(zhǎng),手工獲取所需文本信息的難度日益增大,為了能夠有效地處理海量的文本數(shù)據(jù),需要在文本分類、文本聚類、自動(dòng)文摘和信息檢索等方向進(jìn)行了大量的研究,而這些研究都涉及到一個(gè)關(guān)鍵而又基礎(chǔ)的問題,即如何獲取文本中的關(guān)鍵詞。
關(guān)鍵詞是對(duì)文本主題信息的精煉,高度概括了文本的主要內(nèi)容,能幫助用戶快速理解文本的主旨,易于使用戶判斷出文本是否是自己所需的內(nèi)容,從而提高信息訪問和信息搜索的效率。在查詢問句中,關(guān)鍵詞代表了用戶問句的主體含義。在問題分析時(shí),提取問題中的關(guān)鍵詞對(duì)于理解問題的語義至關(guān)重要。在信息檢索中,需要從用戶輸入的問句中提取出對(duì)檢索有用的關(guān)鍵詞,關(guān)鍵詞的提取的效果直接影響到信息檢索的結(jié)果和答案的相似度計(jì)算與排序。
NLPIR文本搜索與挖掘開發(fā)平臺(tái)針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。
NLPIR關(guān)鍵詞提取能夠在全面把握文章中心思想的基礎(chǔ)上,提取出若干個(gè)代表文章語義內(nèi)容的詞匯或短語,相關(guān)結(jié)果可用于精化閱讀、語義查詢和快速匹配等。NLPIR主要采用交叉信息熵計(jì)算每個(gè)候選詞的上下文條件熵,所處理的文檔不受行業(yè)領(lǐng)域限制,且能夠識(shí)別出新出現(xiàn)的新詞語,所輸出的詞語可以配以權(quán)重。
NLPIR文章關(guān)鍵詞提取的主要特色在于:
1、速度快:可以處理海量規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù),平均每小時(shí)處理至少50萬篇文檔。
2、處理精準(zhǔn):Top N的分析結(jié)果往往能反映出該篇文章的主題特征。
3、精準(zhǔn)排序:關(guān)鍵詞按照影響權(quán)重排序,可以輸出權(quán)重值。
4、開放式接口:文章關(guān)鍵詞提取組件作為NLPIR的一部分,采用靈活的開發(fā)接口,可以方便地融入到用戶的業(yè)務(wù)系統(tǒng)中,可以支持各種操作系統(tǒng)和各類調(diào)用語言。
關(guān)鍵詞提取技術(shù)已被廣泛應(yīng)用于新聞服務(wù)、查詢服務(wù)等領(lǐng)域,并被證明能夠在信息檢索、自動(dòng)摘要、文本分類等任務(wù)中發(fā)揮重要作用。在當(dāng)下精準(zhǔn)化、個(gè)性化推薦大行其道的時(shí)候,關(guān)鍵詞提取技術(shù)可以全面、準(zhǔn)確、真實(shí)的了解用戶瀏覽行為數(shù)據(jù)信息或文章的主要內(nèi)容信息,實(shí)現(xiàn)全景式、豐富化用戶畫像描述的同時(shí),從而減少對(duì)用戶的干擾。 |
 |
|
|
|
 |
|
|