一、 主要功能
易海聚新聞采集系統的主要功能為:根據用戶自定義的任務配置,批量而精確地抽取目標網絡媒體欄目中的新聞或文章,轉化為為結構化的記錄(標題,作者,內容,采集時間,來源,分類,相關圖片等),保存在本地數據庫中,用于內部使用或外網發布,快速實現外部信息的獲取。
二、 系統特點
對目標網站進行信息自動抓取,支持HTML頁面內各種數據的采集,如文本信息,URL,數字,日期,圖片等。
用戶對每類信息自定義來源與分類
可以下載圖片與各類文件,如PDF,文件等
支持用戶名與密碼自動登錄
支持命令行格式,可以Windows任務計劃器配合,定期抽取目標網站
支持記錄唯一索引,避免相同信息重復入庫
支持智能替換功能,可以將內容中嵌入的所有的無關部分如廣告去除
支持自動翻頁
數據直接進入數據庫而不是文件中,因此與利用這些數據的網站程序或者桌面程序之間沒有任何耦合
支持數據庫表結構完全自定義,充分利用現有系統
支持多個欄目的信息采集可用同一配置一對多處理
保證信息的完整性與準確性,絕不會出現亂碼
支持各種主流數據庫,圖數據庫,大數據數據庫等
三、 運行環境
操作系統:Windows
內存: *低64M內存,建議256M或以上
硬盤: *少100M空余硬盤空間 |
|