什么是雙層PDF文件?
PDF文件是一種具有多層結構的格式文件,其特點是:文件既可以是文本型的(比如由word生成的文件),也可以是圖像型的(比如由掃描生成的文件);雙層PDF文件是指文件內容既包含文本層,也包含圖像層,且其位置上下一一相對應。雙層PDF是指將標準資料通過掃描儀快速錄入后,經過去污、糾偏和OCR識別,然后可以直接生成可以檢索的PDF文件,這個PDF文件是雙層的,上層是原始圖像,下層是識別結果,這樣可以100%保留原始版面效果,并且支持選擇/復制/檢索等功能,這樣的PDF文件*后可以存儲在光盤、硬盤或磁盤陣列中,并通過建立索引數據庫進行科學的管理。
雙層PDF生成解決方案
一、系統簡介
• 強勁的識別核心
《雙層PDF文件加工系統》全能圖文軟件系統集成漢王*新技術,內嵌漢王科技尖端ocr核心,目前《雙層PDF文件加工系統》字符庫涵蓋GB2312-80一級字庫3775個字符,二級字庫3008個字符以及標點、數字、英文字集等常用符號。同時收錄了使用頻率高的臺灣繁體字集和香港繁體字集。常用字符采集率達到99.99%。
《雙層PDF文件加工系統》能夠自動識別宋體、黑體、楷體、隸書、新宋體、仿宋等一百多種字體格式。
支持中英混排、簡繁混排以及字體混排。
• 領先的文檔存儲
《雙層PDF文件加工系統》能夠將圖片的識別結果保存為Word、RTF、Excel、Txt、Html及普通PDF、雙層PDF等文件格式。讓您輕輕松松摘抄、編輯掃描圖像中的文字、圖片、表格等。
• 簡單的操作界面
高度封裝處理核心,無需專門學習,輕輕松松,點擊完成。
• 全面的兼容性: 全面支持市場上的掃描儀類型,《雙層PDF文件加工系統》與掃描儀無縫連接,掃描處理同步進行,一步到位輕輕松松點擊按鈕就完成。
• 強勁的PDF處理:
• 支持通用的ZIP、LZW、CCITT、JPEG、JPEG2000等11種PDF編碼格式。該系統支持打開多種編碼方式的PDF文件,涵蓋企事業單位所有PDF應用格式。
• 多頁PDF智能拆分、處理識別,同時支持導出多頁雙層PDF、單層PDF。
• 復雜版面,精確還原:智能分析中、英、繁字體,文、表、圖混排文本,無需人工干預。同時采用全新分欄技術,版面還原更加精確,識別后的文檔無需排版編輯更輕松。
• 批量處理,高速錄入:可以達到每分鐘至少6000字的速度,超強、高速批量處理功能,可連續識別1000頁文件。建立工程文件,工作進度自動保存,打開工程自動保存,打開工程自動指向工作斷點,方便管理。
• 公文處理,簡單易用:強大的公文處理能力,對于其中的紅章可以單獨識別與提取,再現公文原貌。
• 文、表、圖,高效錄入:優異的表格識別能力,幫您將原有表格快捷轉化成為可任意編輯的電子表格。獲取圖像支持黑白二值、256級灰度和24位真彩色。支持bmp、tif、jpg的圖像格式。
• 圖文對照,校對方便:識別結果可與原圖一一對應顯示,校對也輕松。使得錯誤點一目了然。
二、系統特點
1、批量、快速的前端掃描:
支持通用平板掃描儀、企業級中高速掃描儀;充分滿足高速集中錄入的要求。
2、強大的識別:
雙層PDF生成系統內置功能強大的OCR識別軟件,識別核心采用國際領先的OCR技術,能快速的實現圖文轉換,識別率達到98%以上。
3、完美的PDF重現:
識別結果PDF是采用靈文公司特有的雙層PDF,完美的實現了原文重現。
4、加密功能:
系統支持PDF文件加密功能,可以控制用戶編輯/打印/修改該PDF文件,在標準化管理中非常有必要。
5、用戶不需要安裝Adobe Acrobat軟件。
6、支持數十種圖像格式到雙層PDF文件的直接轉換,包括TIFF, JPG, BMP, DCX, PCX, EMF, GIF, PCD, PIC, PICT, PNG, PNM, PSD, TGA, WMF等圖像格式,系統會自動識別這些文件,然后生成文本層,合并到雙層PDF中,不需要人工干涉。 |
 |
|