【PDF扫描件转双层】图像识别 文字识别(OCR)

案例背景
客户痛点:
1. 大数据量的PDF文件,文件大小从1MB的到3GB的不等,全部都是通过扫描方式将纸质表单扫描成PDF文件,没有工具能稳定高效的将扫描件转双层
2. 对于触发某些关键词的文件需要特殊归档
3. 对于图片内容的识别准确率,由于是历史文件的扫描件,有些因印刷原因导致印刷体不清晰,有些手写内容基于Adobe默认的转双层功能基本无法识别4. 需要运行软件的办公设备可能无法联网, 所以需要一个跨平台,不受限于环境的开箱即用的工具5. 软件具有简单的注册机制,需要授权才能使用
亮点介绍
1. 对于指定目录,扫描所有PDF文件及子目录文件, 按顺序多线程进行文件处理,若处理过程中发生异常可在下次处理时跳过标记的文件直接针对少数文件处理
2. 用户可以指定关键词匹配并存放到指定文件夹
3. 使用专业的OCR识别技术及对中文和数字的训练模型,保证PDF扫描件的识别准确率和效率,对于部分手写体在字迹工整的情况下也能有很好的识别.4. 将软件所依赖的环境和模型提前打包编译,保证OCR服务可以离线使用且保证识别准确率和识别效率,可以在windows,linux和mac上不依赖于其他第三方软件开箱即用5. 采集设备指纹,需要管理者进行设备授权,使用授权码可以激活软件在期限内使用


相关案例

查看更多