汉王巧用表格文字内容图片(汉王图片文字表格软件)「汉王图片识别怎么使用」

大家好,昨天我爱人给我发了一个消息,说她帮一个朋友处理一个PDF文档中的表格提取问题,她说是通过扫描纸质文档成为的PDF,很显然这是一个“图片式”的PDF(用PDF阅读器无法选择PDF里面的文字内容的),对于非“图片式”的PDF很好处理(非“图片式”的PDF事实上内容是可以用PDF阅读器选择的)
这种以拍摄或者扫描生成的PDF在性质上定性为“图片式”的PDF文档,不可与其他的Office文档直接保存为的PDF文档(非“图片式”)不可同日而语
相对而言,由于图片式的PDF是经过拍摄或扫描的,所以清晰度上面不免有打折扣的现象的,于是转换出来肯定没有非“图片式”的PDF转换出来理想,需要修改
网上有很多这方面的解决方案,比如有人将PDF文档先分割为一个个图片保存(这个操作容易办到),然后通过手机微信上的傻瓜式的小程序比如“表格识别神器、表格识别助手、表格文字识别……”等等软件
如下图微信截图所示图1 常用的 “微信表格识别”小程序 的确,这些软件好用,大家可以去时用下,但是,对于我们用户而言有个致命的一点就是它们只给用户体验的次数很有限(最多不超过3次使用机会,用完次数必须购买才能使用,一般购买一次都是10~20元或以上/次),所以对于我们长期从事办公工作的人员来讲这些都是非常鸡肋的
另外,也有基于PC端的各类文字识别软件,如“迅捷PDF识别软件、得力文字识别软件……”等等,但是这些软件需要注册才能完全转换,对我们而言,我们办公朋友需要的只要简单能用就行,不想为购买注册花费金钱和精力吧,有哪些文字识别工具可以简单而又免费的呢?主要有两款比较知名的“OCR超强文字识别、汉王PDF OCR”,由于被封杀的缘故,“OCR超强文字识别”已经在网上下载不到了,而几乎尚存的也是唯独的“汉王PDF OCR”文字识别软件具有将图片式的PDF彻底转换为文字或表格的功能
所以,我出于热心(或许我这样做在一定程度上断了那些小程序开发公司的财路会被骂哦,呵呵
),给各位分享一个永久解决这个问题的正道
好了,我们说干就干吧
一、首先,我们得准备文字识别的工具“汉王PDF OCR”软件这个软件估计网上可以下载,如果不能下载请私信我,我可以云盘分享给需要的人
二、准备好 “图片式”的PDF电子文档可以通过拍摄或扫描仪拍摄或扫描纸质文档存储为PDF文档
效果形如下图所示图2 准备好的“图片式”PDF文档 用PDF阅读器打开这个PDF文档内容大致展示如下图所示图3 PDF文档内容展示 三、用工具软件(如“得力PDF转换器”,需要这个工具的可以私信我)将这个PDF文档转换为图片(图片更容易解析,如果不转换为图片也可以,但是必须在汉王识别软件中庸剪刀工具减去多余的杂点、杂线、手工书写的文字等)
如下图所示被拆解好的两个图片图4 “图片式”PDF拆解为分散的JPG格式的图片 四、打开安装好的“汉王PDF OCR”文字识别软件开始识别“图片式”PDF文档(一)启动“汉王PDF OCR”文字识别软件
如下图所示图5 “汉王PDF OCR”界面 (二)打开文件对话框中选择需要处理的“图片式”PDF文档拆解的图片(如“马姐.pdf_1.jpg”)
如下图所示图6 汉王PDF OCD软件中选择需要处理的拆解后的图片 (三)打开需要处理的拆解后的“图片式”PDF文档的图片(如“马姐.pdf_1.jpg”)
如下图所示
图7 汉王PDF OCD软件中打开需要处理的拆解后的图片 (四)在汉王PDF OCR软件中依次选择菜单“识别”-->“版面分析”--> “开始识别”
效果如下图所示图8 识别的结果 (五)在汉王软件中修正必要的错误文字五、输出结果为Excel格式的文本(选择类型为.xls)
如下图所示图9 输出识别的表格结果为Excel格式 点击上图的<保存>按钮完成Excel格式文档的导出
如下图所示图10 导出的Excel文档 五、打开上面导出的Excel文档,测试下效果
如下图所示图11 打开导出的Excel文档效果 我们只需要在excel中稍微调整即可完成大量的工作六、重复上面“四~五”的步骤,完成剩余图片的表格识别
好了,今天就给大家分享到这里,希望对于表格图片的识别尤其是用拍摄或者扫描的PDF表格文档的识别对各位办公朋友有所帮助
如果不想清楚的地方,可以私信我哦
最后,很感谢大家的特别关注、推广和点评,谢谢大家
汉王巧用表格文字内容图片(汉王图片文字表格软件)
(图片来源网络,侵删)

联系我们

在线咨询:点击这里给我发消息