sudo apt install tesseract-ocrsudo apt install libtesseract-dev
macHomebrewbrew install tesseract
更多安装方式看链接https://tesseract-ocr.github.io/tessdoc/Installation.html安装中文字库默认是缺失中文字库,需要额外安装进入下载地址https://tesseract-ocr.github.io/tessdoc/Data-Files找到下载文件地址下载后,查找安装地址tesseract --list-langsList of available languages in "/usr/local/share/tessdata/" (4):engosdsnum
将文件放到文件下/usr/local/share/tessdata/检查是否完整完成tesseract --list-langs [10:09:08]List of available languages in "/usr/local/share/tessdata/" (4):chi_simengosdsnum出现chi_sim,表明已经可用
示例实例图片:执行命令tesseract img.jpg text -l chi_sim --psm 6 -c preserve_interword_spaces=1
打开 text.txt庞 | f称 - | 企业粑型 |“1 | 翱捷科技股份有限公司 | 已上市独角善企业 || 2 | 上海阗途信息技术有限公司 | 已上市独角兽企业 |“3 | 锅国食品 (上海) 股份有限公司 | 已上市独角善企业 |“4 | 上海吴朵商业管理 (集团) 有限公司 | “已上市独角善企业 |“5 | 租济生物医药 (上海) 有限公司 | 已上市独角善企业 |“6 | 上海不赛刑技有限公司 | 已上市独角善企业 |“ 7 | 上海宏信建设发展有限公司 | 已上市独角兽企业 |8 | 迈威 (上海) 生物科技股份有限公司 “ | “已上市独角善企业 |“ 9 | 上海傅创医疗机器人 (集团) 股份有限公司 | “已上市独角善企业 |_10 | 恒玄科技 (上海) 股份有限公司 | 已上市独角善企业 || “11 | 和万生物技术 (上海)股份有限公司 “ | “已上市独角善企业 || 12 | 乐晃山泰医应科技 (上海) 股份有限公司 | 已上市独角兽企业 || “13 | 上海奥涛述生物科技股份有限公司 “ | 已上市独角善企业 || _14 | 普育半导体 (上海) 服份有限公司 “ | 已上市独角善企业 || “15 | 益卜生物秉技 (上海) 股份有限公司 “ | 已上市独角善企业 || “16 | 格兰康帝通信科技 (上海) 服份有限公司 | “已上市独角善企业 || “17 | 上海D疯医疗科技股份有限公司 | 已上市独角兽企业 |_18 | 星F信息袁技 (上海)股份有限公司 | _已上市独角善企业 || “19 | 上海余盟企业发展有限公司 | 已上市独角善企业 |_20 | 东仁半导体股份有限公司 | 已上市独角善企业 |
解析成功语法tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]imagename:输入文件名outputbase 输出地址-l 解析用的语言-- oem ocr引擎模式-- psm 页段模
具体参数说明–psm 3 全自动页面分割,但无 OSD(默认)-psm 6 假设有一个统一的文本块, (同时解析分隔符)-c preserve_interword_spaces=1 保留空格
(图片来源网络,侵删)
0 评论