使用图片识别可以快速提取图片中的信息,方便高效。 Python并不能直接对PDF进行识别,所以如果是识别PDF的话,需要先将PDF转化为图片,然后再进行识别。 必备工具 Python 可以安装3.7及以上版本 tesseract-ocr 下载地址:https://github.com/UB-Mannheim/tes
使用图片识别可以快速提取图片中的信息,方便高效。
Python并不能直接对PDF进行识别,所以如果是识别PDF的话,需要先将PDF转化为图片,然后再进行识别。
可以安装3.7及以上版本
下载地址: https://github.com/UB-Mannheim/tesseract/wiki 使用最新版本即可
代码示例
总结 识别清晰的文字图片的时候准确率非常高 但是识别手写体的话效果不太好 注意事项 在安装tesseract-ocr 的时候一定要记得选择对应的语言,不然是无法正常使用的。 |
2019-06-18
2019-07-04
2021-05-23
2021-05-27
2021-05-27