python的OCR中文字符识别(Windows平台为例)

  • 内容
  • 相关

1. 环境安装

首先安装OCR字符识别库Tesseract,下载地址如下:

https://digi.bib.uni-mannheim.de/tesseract/

选择对应的版本进行下载就可以。

下载后双击进行安装,这里因为我们要识别中文字符,所以在安装界面中需要进行额外的语言勾选,展开Additional language data

ocr1.png

然后按照下图进行勾选

ocr2.png

然后点击next安装即可(注意:在选择安装路径的时候不要出现中文,并且要记住这个安装路径)。我的路径为:

C:\Program Files (x86)\Tesseract-OCR

接下来配置环境变量。

通过控制面板找到环境变量配置界面如下:

ocr3.png


环境变量修改好之后验证下是否安装成功。打开cmd命令行工具敲入命令:

Tesseract -v
出来如下界面说明成功


ocr4.png

2. Python相关包的安装

使用pip命令安装以下两个Python包

pip install Pillow==5.2.0
pip install pytesseract==0.2.4

3. 测试

编写Python代码:

import pytesseract
from PIL import Image

image = Image.open('2.jpg')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)
运行结果如下:

ocr5.png

您阅读这篇文章共花了:  

本文标签:

版权声明:转载请带上版权原创为《星城

解压密码:若设有密码均为:www.xcooo.cn

收录状态:百度已收录点击查看详情

python的OCR中文字符识别(Windows平台为例)

发表评论

您可以选择匿名评论,保护个人隐私 !