开源创意软件 Tesseract-OCR 让效率瞬间提升百倍

创意开源 2020-06-23

1186

“弓术并非技术。当你射穿自己的心时，就能达到佛陀的境地。”——阿波研造

科技改变生活，创意点亮生活

释放你的潜力和才华，用平凡创造不凡

Tesseract（识别引擎）

一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition,光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

GitHub开源软件：https://github.com/tesseract-ocr/tesseract

Wiki百科：https://github.com/tesseract-ocr/tesseract/wiki

安装步骤：

MacOS系统中，安装OSX下的包(Formula)管理软件 Homebrew 。
通过 Homebrew 安装 Tesseract-OCR。
增加 Tesseract-OCR 的多语言识别功能。

1.安装 Homebrew:

在Terminal.app中，输入如下代码：（最新代码以官网https://brew.sh公布为准）

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

漫长的等待后，Homebrew 安装成功，进入Tesseract-OCR 的安装。

安装最低配置：macOS High Sierra (10.13) or higher

2.查看 Tesseract-OCR 安装信息:

在Terminal.app中，通过 Homebrew 查看 Tesseract-OCR 的安装信息：

brew info tesseract

输出：

红框处文字：

==> Caveats This formula contains only the "eng", "osd", and "snum" language data files. If you need any other supported languages, run `brew install tesseract-lang`.

注明标准包中语言只包括少量几种语言数据。如果想要更多支持语言，需要输入：

brew install tesseract-lang

3.安装 Tesseract-OCR 同时支持多语言识别:

在Terminal.app中，输入

brew install tesseract-lang

输出：

安装完成。

Tesseract-OCR 核心操作命令：

tesseract imagename outputbase {-l lang[+lang]} [-psm pagesegmode] [configfile...]

imagename：需要识别的图片名称。

outputbase：输出结果的txt文件的名称，不需要标注后缀，输出直接就是txt格式。

lang：指定输出语言，默认是英文eng。

若识别简体中文，输入：-l chi_sim；识别简体中文和英文，输入：-l chi_sim+eng。

pagesegmode：识别模式。包括：

0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.

举例使用 Tesseract-OCR 识别操作:

待识别示例图片：

此图片中含有中英文，需要识别中文和英文，输入：

tesseract Users/AAA/Desktop/ffmpeg1.png out -l chi_sim+eng

输出：

最后评估结果为237个字符。

找到用户名下名为out.txt的输出文件，显示：

识别结果准确无误！

往期文章

创意大赛截稿在即！制作素材无法下载怎么办？
总结：一键下载多媒体文件的you-get核心命令行
You-Get把姐圈超A女团占为己有
皇帝为何称为「万乘之尊」？
「行伍出身」为何指代当兵
古时候沐浴，没这么简单

▲

Sometimes ever, sometimes never.

相聚有时，后会无期。

编辑、排版｜青泉石上

本文为原创，未经许可请勿转载

软件

文章转载自创意开源，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

开源创意软件 Tesseract-OCR 让效率瞬间提升百倍

评论