图片识别工具Tesseract初探
文章标题:Tesseract图片文字识别工具初探
一、简介
Tesseract是一款强大的图片识别工具,能够轻松地从图片中抓取文字。该工具支持多种语言,默认是英语。如果你想体验这款工具的魅力,不妨跟随本文一同初探Tesseract。
二、Tesseract初探
1. 安装与框架介绍
Tesseract的开源文件可以在GitHub上下载。如果你只想简单应用,直接在Google Code中搜索下载即可。下载完成后,你会得到一些文件,其中包括说明文档(Doc)、各种文字库(Tessdata)以及执行文件(Tessseract.exe)。
2. 基本使用
通过命令行调用Tesseract,你可以轻松识别图片中的文字。例如,输入“tesseract.exe 图片名 导出文件名”,就可以把和tesseract同目录的图片中的文字识别结果存放在文本文件中。如果需要支持中文,只需在Tessdata中添加chi_sim.traineddata文件,并在调用时指定使用的文字库。
对于简单的文字需求,直接通过CMD调用exe执行即可。有需要的小伙伴可以直接下载附件“Tesseract_简单使用.rar”文件,体验基本功能。
三. Net项目高级使用
如果你的.Net项目需要使用DLL方式进行研发,可以下载Tesseract_DLL引用包。注意,X86和X64是针对Tesseract关联引用DLL的,根据程序所在系统的位数进行自适应配置。在特定系统如windows server 2003中发布IIS时,可能会遇到无法加载liblept168.dll的错误,但在更高版本系统中即可正常使用。以下是测试tesseract.dll的代码示例:
```csharp
using (var engine = new TesseractEngine(Server.MapPath(@"~/tessdata"), "eng", EngineMode.Default))
{
// have to load Pix via a bitmap since Pix doesn't support loading a stream.
using (var image = new System.Drawing.Bitmap(imageFile.PostedFile.InputStream))
{
using (var pix = PixConverter.ToPix(image))
{
using (var page = engine.Process(pix))
{
meanConfidenceLabel.InnerText = String.Format("{0:P}", page.GetMeanConfidence());
resultText.InnerText = page.GetText();
}
}
}
}
```
在使用TesseractEngine构造函数时,需要注意字库路径必须以tessdata结尾,如果要使用中文,第二个参数需要指定为chi_sim。
本文初步了Tesseract图片文字识别工具的使用方法和注意事项。希望本文能够帮助大家更好地了解和使用这个工具,如果有任何问题或建议,欢迎大家一起。谢谢大家的阅读!
(完)
编程语言
- 图片识别工具Tesseract初探
- jquery插件hiAlert实现网页对话框美化
- javascript中闭包(Closure)详解
- JavaScript中利用Array filter() 方法压缩稀疏数组
- JS实现显示当前日期的实例代码
- javascript面向对象三大特征之多态实例详解
- JS实现让网页背景图片斜向移动的方法
- ASP 正则表达式常用的几种方法(execute、test、rep
- 微信小程序 参数传递详解
- JS简单实现查看文档创建日期、修改日期和文档大
- jquery遍历标签中自定义的属性方法
- MySQL联合索引功能与用法实例分析
- Vue.extend构造器的详解
- 利用node实现一个批量重命名文件的函数
- 在vue-cli项目中使用bootstrap的方法示例
- PHP获取网站中各文章的第一张图片的代码示例