如何利用ABBYYFineReader识别图片中的文本 图片文本识别
准备:找到预先保存的两张jpg格式的图片,安装最新版ABBYYFineReader 12软件。
目标:提取图片中的英文和中文栏,导出Excel格式的文本
原始图片:
操作过程:
1. 由于图片中的文本分列显示,因此打开ABBYY FineReader12后,选择Microsoft Excel项
注:在这个窗口可以设置要识别的语言(简体中文和英文),以及色彩模式,这里可以选择全彩色和黑白模式,黑白模式的读取速度要稍快一些。
2. 然后选择“图像或PDF文件到MicrosoftExcel”,添加要识别的两张图片,打开后软件自动开始识别;也可以点击“文件”,新建一个文档,然后直接把要识别的图片拖放到软件左列,同样可以打开进行识别。
3.考虑到图片文字可能会出现模糊,文本歪斜和转向,因此选择取消识别,先对图片进行编辑处理,点击上面工具栏里的“编辑图像”,右侧打开编辑工具列表;
4.首先,要对图像进行歪斜校正,如扫描的图片不规整,在扫描后会提示对需要进行校正的图片进行歪斜校正,这里可以选定“全部页面”,然后点击“歪斜校正”;若图片是旋转90度或倒转后的图片,可在这里将其旋转或翻转处理;
5.接下来,也是最重要的,就是调整图片的分辨率,有些图片模糊不清,会影响软件识别效果,这里可将图片的分辨率设为扫描图像的分辨率,即300dpi,这个值基本上都可以正常识别了,也可以自定义分辨率。通过这个选项,可分别单张设置图片的分辨率,也可以选奇数页或偶数页和全部页面,为了不影响识别,这里可以选择“所有页面”;
6. 然后就可以退出图像编辑器。
7.由于我们只需要中英文对照的两列文本,其他无关的内容可以不进行识别,因此,可选择要识别的区域,即点击中间一栏左上角的“A”按钮,可选择两列要识别的文本;
8.选定后的文本呈浅绿色,然后点击选中区域,在弹出的工具栏选择按钮“A”,找到里面的“表格”项,这样识别后的文本就成两列对照的文本了。
9. 然后,点击上面工具栏里的“读取”选项;开始识别。
10.下图为识别后的效果图,最右侧一栏是识别的文本内容,在该栏头部,可对识别的文本格式进行设置,如设置字体,字号、倾斜、加粗等;
11.识别后的文本中,绿色显示的是可能存在拼写或识别错误或置信度较低的字符,如果未做处理直接导出,可能会影响以后使用。这时,可选择工具栏里的“验证文本”,对绿色标记部分进行编辑确认;
12.操作过程中,会发现标记为绿色的文本有些并没有拼写错误,可能只是字体设置不当,这种情况下只需要忽略跳过即可,存在识别错误的文字,进行更改替换,FineReader自带的字典会提示可能正确的识别变量,选择正确的文字,点击“替换”或“全部替换”,然后“确认”即可。
13. 上图是验证后的文本,是不是美观多了?
14. 然后输出文本,点击工具栏内的“保存”,即保存为Excel格式的文件,默认状态下,保存好的文件会自动打开;
15.这是导出后的文件,再次对字体和字号进行调整,使其看起来更加美观。然后就可以把它导入各种CAT(计算机辅助翻译)软件中,以后翻译时,如果出现此类术语,CAT即可自动提示,是不是省去google挨个儿查询的苦恼了?况且,强大的google在我们伟大的country里并不是总能打开哦,哦哦
结语:
之前用过其他的识别软件和Pdf转word的软件,效果均不太理想,ABBYYFineReader可以说是各类OCR软件中识别效果最好,识别速度较快的软件。而且最新版的软件,响应较快,没有出现卡顿现象。
如果手头有保存的pdf或扫描格式的词典,无法进行编辑搜索,都可以做这样的处理,通过OCR软件识别成可编辑的文本,word或txt或excel格式,通过CATs,Xbench,或R&S等软件进行检索了,这样可大大提高工作效率和术语应用的准确性。
更多阅读
如何复制百度文库中的文章 手机怎样复制百度文库
如何复制百度文库中的文章——简介很多人经常会上百度搜索资料,结果发现在百度文库那边可以找到,兴奋了半天却发现下载时要币的,或者登陆上去麻烦。针对这种情况,今天我给大家带来一个破解百度文库下载的方法,其实非常简单,而且不用下载任
如何删除或者隐藏ps中的参考线和标尺? ps隐藏参考线
有时候从网上下载psd文件打开时,用photoshop打开后,会看到横横竖竖的各色各样的长线,这其实就是photoshop中的“参考线和标尺”,那么如果我们不需要这些 辅助的功能呢?想删除或者 隐藏这些线,那该如何做呢?下面就是自己总结的几条经验,跟大家分享下。
如何忽略word文档中的全部语法错误 word 语法 全部忽略
用户可以借助Word2010中的“拼写和语法”功能检查Word2010文档中存在的单词拼写错误或语法错误,并且可以根据实际需要设置“拼写和语法”选项,使拼写和语法检查功能更适合自己的使用需要。在Word2010中设置“拼写和语法”选项的步骤如
如何把握超跌反弹中的机会 超跌反弹战法
★如何把握超跌反弹中的机会【狼啸】【狼啸收评】1、今日两市主要受到美股再创新低下挫拖累,两市跳空低开,沪指早盘刚好探至60日线得到一定支撑,有所回升,早盘在60-40日线之间震荡运行,午后围绕40日线上下窄幅拉锯整理。沪指收于2071点,
如何利用5月均线的牵引作用经验之谈 牵引腰椎的副作用
(2009-11-30 16:32:33)转载标签: 股票证券经验之谈均线大盘杂谈如何利用5月均线的牵引作用(经验之谈)前一段时间除了工作比较忙之外,家里装修耗费了很多精力。看股票也没有连续的时间,有事随时就走,所以也没有时间更新文章了,抱歉了!昨