一般用CAJ文件浏览器自带的识别功能,一点一点的复制粘贴,速度较慢、精确度不高。
推荐快速方法:从CAJ文件中提取文本前需要做好以下准备工作,安装CAJ文件浏览器5.5,安装Office2003,并完全安装Office工具MicrosoftOffice Document Imaging,然后在打印机里面会增加Microsoft OfficeDocument Image Writer打印机。 Microsoft Office DocumentImage可以非常准确的全文件识别转化中文、英文、表格。
CAJ文件的识别:
(一)首先,从网上下载CAJ格式的资料文件保存到本地硬盘上。
(二)然后,启动CAJViewer浏览器程序,并在该程序中打开刚才保存的CAJ格式的文件。浏览文件到最后一页后,不要关闭CAJ浏览器程序。
(三)在CAJ浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为MicrosoftOffice Document ImageWriter打印机,勾选打印到文件选项和确定打印页数。
(四)保存打印文件(*.prn)到适当位置。等待打印完成后,MicrosoftOffice Document Image 自动打开刚才保存的打印文件。
(五)在Microsoft Office DocumentImage窗口中,选择“页面”菜单中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用OCR识别文本”提取文本。
(六)选择“工具”下的“将文本发送到word”,最后将把整个CAJ文件识别输出到word文件中。
如何将caj格式转化为word格式 ?
caj文件的识别:
1)局部文字识别:直接使用caj浏览器的ocr
2)全文件识别:打印到Microsoft Office Document ImageWriter打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用MicrosoftOffice DocumentImage打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF文件识别输出到word文件中。
注意:Microsoft Office DocumentImage可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处理图形的识别问题,MicrosoftOffice DocumentImage的这种处理方法已经是非常好的解决这个问题了。)
3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为word。
先用CAJViewer打开caj文件,然后,然后请看以下:
在编辑菜单栏中包括【复制】、【复制位图】、【查找】、【全部选择】,可以方便地实现文本摘录,摘录结果可以方便的粘贴到WPS、WORD等编辑器中进行任意编辑,方便读者摘录和保存。
【操作】
1.在【浏览】菜单中点击【鼠标用于选择后】(鼠标变为箭头+T形状),按方向键上下移动,可以滚动浏览屏幕。箭头指向左上方时点击开头,指向右上方时点击结尾,使其呈反色显示,按工具栏的【复制】按钮。
2.打开word新建文档进行【粘贴】即可得到摘录的文本。同时也可以编辑存盘。
【复制】:可以复制选定的文件或其中部分内容。
【复制位图】:系统默认设置,鼠标所在的位置出现一个十字,点住拖到选定位置划出一片区域,点复制,将选中区域内容复制到剪贴板。
【查找】:在弹出的对话框里输入要查找的文字,点击【查找】进行查找,按下【向前查找】或【向后查找】按纽,可以翻到上一页、下一页查找。
【全部选择】:将页面的内容全部选定。