1.新版的 Adobe Reader 可以实现 pdf 和文本的转换,就是使用 Adobe Reader 的“另存为”,它可以把 pdf 的文件另存为“.txt”的文件,然后你可以再把 txt 的转换成 word 的。
2.pdf2all v5.44 汉化版 http://www.cnber.com/softhtml/1683.htm
方法二:自己动手转贴1、复制pdf文本。打开要转换的pdf文件,在菜单栏依次选择“视图”→“连续”,使文件内容可以跨页选取;用鼠标选取所需内容,或按下ctrl+a组合键选中全部文本;按下ctrl+c组合键复制所选内容。
2、粘贴到word文件。打开word程序,按下ctrl+v组合键,将剪贴板中的文本粘贴到新文件中。
?3、转换应保留的回车。这时文本中的回车有三种类型,第一种是每行都有的,完全多余,需要删除,其特征是前面一般没有表示语句结束的标点符号;第二种是每段末尾的,应该保留,其特征是每个回车前面一般都有句号、问号、省略号、叹号、右双引号等表示段落终结的标点符号;第三种是章节标题后的,也要保留,有的特征不明显,有的则被设为与正文不同的字体。首先要做的就是根据第二、三种的特征,将这两类回车替换成其他符号,以免执行第4步时被误删。 ①按下ctrl+h组合键打开“查找和替换”对话框,在“查找内容”处输入“。^p”,在“替换为”处输入“。^l”,其中“^p”代表回车,“^l”代表人工换行符,然后单击“全部替换”按钮,即可将全部以“。”结尾的回车符换成人工换行符。再用同样的方法,替换掉分别以问号、省略号、叹号、右双引号结尾的回车。 ②打开“查找和替换”对话框,在“查找内容”处输入“^p”,依次单击“高级”→“格式”→“字体”,打开字体选择对话框,选取文本标题所用的字体,单击“确定”; 在“替换为”处输入“^l”;单击“全部替换”。这样即可将所有以指定字体显示的标题后面的回车替换为人工换行符。如果标题字体与正文相同,则可根据其他独特标志以类似方法替换,此不赘述。
4、删除所有回车。打开“查找和替换”对话框,在“查找内容”处输入“^p”,“替换为”处不输入任何内容,直接单击“全部替换”,则全部回车都被替换为“空”,即全部删除。
5、还原要保留的回车。打开“查找和替换”对话框,在“查找内容”处输入“^l”,“替换为”处输入“^p”,单击“全部替换”,则全部拟保留的回车都被恢复。 如果还嫌麻烦,我们也可以使用word提供的“宏”操作功能,将一系列的操作录制成可以一次按键、自动执行的“宏”命令,以减少重复工作。操作步骤是: ①单击word菜单栏“工具”→“宏” →“录制新宏”,弹出“录制宏”的对话框; ②单击“键盘”工具图标,按下你将指定给这个宏的快捷键,依次单击“指定”和“关闭”按钮; ③执行从2至5的全部操作; ④单击页面左上方“停止”小窗口中的正方形按钮(停止录制),新宏录制完毕。 这样,下次需要在word中转换粘贴来的pdf文本时,只需要打开空白文件,按下刚才指定的快捷键,一切就全OK了。这样整个操作就简化成了两个步骤:一是复制pdf文档内容,二是在word程序中执行宏操作。
PDF格式怎么转Word格式?_pdf如何转word
pdf已经是图片格式了 要转word只能如下
一、“选择文字工具,选好了贴到word里”
如果你的PDF文件是用文字制做而不是图片制做的,可以“在Adobe Acrobat 7.0中有选择文字的工具,可以选好了贴到word里”。但是根据你介绍的情况,你的PDF文件是用图片做的,所以不能用这种方法。
二、批量截图
截图的办法对于不是很清楚的图片来说,并不可取,因为它要么会损失信息,要么会如楼主所说加大工作量。
我建议你先用Adobe Acrobat中的导出功能,将这个文件导出为图像。做法:在上面菜单上选文件>导出>提取图像为>JPEG文件(其他二种也行,JPEG文件比较小),再按提示,选择一个适当的文件夹,保存图像 。
这种方法保存下来的一张张图片,比你一页页截图省力多了,而且保留了原文件的全部信息。不过500页可不一个小数,会很慢,但至少不用你亲自动手干预了。
三、批量识别
如果你想进行编辑,就必须进行OCR识别。关键在于你如何能够批量进行这个工作。
好一点的OCR软件都可以一次导入多幅图片进行识别,然后输出。不过,好像500页的确有点多了,我从来也没有超过50页的记录,通常也就是二、三十页。就算50页,也比一页一页强,是吧?
我用过不少OCR软件,觉得汉王文本王、清华紫光TH比较好用。它们的识别率都非常高,还可以识别表格、繁体字、英文、竖排文字等;输出方式也很灵活,可以只输出文字,也可以按原稿排版格式输出WORD文件;使用起来也都不复杂。 不知你用的是什么版本的汉王,识别率会那么低。我有的时候识别质量很次的报纸上的文章,它的识别率也还是可以接受的。
四、提高识别率
如果你的底图质量非常差的话,建议你先在图片处理软件中将导出的图片进行放大、去点、锐化等处理,然后再送到OCR中识别。
我估计,你可能还是送入OCR的图片损失了部分原文的信息,造成识别率下降。因为你既然能放大,放大后截图的识别率还可以,那就说明原图的信息足够OCR识别了。只是你在操作过程中损失了部分东西。
所以,我建议你:
1)先将你的PDF文件导出5-10页图片出来
2)用汉王等OCR软件进行批量识别(识别中注意将不规则的部分框除)
3)输出成word文档
如果它们能很顺利地被识别出来,那后面的事就不用我说了。如果不行,那就真的是你的底图的问题了,这就需要对导出的图片进行批量修正处理。