PDF软件综合性能测评+推荐
PDF类软件大概分为以下几类:阅读、编辑、格式转化工具。不同的用户使用场景不同,不可能所有人都用同一个软件。此前,关于轻量级使用者,仅仅用于阅读使用,我推荐了《SumatraPDF》。对于使用PDF编辑功能较多的用户我多次推荐了《万兴PDF》。
在《多款pdf软件测评》我对市面上的各种知名的pdf软件也做了一个简要的介绍,这些内容如果有需要了解的都可以前往查看。
今天,单独说一说pdf软件中的OCR功能,也就是把pdf转换成可以编辑的文档。
对于普通的pdf来说,一般的在线网站,都可以将pdf转化成word(可编辑版),前不久我对《多个网站》进行了测评,最后推荐的是PDF2GO,然而免费在线转化的功能毕竟有限,虽然可以满足很多场景,但是要求比较严格的情况下,就不好用了。
下面我对Adobe Acrobact、万兴pdf、ABBYY,三款知名的软件进行详细的对比。
测评场景1。前几天有小伙伴让我帮忙把pdf转成word。这个pdf是被签名锁定了,无法编辑。但是总的来说,这本pdf的内容非常清晰,因此对于OCR识别的挑战较小。
Adobe是PDF界的龙头老大,使用Acrobat 2022进行了OCR识别,但是令人意向不到的是,10页pdf竟然一页都没识别出来。此前听有人说,它的OCR识别非常强大。可能是我操作有问题?然后我又尝试了“增强”的设置,以及转成图片再合成pdf后再次识别,结果依旧。名不副实?
然后我用万兴pdf和ABBYY这两款软件分别进行了OCR识别,这两款软件的扫描结果令人相当满意。但是又各有缺点:
1、二者在一些词语中,识别后都有一些空格。ABBYY在识别小标题“1.”的时候,错误的识别成了L,万兴pdf则正确识别。
2、在个别的段落上,万兴pdf识别后出现了错位。ABBYY则未出现此种问题。
总的来说,第一局,ABBYY和万兴pdf基本没啥区别,转化效果均非常好。
下面用更具有挑战的pdf扫描文档进行对比。扫描文件容易出现模糊不清的情况,因此在进行OCR识别的时候,难度还是相当大的。
我截取了一部分内容,可以看到,扫描的不是特别清晰。
首先我还是用了Adobe Acrobat 2022,然后我就把它扔进了垃圾箱,简直是太差劲了,完全识别不出来,不知道是不是这本文件难度太大还是其他原因?
然后再看一下万兴pdf的识别情况。从下图可以看出,识别效果不太理想,很多错别字,可读性较差。但是值得一提的是对数字识别效果较好。
最后我用ABBYY识别,相对来说文字识别的还算可以,错字虽然不少,但还是具有可读性的,毕竟这个扫描版本有点模糊,识别起来难度很大。
对于该扫描文件中,其他较清楚的文字内容,二者识别效果都非常不错。在个别情况下,万兴甚至一度还超过了ABBYY。
万兴pdf识别效果
ABBYY识别效果
在OCR识别上,ABBYY的名声非常大,本地OCR识别几乎无对手。通过前面的对比,总体上来说ABBYY和万兴pdf这两款在OCR识别上不相上下,部分难度较大的识别,ABBYY确实略胜一筹。但是国产软件万兴PDF与俄罗斯的ABBYY,我感觉在这方面差距已经非常小了,甚至可以说各有所长。
高富帅、白富美都在点“在看”
本篇文章来源于微信公众号:知彼而知己