在Windows Python中将不可搜索的Pdf转换为可搜索的Pdf

需要一个解决方案来转换一个PDF文件,其中每个页面都是图像,一个页面可以包含文本、表格或两者的组合到一个可搜索的PDF

我使用了ABBY FineReader Online,这项工作做得非常好,但我正在寻找一种可以通过Windows Python实现的解决方案

我已经做了详细的分析,下面的链接接近我想要的,但并不准确:

扫描图像/PDF到可搜索图像/PDF

它告诉我们首先要使用Ghost脚本将其转换为图像,然后直接转换为文本。我不相信tesseract会将不可搜索的PDF转换为可搜索的PDF

将可搜索PDF转换为不可搜索PDF

上述解决方案有相反的帮助,即将可搜索转换为不可搜索。我还认为这些在Ubuntu/Linux/MacOS中是有效的

有人能告诉我,在Windows Python中实现不可搜索到可搜索的Python代码应该是什么吗


更新1

我用Asprise Web Ocr获得了预期的结果。以下是链接和代码:

https://asprise.com/royalty-free-library/python-ocr-api-overview.html

我正在寻找一种只能通过Windows Python库实现的解决方案

  1. 以后无需支付订阅费用
  2. 我每天需要转换数千个文档,将一个文档上传到API,然后下载,这样会很麻烦

更新2

我知道将不可搜索的pdf直接转换为文本的解决方案。但我正在寻找他们将不可搜索的PDF转换为可搜索PDF的任何方法。我有使用PyPDF2将PDF转换为文本的代码

实际上,您不需要将pdf中的所有内容都转换为文本。文本将保留为文本,表格将保留为表格,如果可能,图像应成为文本。
您需要一个实际读取pdf的脚本,并在块上开始转换。脚本将编写文本块,直到文档被完全读取,然后将其转换为pdf。差不多

如果第_行为第_行文本():
按原样写出第行
如果行_为_img():
转换代码下面的注释
...
..
.

现在,transform\u img\u in\u text()我认为这可以通过许多外部库来完成,您可以使用的一个库是:

Tesseract OCR Python

您可以通过pip下载此库,上面的链接中提供了说明

发表评论