在Windows Python中将不可搜索的Pdf转换为可搜索的Pdf

需要一个解决方案来转换一个PDF文件，其中每个页面都是图像，一个页面可以包含文本、表格或两者的组合到一个可搜索的PDF

我使用了ABBY FineReader Online，这项工作做得非常好，但我正在寻找一种可以通过Windows Python实现的解决方案

我已经做了详细的分析，下面的链接接近我想要的，但并不准确：

扫描图像/PDF到可搜索图像/PDF

它告诉我们首先要使用Ghost脚本将其转换为图像，然后直接转换为文本。我不相信tesseract会将不可搜索的PDF转换为可搜索的PDF

将可搜索PDF转换为不可搜索PDF

上述解决方案有相反的帮助，即将可搜索转换为不可搜索。我还认为这些在Ubuntu/Linux/MacOS中是有效的

有人能告诉我，在Windows Python中实现不可搜索到可搜索的Python代码应该是什么吗

更新1

我用Asprise Web Ocr获得了预期的结果。以下是链接和代码：

https://asprise.com/royalty-free-library/python-ocr-api-overview.html

我正在寻找一种只能通过Windows Python库实现的解决方案

以后无需支付订阅费用

我每天需要转换数千个文档，将一个文档上传到API，然后下载，这样会很麻烦

更新2

我知道将不可搜索的pdf直接转换为文本的解决方案。但我正在寻找他们将不可搜索的PDF转换为可搜索PDF的任何方法。我有使用PyPDF2将PDF转换为文本的代码

实际上，您不需要将pdf中的所有内容都转换为文本。文本将保留为文本，表格将保留为表格，如果可能，图像应成为文本。
您需要一个实际读取pdf的脚本，并在块上开始转换。脚本将编写文本块，直到文档被完全读取，然后将其转换为pdf。差不多

如果第_行为第_行文本（）：按原样写出第行如果行_为_img（）：转换代码下面的注释 ... .. .

现在，transform\u img\u in\u text（）我认为这可以通过许多外部库来完成，您可以使用的一个库是：

Tesseract OCR Python

您可以通过pip下载此库，上面的链接中提供了说明

相关文章：

如何删除/删除virtualenv？

如何在Python3中使用filter、map和reduce

函数参数中是否有空星号？

如何在Python3中将“二进制字符串”转换为普通字符串？

相关文章：

发表评论 取消回复

发表评论取消回复