需要一个解决方案来转换一个PDF文件,其中每个页面都是图像,一个页面可以包含文本、表格或两者的组合到一个可搜索的PDF
我使用了ABBY FineReader Online,这项工作做得非常好,但我正在寻找一种可以通过Windows Python实现的解决方案
我已经做了详细的分析,下面的链接接近我想要的,但并不准确:
扫描图像/PDF到可搜索图像/PDF
它告诉我们首先要使用Ghost脚本将其转换为图像,然后直接转换为文本。我不相信tesseract会将不可搜索的PDF转换为可搜索的PDF
将可搜索PDF转换为不可搜索PDF
上述解决方案有相反的帮助,即将可搜索转换为不可搜索。我还认为这些在Ubuntu/Linux/MacOS中是有效的
有人能告诉我,在Windows Python中实现不可搜索到可搜索的Python代码应该是什么吗
更新1
我用Asprise Web Ocr获得了预期的结果。以下是链接和代码:
https://asprise.com/royalty-free-library/python-ocr-api-overview.html
我正在寻找一种只能通过Windows Python库实现的解决方案
- 以后无需支付订阅费用
- 我每天需要转换数千个文档,将一个文档上传到API,然后下载,这样会很麻烦
更新2
我知道将不可搜索的pdf直接转换为文本的解决方案。但我正在寻找他们将不可搜索的PDF转换为可搜索PDF的任何方法。我有使用PyPDF2将PDF转换为文本的代码
实际上,您不需要将pdf中的所有内容都转换为文本。文本将保留为文本,表格将保留为表格,如果可能,图像应成为文本。
您需要一个实际读取pdf的脚本,并在块上开始转换。脚本将编写文本块,直到文档被完全读取,然后将其转换为pdf。差不多
如果第_行为第_行文本():
按原样写出第行
如果行_为_img():
转换代码下面的注释
...
..
.
现在,transform\u img\u in\u text()我认为这可以通过许多外部库来完成,您可以使用的一个库是:
Tesseract OCR Python
您可以通过pip下载此库,上面的链接中提供了说明