如何检查pdf是否存在或相同的80%在mysql?

mjqavswn  于 2021-06-24  发布在  Mysql
关注(0)|答案(1)|浏览(299)

如何在mysql中检查pdf是否存在或是否与80%相同?用户想要上传pdf。但问题是鲁普。我认为covert pdf to binary=>我将有一个字符串“x”(该pdf的二进制)保存在mysql中。=>选择like%(接头(1/3长度(x)->2/3长度(x))。也许可以?我在用拉雷维尔谢谢你的阅读

but5z9lq

but5z9lq1#

这在mysql中是不合理的。由于您也在使用php环境,所以可以通过php执行,但是要实现一个通用的解决方案,您需要付出大量的努力。
pdf文件由(可能是压缩的)图像和文本流组成。有几个库可以尝试提取文本,如果以一种简单的方式生成pdf,则可以相当好地工作;然而,如果某些文本被呈现为其字符的图像,或者应用了其他散乱,则它们通常会失败。在这些情况下,您将需要使用ocr来生成显示pdf时所看到的实际文本。还要注意,表和图像超出了这些工具的范围。
一旦有了两个文本文件,查找重叠就变得容易多了,尽管有几种方法。”“相同的80%”可以用几种方式解释,但假设从文件中复制79%的连续文本并再次保存不会触发报警,而复制81%的相同文本则会触发报警。任何diff工具都可以提供关于重复块的信息,对于您的目的可能已经足够了。一个更复杂的方法,但不提供确切的百分比,是使用标准化的压缩距离。

相关问题