unix 使用shell在pdf中查找字符串

kyks70gy 于 2023-10-18 发布在 Unix

关注(0)|答案(4)|浏览(201)

我想知道是否有任何方法来检查是否有一个字符串内的pdf文件使用shell脚本？我在找这样的东西：

if [search(string,pdf_file)] > 0 then  
   echo "exist"
fi

unix

来源：https://stackoverflow.com/questions/14449968/find-string-inside-pdf-with-shell

4条答案

按热度按时间

wribegjk1#

这种方法按页转换.pdf文件，因此可以更具体地定位搜索字符串$query的位置。

# search for query string in available pdf files pagewise
for i in *.pdf; do
    pagenr=$(pdfinfo "$i" | grep "Pages" | grep -o "[0-9][0-9]*")
    fileid="\n$i\n"
    for (( p=1; p<=pagenr; p++ )); do
        matches=$(pdftotext -q -f $p -l $p "$i" - | grep --color=always -in "$query")
        if [ -n "$matches" ]; then
            echo -e "${fileid}PAGE: $p"
            echo "$matches"
            fileid=""
        fi
    done
done

pdftotext -f $p -l $p将转换范围限制为仅一个由数字$p标识的页面。grep --color=always允许在随后的echo中保护匹配高光。fileid=""只是确保.pdf文档的文件名对于多个匹配项只打印一次。

赞(0）回复(0）举报 2023-10-18

t8e9dugd2#

正如Simon所指出的那样，您可以使用pdftotext将pdf转换为纯文本，然后只需搜索您要查找的内容。
转换后，您可以使用grep，bash regex或任何您想要的变体：

while read line; do

    if [[ ${line} =~ [0-9]{4}(-[0-9]{2}){2} ]]; then
        echo ">>> Found date;";
    fi

done < <(pdftotext infile.pdf -)

赞(0）回复(0）举报 2023-10-18

uurity8g3#

这是一个很老的问题，但仍然相关。可以使用https://pdfgrep.org/
例如，在所有PDF中搜索“我的字符串”：
pdfgrep --page-number --ignore-case "My string" *.pdf

赞(0）回复(0）举报 2023-10-18

8oomwypt4#

PDF文档中的每个字母通常单独设置。因此，您必须将.pdf转换为文本，这将使文本减少到一个简单的流。
我会试试这个：

grep -q 'a \+string' <(pdf2text some.pdf - | tr '\n' ' ') && echo exists

tr连接换行符。\+允许单词之间有1个或多个空格字符。最后，grep -q只返回基于匹配的退出状态0/1。它不打印匹配的行。

赞(0）回复(0）举报 2023-10-18

我来回答

unix 使用shell在pdf中查找字符串

4条答案

相关问题

热门标签

最新问答