使用Ruby从URL的Html源代码中抓取文本

xzv2uavs 于 2022-09-21 发布在 Ruby

关注(0)|答案(1)|浏览(160)

我已经阅读了几篇关于Stackoverflow的文章和帖子。如果我重复了别人的帖子，我很抱歉。有没有一种方法可以迭代给定URL的HTML源代码并返回Header标记的文本？

示例：

<h2 class='title'>
<a href="/blog/step-by-step-guide-to-building-your-first-ruby-gem">Step-by-Step Guide to Building Your First Ruby Gem</a>
</h2>

该代码查找

标记并返回构建第一个Ruby Gem的分步指南。我知道有Nokogiri gem可以搜索XPath中的节点：

doc.xpath('//h3/a').each do |link|
puts link.content
end

有没有一个我可以做的

doc.html('h1').each do |tag| puts link.content end

我希望这是有意义的……对一种资源的任何方向的洞察都将非常感激。

1条答案

Nokogiri同时具有XPath和CSS访问器，因此您可以

doc.css('h1 > a').each do |tag| puts link.content end

如果您不喜欢XPath。(或者只是'h1'-我不能100%确定你是想要标题中的链接文本，还是标题本身)。