ruby 从HTML中提取XML？

mm9b1k5b 于 2023-01-12 发布在 Ruby

关注(0)|答案(3)|浏览(213)

Reference page
XML嵌入在返回的HTML页面的<pre>标记下。我可以提取<pre>标记的内容，但无法将其正确转换为XML。我尝试使用NodeSet类的to_xml方法，但似乎行尾（\n）扰乱了解析。
下面是我的代码片段：

url = "http://www.ncbi.nlm.nih.gov/pubmed/?term=NS044283[GR]&dispmax=200&report=xml"
doc = Nokogiri::XML(open(url))
pre = doc.xpath('//pre')
xml = pre.to_xml
contents = Nokogiri::XML(xml)
articles = contents.xpath('\\PubmedArticle')
(article = [])

ruby

来源：https://stackoverflow.com/questions/14185439/extracting-xml-from-html

3条答案

按热度按时间

vojdkbi01#

因为无论如何都要使用Nokogiri来解析它，所以只需调用content而不是to_xml：

require 'nokogiri'
require 'open-uri'
url = "http://www.ncbi.nlm.nih.gov/pubmed/?term=NS044283[GR]&dispmax=200&report=xml"
doc = Nokogiri::XML(open(url))
pre = doc.xpath('//pre')
xml = "<root>" + pre.text + "</root>"
contents = Nokogiri::XML(xml)
articles = contents.css('PubmedArticle')
puts contents.css('ArticleTitle').map{|x| x.content}.count   
=> 25

赞(0）回复(0）举报 2023-01-12

rhfm7lfc2#

正在检索的文档不是有效的XML或HTML。为创建它的人感到羞耻。
下面是前200个字符，显示了他们的一些困惑：

require 'open-uri'
url = "http://www.ncbi.nlm.nih.gov/pubmed/?term=NS044283[GR]&dispmax=200&report=xml"
puts open(url).read[0..200]

该函数返回：

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<pre>
&lt;PubmedArticle&gt;
    &lt;Medl

幸运的是，或者，也许是决定性的，Nokogiri通过对格式错误的HTML有点宽容来解决这个问题。

赞(0）回复(0）举报 2023-01-12

6ovsh4lw3#

嵌入的XML无效（HTML转义）。请尝试取消转义

...
xml = CGI.unescapeHTML(pre.to_xml) # or CGI.unescapeHTML(pre.to_s)
...

赞(0）回复(0）举报 2023-01-12

我来回答

ruby 从HTML中提取XML？

3条答案

相关问题

热门标签

最新问答