使用R保留包含字符串匹配的XML节点- Webscraping

lo8azlld 于 2023-04-18 发布在其他

关注(0)|答案(1)|浏览(144)

我尝试使用R/XML过滤并只保留包含某些字符串匹配的节点。我已经收集了在网页上查找的文本，但我只想在清理之前过滤掉剩余的节点。下面是其中两个节点的示例：

<tr>\n<td>Fiscal Year End:</td>\r\n\t\t\t\t\t\t\t<td class="right-align">Oct 
<tr>\n<td>Term:</td>\r\n\t\t\t\t\t\t\t<td class="right-align">No</td>\r\n\t\

因为“Fiscal Year End”在其中一个节点中，而“Term”在另一个节点中，所以我想保留这两个节点（以及包含字符串匹配的其他节点）。XMLM对象被称为“paragraph”。非常感谢任何帮助，因为我有点生疏了！

来源：https://stackoverflow.com/questions/75347588/retaining-xml-nodes-containing-string-matches-with-r-webscraping

1条答案

按热度按时间

qxgroojn1#

您可以考虑以下方法：

library(stringr)

my_String <- c('<tr>\n<td>Fiscal Year End:</td>\r\n\t\t\t\t\t\t\t<td class="right-align">Oct',
               '<tr>\n<td>Term:</td>\r\n\t\t\t\t\t\t\t<td class="right-align">No</td>\r\n\t')

stringr::str_replace_all(my_String,
                         pattern = "<tr>|<td>|\\n|\\r|\\t|<td class=\"right-align\">|</td>", 
                         replacement = "")

[1] "Fiscal Year End:Oct" "Term:No"

赞(0）回复(0）举报 2023-04-18

我来回答

使用R保留包含字符串匹配的XML节点- Webscraping

1条答案

相关问题

热门标签

最新问答