使用R保留包含字符串匹配的XML节点- Webscraping

lo8azlld  于 2023-04-18  发布在  其他
关注(0)|答案(1)|浏览(144)

我尝试使用R/XML过滤并只保留包含某些字符串匹配的节点。我已经收集了在网页上查找的文本,但我只想在清理之前过滤掉剩余的节点。下面是其中两个节点的示例:

<tr>\n<td>Fiscal Year End:</td>\r\n\t\t\t\t\t\t\t<td class="right-align">Oct 
<tr>\n<td>Term:</td>\r\n\t\t\t\t\t\t\t<td class="right-align">No</td>\r\n\t\

因为“Fiscal Year End”在其中一个节点中,而“Term”在另一个节点中,所以我想保留这两个节点(以及包含字符串匹配的其他节点)。XMLM对象被称为“paragraph”。非常感谢任何帮助,因为我有点生疏了!

qxgroojn

qxgroojn1#

您可以考虑以下方法:

library(stringr)

my_String <- c('<tr>\n<td>Fiscal Year End:</td>\r\n\t\t\t\t\t\t\t<td class="right-align">Oct',
               '<tr>\n<td>Term:</td>\r\n\t\t\t\t\t\t\t<td class="right-align">No</td>\r\n\t')

stringr::str_replace_all(my_String,
                         pattern = "<tr>|<td>|\\n|\\r|\\t|<td class=\"right-align\">|</td>", 
                         replacement = "")

[1] "Fiscal Year End:Oct" "Term:No"

相关问题