有没有人将BeautifulSoup与ASP.NET/C#集成在一起(可能使用IronPython或其他方式)?计划使用该库的目的是从任何随机URL中提取 * 可读的 * 文本。谢谢
uemypmqf1#
Html Agility Pack是一个类似的项目,但用于C#和.NET编辑:要提取所有可读文本,请执行以下操作:
document.DocumentNode.InnerText
字符串请注意,这将返回<script>标记的文本内容。要解决这个问题,您可以删除所有<script>标记,如下所示:
<script>
foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) style.Remove();
型(图片来源:Slaks)
kkih6yb82#
我知道这是相当古老的,但我决定张贴这为未来的参考。我偶然发现这寻找一个类似的解决方案。我发现了一个建立在Html Agility Pack之上的库,名为ScrapySharp。我使用它的方式与BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home非常相似(编辑:断开链接,项目移动到https://github.com/rflechner/ScrapySharp)编辑:https://www.nuget.org/packages/ScrapySharp/有包
d6kp6zgx3#
你可以尝试一下,虽然它目前有一些bug:http://nsoup.codeplex.com/
3条答案
按热度按时间uemypmqf1#
Html Agility Pack是一个类似的项目,但用于C#和.NET
编辑:
要提取所有可读文本,请执行以下操作:
字符串
请注意,这将返回
<script>
标记的文本内容。要解决这个问题,您可以删除所有
<script>
标记,如下所示:型
(图片来源:Slaks)
kkih6yb82#
我知道这是相当古老的,但我决定张贴这为未来的参考。我偶然发现这寻找一个类似的解决方案。
我发现了一个建立在Html Agility Pack之上的库,名为ScrapySharp。
我使用它的方式与BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home非常相似(编辑:断开链接,项目移动到https://github.com/rflechner/ScrapySharp)
编辑:https://www.nuget.org/packages/ScrapySharp/有包
d6kp6zgx3#
你可以尝试一下,虽然它目前有一些bug:
http://nsoup.codeplex.com/