我正在尝试解析这个站点。我不想使用selenium。请求正在处理。但是!奇怪的事情发生了。我不能用正则表达式剪切我需要的文本(它就在那里-a如果你打印(data.text),你就可以看到它)。但是re看不到他。如果这个文本被复制到notepad++,它会输出这个--它把这些字符看作一行。
import requests
import re
data = requests.get('https://ru.runetki3.com/?page=1')
print(data.text)
它是什么以及如何使用它?pay attention to the line numbers
2条答案
按热度按时间carvr3hs1#
您可以尝试使用他们的Ajax API加载所有用户名+缩略图:
图纸:
gijlo24d2#
避免在正则表达式中使用
.
,除非您确实想获得任何字符;在这里,用户名(就我所见)只包含-
和字母数字字符,因此您可以使用以下命令检索它们:一种更简单的方法,通过获取除
"
之外的所有字符,消除了处理特殊字符的需要,该方法是:所以这里有一个方法可以得到你想要的信息(我把它们加入了一个字典,但是你可以把它改成你喜欢的任何东西):
示例