scrapy 用于选择输入标记元素的简略Xpath查询

i86rm4rw 于 2022-11-09 发布在其他

关注(0)|答案(2)|浏览(142)

我正在使用Scrapy爬行蜘蛛，并试图解析输出页面，以选择所有输入标记参数如下：

输入类型：必须是（文本、密码或文件）
input id：如果找不到，请选择[input name]。

我在Scrapy shell中编写了一个测试示例代码，但它没有给予确切的结果。
试验地点：http://testaspnet.vulnweb.com/Signup.aspx

>>> hxs.select('//input[@id] | //input[@type="text"] | /text()').extract()

[u'<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwUKLTY0MzI4NjU4Mw9kFgICAQ9kFgICAQ9kFgQCAQ8WBB4EaHJlZgUKbG9naW4uYXNweB4JaW5uZXJodG1sBQVsb2dpbmQCAw8WBB8AZB4HVmlzaWJsZWhkZHEZ3VN6SP/C2xESDN/Y3p8zhfSB">',

 u'<input type="hidden" name="__EVENTVALIDATION" id="__EVENTVALIDATION" value="/wEWWgKJ+8rsBQLStq24BwK3jsrkBALF97vxAQKozoCcCQKpzpj7DgKSnr/eCQKSnr/eCQKSntPyAgKSntPyAgKSnseJCgKSnseJCgKSnvusAwKSnvusAwKSnu/DDAKSnu/DDAKSnoPmBQKSnoPmBQKSnre9DQKSnre9DQKSnqvQBgKSnqvQBgKSnp+5AwKSnp+5AwKSnrPcDAKSnrPcDAL3pJ3FDwL3pJ3FDwL3pLGYBwL3pLGYBwL3pKU/AvekpT8C96TZ0wkC96TZ0wkC96TN9gIC96TN9gIC96ThjQoC96ThjQoC96SVoAMC96SVoAMC96SJxwwC96SJxwwC96T9rAkC96T9rAkC96SRwwIC96SRwwICyMvj6AUCyMvj6AUCyMuXjw0CyMuXjw0CyMuLogYCyMuLogYCyMu/+Q8CyMu/+Q8CyMvTnQcCyMvTnQcCyMvHMALIy8cwAsjL+9cJAsjL+9cJAsjL7+oCAsjL7+oCAsjLw9MPAsjLw9MPAsjL9/YIAsjL9/YIAq3SwZ8KAq3SwZ8KAq3S9bIDAq3S9bIDAq3S6ckMAq3S6ckMAq3SnewFAq3SnewFAq3SsYMNAq3SsYMNAq3SpaYGAq3SpaYGAq3S2foPAq3S2foPAq3SzZEHAq3SzZEHAq3SofkFAq3SofkFAq3S1Z0NAq3S1Z0NAob5pwUChvmnBQKG+dvZCQKG+dvZCaCOP7DYDQ3mNEhISrmdoTKH9Tws">',

  u'<input name="tbUsername" type="text" id="tbUsername" class="Login">',

  u'<input name="tbPassword" type="password" id="tbPassword" class="Login">',

  u'<input type="submit" name="btnSignup" value="Sign me up" id="btnSignup">']

scrapy

来源：https://stackoverflow.com/questions/11208239/scrapy-xpath-query-to-select-input-tag-elements

2条答案

按热度按时间

zfciruhq1#

text、password或file类型的所有input元素：

//input[@type='text' or @type='password' or @type='file']

我不确定id或name的条件是什么--这将得到这三种类型的所有input元素，它们都有id或name：

//input[(@type='text' or @type='password' or @type='file') and (@id or @name)]

如果要测试id或name（如果id不存在）是否等于某个值（XXXX）：

//input[(@type='text' or @type='password' or @type='file') and (@id='XXXX' or (not(@id) and @name='XXXX'))]

如果要提取id：

//input[@type='text' or @type='password' or @type='file']/@id

我认为如果没有指定id，则无法使用标准XPath提取id或名称。

赞(0）回复(0）举报 2022-11-09

3ks5zfa02#

我不知道Scrapy，但是从纯粹XPath的Angular 来看，下面的代码应该满足您描述的要求：

//input[(@id or @name) and (@type = 'text' or @type = 'password' or @type = 'file')]

另外，我注意到您正在尝试检索所选节点的文本内容，这可能不会返回任何内容，因为输入是自结束标记，不包含内部内容。

赞(0）回复(0）举报 2022-11-09

我来回答

scrapy 用于选择输入标记元素的简略Xpath查询

2条答案

相关问题

热门标签

最新问答