博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Scrapy下xpath基本的使用方法
阅读量:6981 次
发布时间:2019-06-27

本文共 1002 字,大约阅读时间需要 3 分钟。

Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/

之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。

xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。

 

几个简单的例子:

/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。

/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
//td: 选择所有 <td> 元素
//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素

 

基本的路径意义:

 

表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。

   

具体的使用实例:

比如对http://www.dmoz.org/Computers/Programming/Languages/Python/Books/ 网站提取特定的信息

1)先在第一层tutorial文件夹下,在cmd中输入: scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/  

2)现在比如我们需要抓取该网页的tittle,由于前面的shell命令已经实例化了一个selector的对象sel, 就输入 sel.xpath('//title') 获取了网页的标题。

3)比如我们想要知道该网页下的www.****.com形式的链接,可以使用xpath 结合正则表达式re提取信息,输入   sel.xpath('//@href').re("www.[0-9a-zA-Z]+\.com")

 

部分参考:

正则表达式参考:

转载于:https://www.cnblogs.com/cnfangbo/p/8512091.html

你可能感兴趣的文章
免费的私人代码托管(bitbucket) 和 常用git指令
查看>>
手机端head部分
查看>>
对象Equals相等性比较的通用实现
查看>>
codeforces 876 D. Sorting the Coins
查看>>
maven学习(4)-Maven 构建Web 项目
查看>>
java高并发编程(二)
查看>>
【转】unity3d 在UGUI中制作自适应调整大小的滚动布局控件
查看>>
Java 对synchronized的补充Lock锁
查看>>
Collection集合List、Set
查看>>
Effective java 43返回零长度的数组或者集合而不是null
查看>>
Spring学习系列(二) 自动化装配Bean
查看>>
学习Mybatis与mysql数据库的示例笔记
查看>>
将一个普通的java项目转化为maven项目
查看>>
Interesting visualization tools for profiling.
查看>>
可以左右移动多选下拉列表的javaScipt(可以兼容IE和firefox)
查看>>
POJ 2752 Seek the Name, Seek the Fame
查看>>
Ajax
查看>>
javascript通过json数据按格式生成一个按字母分类排序的分类信息表
查看>>
错误:You can't specify target table 'xxx' for update in FROM clause的解决
查看>>
新盒模型移动端的排版
查看>>