暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

NO.7 名称编号修正 【NO.6】实际为【NO.7 使用Selector提取数据 -- Selector 对象】

嘉乐Ae小课堂 2020-12-17
137

点击上方蓝字,获得更多精彩内容

      

      【本篇文章用于名称修正,上篇文章“NO.6 使用Selector提取数据 -- Selector 对象” 中标题使用编号发生错误,实际应为 NO.7 使用Selector提取数据 -- Selector 对象”】 


上篇文章中,我们讲解了 Selector 对象,从页面中提取数据的核心技术是 HTTP 文本解析,在 Python 中常用以下模块处理此类问题:
  • BeautifulSoup

    BeautifulSoup 是非常流行的 HTTP 解析库,API 简洁易用,但解析速度较慢。

  • lxml

    lxml 是一套由 C 语言编写的 xml 解析库 libxml2 和 libxslt 的绑定,解析速度更快,API相对复杂。


Scrapy 综合上述两者优点实现了 Selector 类,它是基于 lxml 库构建的,并简化了 API 接口。在 Scrapy 中使用 Selector 对象提取页面中的数据,使用时先通过 XPath 或 CSS 选择器选中页面中要提取的数据,然后进行提取。

关于 Selector 对象的详细介绍及使用,请参考上篇文章:

NO.6 使用Selector提取数据 -- Selector 对象


内容参考:

Scrapy官方文档、《精通Scrapy网络爬虫》、百度



END




这里“阅读原文”,查看github中的代码

文章转载自嘉乐Ae小课堂,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论