Python获取某网页数据并写入excel

搞科技的王宁 2021-02-18

450

首先请大家谅解，尤其是消金和财务的同仁，作为服务台的工作很细很碎，你们的问题我正在处理，很快就会上线。

在年前放假的前两天，同业的征征叫住了笔者，指着某票据交易所的界面问道，这上面的数据能不能复制下来。

笔者看了一下这个破界面，心里暗道这个不直接可以选中复制，然后粘贴到excel里不就OK，但毕竟是同业部提出来的问题，肯定没那么简单，所以征征指出了一个严肃的问题：

这个网页没有批量导出的功能，也就是说如果他要看一个月的利率或者收益率，需要像个傻子一样依次点击日期，再复制粘贴到表里，2021年第一季度都快过了一半了，怎么还会有这么浪费人力的系统？是可忍，孰不可忍？！

于是笔者研究了一下这个网站，打算写一个爬虫，替同业部节省一点人力资源，不要把宝贵的时间浪费在这种低端工作中。

所谓的爬虫说到底就是哲学的三个终极问题：我是谁？我从哪来？我要去哪？错了，是数据结构是什么样的？数据从哪里获取？数据最后要呈现到什么状态？

首先看数据结构：从图上看，数据非常简单，不同的日期、期限有着不同的利率和收益率，而且只有工作日有数据，节假日与周末没有数据。

再看数据如何获取？

这个网页是个明显的动态网页，而且有反爬虫机制，使用最简单的urllib库直接就被503拒绝掉，此时有两种方案：方案A，使用selenium库，模拟点击日期，然后复制数据，最后导出。但是这个方法有很大的缺陷，首先是要在电脑上安装高版本的谷歌浏览器（这个不难）和对应的webdriver（这个就有点麻烦了），其次点击时会调用一个谷歌浏览器进程，众所周知谷歌浏览器进程是出了名的吃内存，一旦浏览器卡住（同业的老爷机是必然会被卡住的）就前功尽弃，最重要的是这种模拟点击的方式为了绕过反爬虫机制每次操作不能太快，所以效率低下。