暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

喜马拉雅公开的BBC地道英语

loulou分享 2021-02-18
1150

前提:

  1. 浏览器F12开发者模式,筛选请求

  2. 八爪鱼,自动识别网页采集

  3. UE列模式,批量制造脚本

  4. wget命令,批量访问网页

采集过程:

      春节期间,娃的电子笔由于厂商BBC地道英语版权问题突然关闭了,到网上查询了下BBC地道英语的资源的确不多,发现喜马拉雅有公开资源可以访问,若可以接受网页在线、购买喜马拉雅VIP、其他渠道可以获取,那么这篇文章可以到此就结束了。

        https://www.ximalaya.com/waiyu/35417131/382090391

     为了解决娃随时随地听BBC的习惯养成,需要将获取BBC地道英语音频资源,并转入电子笔随时随地播放。

一、获取音频资源地址

       打开链接并同时打开F12网页开发者工具,并再次刷新观察页面列表、F12中的network标签下请求发现可以获取到地道英语所有文章的列表。此时通过八爪鱼工具可以快速抓取清单。(八爪鱼免费版可以临时获取数据,用于组合)

      点击播放单个音频文件,通过F12获取network标签下请求,同时发现有2个请求地址,特别明显,其中是一个翻页的详细列表地址,含有

https://www.ximalaya.com/revision/play/v1/show?id=316654090&sort=1&size=30&ptype=1

结果如下,可通过该地址快速获取所有的文章列表。通过八爪鱼可以快速获取json列表。


第2个地址就是下面这个地址,包含了音频文件及字幕对应的url地址,如下:

https://www.ximalaya.com/revision/play/v1/audio?id=316654090&ptype=1

      自此已找到最原始的音频文件地址及字幕。此时根据第1个地址,调整分页大小pagesize一次性返回,获取列表,然后重组第2个地址,获取所有文章的音频文件地址和字幕地址。思路一致,大家根据熟悉的工具使用,此时我的思路先把第1个地址获取的文章列表贴到excel中,然后八爪鱼直接抓取返回json列表

二、获取音频资源及字幕

    参考以往老惯例,利用UE的列模式,处理好文件名,地址,然后cmd直接下载即可。  

   

      最终就采集到喜马拉雅BBC地道英语的所有的音频文件以及字幕,至此收工。(后续的字幕处理是音视频处理的工作了


文章转载自loulou分享,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论