暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

手机号码归属地全库生成分析

Python爬虫和数据挖掘 2021-07-08
3628

文章目录


  • 文章目录

    • 1. 手机号码组成

    • 2. 手机号码段

    • 3. 生成手机号码全库

    • 4. 手机号码归属地数据源

    • 5. 总结


1. 手机号码组成


我国手机号码由11位组成,其中,前3位网络识别号,第4-7位为地区编码,第8-11位为用户号码

2. 手机号码段


中国移动号段:

134 135 136 137 138 139 147 148 150 151 152 157 158 159  165 172 178 182 183 184 187 188 198

中国联通号段:

130 131 132 145 146 155 156 166 171 175 176 185 186

中国电信号段:

133 149 153 173 174 177 180 181 189  191  199

虚拟运营商:

170

3. 生成手机号码全库


手机号码段相对固定,我搜集整理到号码段是48个,为了获取其完整的归属地数据,我首先生成全库。原理是,号码总共11,前三位代表网络识别号(运营商),第4-7位为地区编码,最后4位才是用户标号,因此要获取归属地数据,我们只需要前8位即可,排列组合总共48(号码段) * 10000(10的4次方) = 480000种情况。由此生成号码全库

4. 手机号码归属地数据源


网上有很多数据源,比如
百度 https://haoma.baidu.com/
IP138  http://www.ip138.com/sj/
这些网站的数据采集十分简单,不在介绍具体的代码实现,主要是了解爬虫的分析思路。

5. 总结


  1. 了解手机号码的组成:前3位网络识别号,第4-7位为地区编码,第8-11位为用户号码
  2. 生成手机号码全库(只根据前8位即可),共480000种排列组合
  3. 找合适的数据源,进行数据采集,逐条更新 480000条数据的归属地信息即可,截止到目前为止,供累计获取和更新434280条有归属地信息的数据
  4. 全库48W条数据,数据源采集很简单,不在赘述
文章转载自Python爬虫和数据挖掘,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论