1.用户行为日志概述
用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...)用户行为轨迹、流量日志。
为什么要记录用户行为日志?
网站页面的访问量
网站的黏性
推荐
比如在电商网站上看冰箱洗衣机,后台分析你家在装修,就会推荐给你电视、空调...
用户行为日志生成渠道
nginx
ajax
页面嵌入js,获取信息,通过ajax将信息发送到后台记录
用户行为日志内容
访问的系统属性:操作系统、浏览器等等
访问特征:点击的url、从哪儿url跳转过来的、页面上的停留时间
访问信息:session_id、访问ip
日志格式如下:
2013-03023 12:00:08 http://www.taobao.com/17/tracker_u=343554&type=1 B57FJSADF545DFSADF5454 http://hao.360.cn/ 1.196.34.56 null 100
用户行为日志分析的意义
网站的眼睛
比如:做了百度推广,可以获取转化率
网站的神经
网站什么位置放置什么内容很重要。
网站的大脑
比如:最受欢迎的商品是哪些。哪些地方欢迎哪些商品。网页是否需要优化...
离线数据处理架构
数据处理流程
数据采集:Flume
Flume:将web日志写入到HDFS
tip:当访问主站,或通过app访问,用户每一个操作都会有一个请求发送到服务器上,但是在面对大量用户或高并发情况下都是用nginx接受请求,然后转发,进行高并发情况下的负载均衡。
数据清洗
脏数据(spark、hive、mapreduce),清洗完后的数据可以放到HDFS(Hive/Spark SQL)
数据处理
按照我们的需要进行相应业务的统计和分析
spark、Hive、MapReduce或其他的一些分布式计算框架
处理结果入库
结果可以存放到RDBMS、NoSQL
数据的可视化
通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图
Echarts、HUE、zeppelin
2.项目需求
需求:统计旅游网站访问日志的浏览器访问次数
3.功能实现
实现方式:MapReduce。
需要看源码的在公众号中联系我。