暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Hadoop项目实战

代码论道 2018-07-18
467

1.用户行为日志概述

用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...)用户行为轨迹、流量日志。

为什么要记录用户行为日志?

  • 网站页面的访问量

  • 网站的黏性

  • 推荐

            比如在电商网站上看冰箱洗衣机,后台分析你家在装修,就会推荐给你电视、空调...

用户行为日志生成渠道

  • nginx

  • ajax

 页面嵌入js,获取信息,通过ajax将信息发送到后台记录

用户行为日志内容

访问的系统属性:操作系统、浏览器等等

访问特征:点击的url、从哪儿url跳转过来的、页面上的停留时间

访问信息:session_id、访问ip

日志格式如下:

2013-03023 12:00:08 http://www.taobao.com/17/tracker_u=343554&type=1  B57FJSADF545DFSADF5454 http://hao.360.cn/ 1.196.34.56 null 100

用户行为日志分析的意义

网站的眼睛

 比如:做了百度推广,可以获取转化率

网站的神经

 网站什么位置放置什么内容很重要。

网站的大脑

 比如:最受欢迎的商品是哪些。哪些地方欢迎哪些商品。网页是否需要优化...

离线数据处理架构

数据处理流程

  • 数据采集:Flume

Flume:将web日志写入到HDFS

tip:当访问主站,或通过app访问,用户每一个操作都会有一个请求发送到服务器上,但是在面对大量用户或高并发情况下都是用nginx接受请求,然后转发,进行高并发情况下的负载均衡。

  • 数据清洗

脏数据(spark、hive、mapreduce),清洗完后的数据可以放到HDFS(Hive/Spark SQL)

  • 数据处理

            按照我们的需要进行相应业务的统计和分析

          spark、Hive、MapReduce或其他的一些分布式计算框架

  • 处理结果入库

          结果可以存放到RDBMS、NoSQL

  • 数据的可视化

            通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图

           Echarts、HUE、zeppelin

2.项目需求

需求:统计旅游网站访问日志的浏览器访问次数

3.功能实现

实现方式:MapReduce。

需要看源码的在公众号中联系我

文章转载自代码论道,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论