Hoey
  • 主页
  • 归档
  • 分类
  • 标签
  • 关于
  •   
  •   

部署storm集群

1.准备三个虚拟机搭建Storm集群安装步骤参考2018-12-02-VirtualBox安装CentOS6.7 2.配置集群Hosts所有的虚拟机上都需要配置hosts 12345vi /etc/hosts#192.168.239.128 storm01 zk01 hadoop01#192.168.239.129 storm02 zk02 hadoop02#192.168.239.130 sto
2018-12-02
大数据
#Storm

离线日志分析系统(三)

前一阶段把集群搭建好,编写好FlumeNG采集数据到HDFS上以后,开始使用MapReduce对数据进行初步处理,处理分三个阶段 1.过滤掉无用的数据,像访问的静态资源、访问状态码非200的等。 2.基于第一步的结果进行日志增强,给每条记录添加SessionId,按访问时间排序后加上递增标号 3.初步统计访问起始时间、访问结束时间、进入页面、离开页面、一共访问了多少页面等数据 代码的整体结构 第
2018-11-27
大数据
#Hadoop

离线日志分析系统(二)

系统的方向为收集ngnix访问日志,做离线批处理统计分析,为上层决策提供数据支持 系统设计小型集群(3台 CentOS),cor1/cor2/cor3 核心组件下面对用到的核心组件做一个概述,心里有一个大概 FlumeNG : 主要收集WEB端产生的ngnix日志汇总到HDFS中 HDFS : 存放前一天汇总的数据,为后续离线分析做准备 MapReduce : 主要进行ETL,
2018-11-26
大数据
#Hadoop

离线日志分析系统(一)

该系统主要对前一天ngnix日志进行离线批处理统计和分析,从大量数据中晒出有价值的数据,为上层决策提供数据支持,主要思想是MapReduce。使用分布式HDFS文件系统作为离线数据存储,使用hive简化MapReduce开发。 ngnix 日志的格式很简单,我们要做的就是从中发掘出有价值的数据,ngnix的access.log的格式,摘抄部分日志 12127.0.0.1 - - [05/Sep/2
2018-11-25
大数据
#Hadoop

Ngnix Websocket 400 错误

Spring WebSocket 结合ngnix 之后400报错! 今天消息推送功能上测试服以后发现不能使用,到测试服上发现发送的请求一直返回400。后来定位到是ngnix配置问题。联系运维哥们将下面代码添加上以后成功解决: 123456789map $http_upgrade $connection_upgrade { default upgrade; '&#x2
2018-11-15
后端
#WebSocket

Spring WebSocket消息推送

需求:后台编辑推送消息,前台实时接收消息 下面是js实现 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970$(function() { bdipOnline();})
2018-11-14
后端
#WebSocket

Hive 各种Join总计汇总

关于hive中的各种join,下边做个总结 先准备数据 1234567891011121314# a.txt1,a2,b3,c4,d7,y8,u# b.txt2,bb3,cc7,yy9,pp 建表: 123456create table a(id int,name string)row format delimited fields terminated by ',';cr
2018-11-06
大数据
#Hive

十二种大数据经典案例你做过几个?

1离线数据处理项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。 2流式数据处理项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网站交易情况
2018-10-28
大数据

Lambda架构

Lambda架构是由Strom的作者提出的一种通用系统架构,可以说它是一种混合式架构,其架构大致分为三层batch layer、speed layer和serving layer。 batch layer : 称为批处理层,主要进行离线数据处理和计算。计算数据量大,延时高是其主要特点 speed layer : 称为流处理层 ,主要进行实时数据处理和计算。远远不断的处理过来的数据,延时低是其
2018-10-28
大数据

人脸识别

最近项目需要进行人人脸识别、人脸特征分析相关开发。 在Raspberry Pi中安装face_recognition库,github代码库https://github.com/ageitgey/face_recognition Raspberry 操作系统信息: 硬件需要准备Raspberry Pi主板和PiCamera摄像头。 安装dlibface_recognition 依赖dlib库,先安
2018-10-13
物联网
#Raspberry Pi
1…7891011…19

Search

Hexo Fluid