部署storm集群 1.准备三个虚拟机搭建Storm集群安装步骤参考2018-12-02-VirtualBox安装CentOS6.7 2.配置集群Hosts所有的虚拟机上都需要配置hosts 12345vi /etc/hosts#192.168.239.128 storm01 zk01 hadoop01#192.168.239.129 storm02 zk02 hadoop02#192.168.239.130 sto 2018-12-02 大数据 #Storm
离线日志分析系统(三) 前一阶段把集群搭建好,编写好FlumeNG采集数据到HDFS上以后,开始使用MapReduce对数据进行初步处理,处理分三个阶段 1.过滤掉无用的数据,像访问的静态资源、访问状态码非200的等。 2.基于第一步的结果进行日志增强,给每条记录添加SessionId,按访问时间排序后加上递增标号 3.初步统计访问起始时间、访问结束时间、进入页面、离开页面、一共访问了多少页面等数据 代码的整体结构 第 2018-11-27 大数据 #Hadoop
离线日志分析系统(二) 系统的方向为收集ngnix访问日志,做离线批处理统计分析,为上层决策提供数据支持 系统设计小型集群(3台 CentOS),cor1/cor2/cor3 核心组件下面对用到的核心组件做一个概述,心里有一个大概 FlumeNG : 主要收集WEB端产生的ngnix日志汇总到HDFS中 HDFS : 存放前一天汇总的数据,为后续离线分析做准备 MapReduce : 主要进行ETL, 2018-11-26 大数据 #Hadoop
离线日志分析系统(一) 该系统主要对前一天ngnix日志进行离线批处理统计和分析,从大量数据中晒出有价值的数据,为上层决策提供数据支持,主要思想是MapReduce。使用分布式HDFS文件系统作为离线数据存储,使用hive简化MapReduce开发。 ngnix 日志的格式很简单,我们要做的就是从中发掘出有价值的数据,ngnix的access.log的格式,摘抄部分日志 12127.0.0.1 - - [05/Sep/2 2018-11-25 大数据 #Hadoop
Ngnix Websocket 400 错误 Spring WebSocket 结合ngnix 之后400报错! 今天消息推送功能上测试服以后发现不能使用,到测试服上发现发送的请求一直返回400。后来定位到是ngnix配置问题。联系运维哥们将下面代码添加上以后成功解决: 123456789map $http_upgrade $connection_upgrade { default upgrade; ' 2018-11-15 后端 #WebSocket
Spring WebSocket消息推送 需求:后台编辑推送消息,前台实时接收消息 下面是js实现 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970$(function() { bdipOnline();}) 2018-11-14 后端 #WebSocket
Hive 各种Join总计汇总 关于hive中的各种join,下边做个总结 先准备数据 1234567891011121314# a.txt1,a2,b3,c4,d7,y8,u# b.txt2,bb3,cc7,yy9,pp 建表: 123456create table a(id int,name string)row format delimited fields terminated by ',';cr 2018-11-06 大数据 #Hive
十二种大数据经典案例你做过几个? 1离线数据处理项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。 2流式数据处理项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网站交易情况 2018-10-28 大数据
Lambda架构 Lambda架构是由Strom的作者提出的一种通用系统架构,可以说它是一种混合式架构,其架构大致分为三层batch layer、speed layer和serving layer。 batch layer : 称为批处理层,主要进行离线数据处理和计算。计算数据量大,延时高是其主要特点 speed layer : 称为流处理层 ,主要进行实时数据处理和计算。远远不断的处理过来的数据,延时低是其 2018-10-28 大数据
人脸识别 最近项目需要进行人人脸识别、人脸特征分析相关开发。 在Raspberry Pi中安装face_recognition库,github代码库https://github.com/ageitgey/face_recognition Raspberry 操作系统信息: 硬件需要准备Raspberry Pi主板和PiCamera摄像头。 安装dlibface_recognition 依赖dlib库,先安 2018-10-13 物联网 #Raspberry Pi