ubuntu16.04 Teamviewer不能远程控制 问题描述通过windows 7旗舰版 可以连接ubuntu的TeamViewer,但是鼠标不能控制电脑。ubuntu的版本是16.04TLS,TeamViewer 的版本是 13 解决开始以为是Ubuntu中TeamViewer的权限没有开,但是后来看了看权限是开着的 在网上搜索了好久,各种说法都有,试了好多都没用。最后通过在askubuntu搜索TeamViewer关键字,一页一页看看了10 2018-05-08 Linux #Ubuntu
Azkaban任务调度系统部署 概述为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示: 1、 通过Hado 2018-05-05 大数据 #Azkaban
MapReduce小例子 案例一 : 统计单词出现个数 a b a b aa b a b ab a b a b a b ab a b a,1 a,1 a,1 a,1 a,1 a,1 a,1 a,1 a,1 | b,1 b,1 b,1 b,1 b,1 b,1 b,1 b,1 b,1 k -> a values -> 1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1sum = 0f 2018-05-04 大数据 #MapReduce
flume日志收集系统部署 flume 是cloudera提供的一个高可靠、高可用、分布式的日志采集、聚合和传输的工具,flume最大的特点就是可以方便的定义各种sources(从哪收)和sinks(放在哪),来适应我们不同的业务场景。 使用进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME 1. 从网络端口接收数据,下沉到logger在flume的conf目录下新建一个文件,将 2018-05-04 大数据 #Flume
搭建基于Hadoop的Hive数据仓库 Hive是基于Hadoop的一个数据仓库,我们可以将结构化的数据映射为一张数据库表,为此提供类似与SQL的HQL来查询数据。使用Hive可以提高我们的开发效率,缩短开发周期,最重要的是它降低了编写MapReduce编写的难度,可能在应对很复杂的mapReduce程序时,我们只需要写一条简单的sql就可以实现具体功能了。 安装我们可以从Hive的官网https://hive.apache.org/下 2018-05-03 大数据 #Hive
HDFS源码刨析-FileSystem初始化 理一下HDFS上传的工作原理,然后追一下源码。上传工作原理和源码刨析放下一篇总结。 本机环境: 操作系统 ubuntu 16.0.4TLS hadoop版本 hadoop-2.7.3 HA 否(随便搭了个分布式) HDFS上传文件原理图 Client会将文件切分成指定大小的块(block),块的大小默认128M Client会从 2018-04-27 大数据 #HDFS
FTP多线程批量文件下载 最近接到个业务需要使用FTP拉取服务器上数据。要求可以任意指定下载对应目录数据,并且目录结构保持要。处理的数据文件特点分散而且很大。处理的思路大概有两个,一个是在服务端压缩成zip,然后传过来。二是使用多线程单个单个文件传输。在这里我使用的是第二中方法。 思路1.服务端提供一个返回指定文件下的List<String> files 2.客户端拿到files文件列表,遍历单个单个文件请求 2018-04-25 后端 #FTP
MapReduce切片规划源码剖析 切片规划最终会形成一个文件job.split。里面存放这切片信息,首先要明确一点是maptask的数量于切片的数量有直接对应关系。mrappmaster在启动maptask时,会去job.split文件中找切片信息,有几个切片就启动几个maptask,每个切片分配一个maptask并行实例。我们通过追源码,找到了这个文件。 MapReduce框架会把它存在我们本机的某个路径。它是MapReduce 2018-04-22 大数据 #MapReduce
MapReduce的Shuffle机制 在编写MapReduce,启动主程序以后,到底maptask和reducetask之间是怎么工作的?数据是如何进行排序的? 1.inputFormat:我们知道mapreduce主程序初始化job以后会对输入的数据进行切片规划,生成job.split文件,inputFormat会读取job.split文件,根据信息从DHFS中找到要读取的数据,调用recordReader将数据读成一行,传入ma 2018-04-22 大数据 #MapReduce
初识MapReduce mapredice其实就是分而治之的一种思想,hadoop的mapreduce是应对大数据产生的一种计算方式。分为两个步骤,maptask和reducetask。多个maptask并发执行运算输入数据,每个maptask各司其职,各自为政。多个reducetask并发执行,但它依赖于maptask,它输入参数是maptask的输出参数。 mapreduce框架中角色核心角色有三个,分别为mapta 2018-04-22 大数据 #MapReduce