CDH5.15.0 hbase hue 配置后Error 在CDM hue的配置界面搜索 hue_safety将下面代码加入到“值” 123[hbase]hbase_conf_dir={{HBASE_CONF_DIR}}thrift_transport=buffered 在CDM Hbase的配置界面搜索 core-site.xml将下面代码加入到“值” 12345678910111213141516<p 2019-04-27 大数据 #Hue
CDH Error: JAVA_HOME is not set and could not be found. 错误一12hdfs dfs -mkdir -p /flume/mysqlPermission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x 执行命令的用户没有执行权限。直接给当前用户授权。(这种想法是不正确的,不要为了简化输入命令,就试图修改这些东西)正确的做法应该是。切换指定用户执 2019-04-26 大数据 #CDH
TProtocolException: Bad version in readMessageBegin 链接thrift异常 123456789101112131415org.apache.thrift.protocol.TProtocolException: Bad version in readMessageBegin at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol.ja 2019-04-26 大数据 #Hbase
RDD DataSet和DataFrame的区别和应用场景 在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势。 共性1、 RDD、DataFrame和Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利; 2、 三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况 2019-04-24 大数据 #Spark
CDH5.15.0升级spark1.6到2.3 CDH5.15.0安装集群以后,默认安装的spark是1.6版本。添加的时候没有spark2,因为spark1.6好多新功能都不能使用,所以这边对其进行升级。 安装包 parcel、parcel.sha和manifest.json csd 下载parcel等文件点我下载 下载csd文件点我下载 关于版本,csd和parcel的版本要对应上本例子中都是cloudera1;parcel的版本 2019-04-23 大数据 #CDH
CDH5.15.x 启动服务Time out 环境: CDH 5.15.0 + centos7 1Command aborted because of exception: Command timed-out after 150 seconds 这是由于服务端集群未禁用ipv6导致 使用ifconfig命令查看网卡信息,如果出现inet6 fe80::20c:29ff:fed0:3514,说明机器开启了ipv6 编辑**/etc& 2019-04-17 大数据 #CDH
java.lang.NoClassDefFoundError scala/Product$class 环境:windows 7 + idea + scala + spark 本地运行以后报下面错误 1234567891011121314Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class at org.apache.spark.SparkConf$DeprecatedConf 2019-04-16 大数据 #Spark
java.lang.ArrayIndexOutOfBoundsException 10582 环境:windows 7 + idea + scala 1.12.6 + spark 2.4.0 在IDEA中运行报下面错误 123456789101112131415Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 10582 at com.thoughtworks.paranamer.B 2019-04-16 大数据 #Spark
B-树 B+树,称为B加树;那么对于B-树,谁要是读成B减树,那就太丢人了咯,它虽然带着减号,但是要读成B树。 B+树和B-树是一种基础的数据结构,做为开发人员一定要掌握。 什么是B-树首先大家都知道数据库有索引,索引被映射成二叉索引树,被存在于磁盘之上。那么下面我们来看看为啥数据库要使用B-树?换二叉搜索树行不行? 从算法逻辑上来讲,二叉搜索树的查找速度和比较次数都是最小的,但是数据库的实现并没有用二叉 2019-03-27 算法与数据结构