• Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

      本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =。以后还是要按时完成任务。废话不多说,第四章-第六章主要讲了三个内容:键值对、数据读取与保存与Spark的两个共享特性(累加器和广播变量)。 键值对(PaiRDD) 1.创建 1 #在Python中使用第一个单词作为键创建一个pairR...

    Spark 2016-06-12


  • hive on spark的安装及问题

    配置hivehive-site property namehive.metastore.urisname valuethrift:database:9083value property property namehive.metastore.client.socket.timeoutname !--...

    Spark 2016-01-05


  • Spark Streaming fileStream实现原理

    fileStream是Spark Streaming Basic Source的一种,用于近实时地分析HDFS(或者与HDFS API兼容的文件系统)指定目录(假设:dataDirectory)中新近写入的文件,dataDirectory中的文件需要满足以下约束条件: (1)这些文件格式必须相同,...

    Spark 2015-11-09


  • Spark SQL  inferSchema实现原理探微(Python)

    使用Spark SQL的基础是注册(Register)若干表,表的一个重要组成部分就是模式,Spark SQL提供两种选项供用户选择: (1)applySchema applySchema的方式需要用户编码显示指定模式,优点:数据类型明确,缺点:多表时有一定的代码工作量。 (2)inferS...

    Spark 2015-11-04


  • Spark如何解决常见的Top N问题

    需求 假设我们有一张各个产品线URL的访问记录表,该表仅仅有两个字段:product、url,我们需要统计各个产品线下访问次数前10的URL是哪些? 解决方案 (1)模拟访问记录数据 模拟数据记录共有1000条,其中包括10个产品线:product1、product2、、product10...

    Spark 2015-10-22


  • Spark jar not loaded. Offending class: javax/servlet/Servlet.class

    相关软件版本 Spark1.4.1 ,Hadoop2.6,Scala2.10.5,intelliJ IDEA2014,JDK1.8,Tomcat7 机器及服务: windows7 :包含JDK1.8,IntelliJ IDEA2014,Tomcat7(在IDEA中直接配置Tomcat, 然后启动工程...

    Spark 2015-09-17


  • Machine Learning on Spark——第三节 统计基础(一)

    作者:周志湖 微信号:zhouzhihubeyond 本文主要内容 本文对了org.apache.spark.mllib.stat包及子包中的相关统计类进行介绍,stat包中包括下图中的类或对象: 本文将对其中的部分内容进行详细讲解 获取矩阵列(column-wise)统计信息 Kernel ...

    Spark 2015-09-15


  • Machine Learning on Spark——第四节 统计基础(二)

    作者:周志湖 微信号:zhouzhihubeyond 本节主要内容 Correlation 相关性分析 分层采样(Stratified sampling) 随机数据生成(Random data generation) 1. Correlation 相关性分析 相关性分析用于研究两个随机变量之间...

    Spark 2015-09-15


  • Spark RDD详解

    1.RDD是什么 RDD(Resilient Distributed Dataset):是Spark的核心数据结构,指的是一个只读的、可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。  RDD 是只读的  RDD 是分区记录的集合  RDD 是容错的  RDD...

    Spark 2015-09-07


  • Spark修炼之道(基础篇)——Linux大数据开发基础:第八节:网络管理

    本节主要内容 ifconfig命令 网络配置 其它常用网络管理命令 1. ifconfig命令 ifconfig命令主要用于配置网络接口,如果不加任何参数,则ifconfig命令用于查看当前所有活动网络接口的状态信息,例如: 图中的eth0表示活动的以太网接口,对应的描述信息中给出了网络的整体...

    Spark 2015-09-03


  • Java Web提交任务到Spark

    相关软件版本:Spark1.4.1 ,Hadoop2.6,Scala2.10.5 , MyEclipse2014,intelliJ IDEA14,JDK1.8,Tomcat7机器:windows7 (包含JDK1.8,MyEclipse2014,IntelliJ IDEA14,TOmcat7);ce...

    Spark 2015-08-26


  • Spark入门实战系列--4.Spark运行架构

    【注】该系列文章以及使用到安装包测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、 Spark运行架构1.1术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver...

    Spark 2015-08-19


  • Spark源码阅读笔记之MetadataCleaner

    Spark源码阅读笔记之MetadataCleaner MetadataCleaner运行定时任务周期性的清理元数据(metadata),有6种类型的元数据:MAP_OUTPUT_TRACKER,executor跟踪各个map任务输出的存储位置的数据,根据spark.cleaner.ttl.MAP_...

    Spark 2015-08-11


  • Spark学习笔记(一)

    Spark知识掌握 第一阶段 要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等; 第二阶段: 精通Spark平台本身提供给开发者API 1,掌握Spark中面向RDD的开发模式,掌握各种transformation和action函数的使用; 2,掌握Spark中的宽依赖和...

    Spark 2015-08-05


  • Azure HDInsight 和 Spark 大数据实战(二)

    HDInsight cluster on Linux 登录 Azure portal 点击左下角的 NEW 按钮,然后点击 DATA SERVICES 按钮,点击 HDINSIGHT,选择 HADOOP ON LINUX,如下图所示。 输入集群名称,选择集群大小和账号,设定集群的密码和存储账号,...

    Spark 2015-08-04


  • 在 Azure HDInsight 中安装和使用 Spark

    Spark本身用Scala语言编写,运行于Java虚拟机(JVM)。只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark。如果您想使用Python API需要安装Python解释器(2.6或者更高版本),请注意Spark暂不支持Python 3。 下载Spark 首先下载Sp...

    Spark 2015-08-04


  • Spark SQL and DataFrame Guide(1.4.1)——之Data Sources

    数据源Data Sources Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表。 1. 通用的LoadSave函数 默认的数据源适用所有操作(可以用spark.sql.sources.default设置默认值) ...

    Spark 2015-07-31


  • spark1.3.1使用基础教程 分类: B8_SPARK 2015-04-28 11:10 1651人阅读 评论(0) 收藏

      spark可以通过交互式命令行及编程两种方式来进行调用: 前者支持scala与python 后者支持scala、python与java 本文参考https: 再详细资料及用法请见https:   建议学习路径: 1、安装单机环境: 2、快速入门,有简单的印象:本文http: 3、学习scala...

    Spark 2015-07-30


  • Spark Streaming教程

      废话不说,先来个示例,有个感性认识再介绍。 这个示例来自spark自带的example,基本步骤如下: (1)使用以下命令输入流消息: $ nc -lk 9999 (2)在一个新的终端中运行NetworkWordCount,统计上面的词语数量并输出: $ binrun-example st...

    Spark 2015-07-30


  • Spark机器学习库MLib分类和回归文档V1.4.1(翻译)

    Spark MLib分类与回归 MLlib支持各种方法二分类,多分类,和回归分析。下表概述了每个类型的问题支持的算法。 问题类型 支持的方法 二分类 线性支持向量机,Logistic回归,决策树,朴素贝叶斯 多类分类 决策树,朴素贝叶斯 回归 线性最小二乘,Lasso,岭回归,决策树 这些方法的更多...

    Spark 2015-07-22


热门影视