`
Horse_Chasing
  • 浏览: 7694 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

spark java api 开发

阅读更多


安装这里就不写了,因为网上已有中文介绍,这里主要是介绍一下入门,和hadoop一样,学习的时候,首先学习spark提供的字符统计例子:javaWordCount



Java代码 

  • import scala.Tuple2; 
  • import spark.api.java.JavaPairRDD; 
  • import spark.api.java.JavaRDD; 
  • import spark.api.java.JavaSparkContext; 
  • import spark.api.java.function.FlatMapFunction; 
  • import spark.api.java.function.Function2; 
  • import spark.api.java.function.PairFunction; 
  •  
  • import java.util.Arrays; 
  • import java.util.List; 
  •  
  • public class JavaWordCount { 
  •   public static void main(String[] args) throws Exception { 
  •     if (args.length 2) { 
  •       System.err.println("Usage: JavaWordCount "); 
  •       System.exit(1); 
  •     } 
  •  
  •     JavaSparkContext ctx = new JavaSparkContext(args[0], "JavaWordCount", 
  •         System.getenv("SPARK_HOME"), System.getenv("SPARK_EXAMPLES_JAR")); 
  •     JavaRDD lines = ctx.textFile(args[1], 1); 
  •  
  •     JavaRDD words = lines.flatMap(new FlatMapFunction() { 
  •       public Iterable call(String s) { 
  •         return Arrays.asList(s.split(" ")); 
  •       } 
  •     }); 
  •      
  •     JavaPairRDD ones = words.map(new PairFunction() { 
  •       public Tuple2 call(String s) { 
  •         return new Tuple2(s, 1); 
  •       } 
  •     }); 
  •      
  •     JavaPairRDD counts = ones.reduceByKey(new Function2() { 
  •       public Integer call(Integer i1, Integer i2) { 
  •         return i1 + i2; 
  •       } 
  •     }); 
  •  
  •     List> output = counts.collect(); 
  •     for (Tuple2 tuple : output) { 
  •       System.out.println(tuple._1 + ": " + tuple._2); 
  •     } 
  •     System.exit(0); 
  •   } 


  •   运行: ./run spark/examples/JavaWordCount  local input.txt
    local:不解析,自己查



    Html代码 

  • Hello World Bye World goole 


  • 运行的结果和haddoop中运行的JavaWordCount  一样



    Html代码 

  • goole: 1 
  • World: 2 
  • Hello: 1 
  • Bye: 1 



  • 所有博客已经转移至leanote:http://blog.leanote.com/shiwei/



    或者:http://luoshiwei.me/


    分享到:
    评论

    相关推荐

      spark 2.0 javaAPI

      spark的javaAPI开发文档,只不过是英文版的。没有做翻译工作。希望对下载人员有帮助。

      Spark高手之路-API编程动手实战

      通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面,包括项目的架构设计,用的的技术剖析、开发实现、运维等等。

      spark全案例

      spark通过 java api开发方法的所有示例代码,保证准确可行

      Spark从入门到精通

      5、Spark案例实战的代码,几乎都提供了Java和Scala两个版本和讲解(一次性同时精通Java和Scala开发Spark); 6、大量全网唯一的知识点:基于排序的wordcount,Spark二次排序,Spark分组取topn,DataFrame与RDD的两种...

      基于Spark Streaming的大数据实时流计算平台和框架,并且是基于运行在yarn模式运行的spark streaming

      包含:实时流任务调度、kafka偏移量管理,web后台管理,web api启动、停止spark streaming,宕机告警、自动重启等等功能支持,用户只需要关心业务代码,无需关注繁琐的技术细节,大大提高实时流开发效率和难度(附...

      javashuffle源码-spark-data-sources:使用V2API开发Spark外部数据源

      开发 Spark 外部数据源 该项目说明了 Spark 2.3.0 中引入的新 V2 Apache Spark 外部数据源 API。 它包括: 一个简单的内存数据库系统 (ExampleDB),它支持说明 API 特性所需的所有数据访问范式 一系列不同复杂度的...

      使用网易云API 开发中的个人音乐网站GuGuMusic.zip

      后端开发:涉及服务器端编程、API开发、数据库集成等技术。 移动应用开发:包括iOS开发(使用Swift或Objective-C)和Android开发(使用Java或Kotlin)等。 大数据技术:包括Hadoop、Spark、Hive等用于处理和分析大...

      neo4j-spark-connector:用于Apache Spark的Neo4j连接器,它使用Spark DataSource API提供从Spark对Neo4j的双向读写访问

      用于Apache Spark的Neo4j连接器 该存储库包含适用于Apache...这将打开提供开发文档的 。 建筑 构建Spark 2.4 您可以同时使用Scala 2.11和Scala 2.12构建Spark 2.4 ./mvnw clean package -P spark-2.4 -P scala-2.11 .

      Spark实战.docx

      1. Spark是特性 ...4. Spark支持的API Scala、Python、Java等 5. 运行模式  Local (用于测试、开发)  Standlone (独立集群模式)  Spark on Yarn (Spark在Yarn上)  Spark on Mesos (Spark在Mesos)

      spark-2.1.0-bin-without-hadoop版本的压缩包,直接下载到本地解压后即可使用

      在Ubuntu里安装spark,spark-2.1.0-bin-without-hadoop该版本直接下载到...它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。

      sparkjava-beers

      Sparkjava啤酒 * .beers项目的服务器端伴侣 我的各种Beers教程( , , 是独立的,可以在没有任何后端的情况下使用。但是恕我直言,可惜只做客户端并用普通文件模拟服务器API。所以这里我们有一个配套项目,我们将...

      大数据技术开发环境搭建.docx

      HBase JAVA API编程实践 64 安装MySQL 68 Hive安装 70 Redis安装和使用 74 MongoDB安装和使用 83 Neo4j安装和使用 96 安装Spark 103 使用 Spark Shell 编写代码 104 Scala独立应用编程 106 Java独立应用...

      Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala

      Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据...

      java开发音乐网站(SSH),主要功能登录 注册 用户管理 音乐期刊管理 音乐的上传等ggMusic.zip

      后端开发:涉及服务器端编程、API开发、数据库集成等技术。 移动应用开发:包括iOS开发(使用Swift或Objective-C)和Android开发(使用Java或Kotlin)等。 大数据技术:包括Hadoop、Spark、Hive等用于处理和分析大...

      gis-spark:适用于正常时空数据的Spark扩展

      用于常规时空数据分析的Spark扩展。 该项目旨在为专业GIS运营充分利用最新框架。 与以前的框架(如GeoSpark,SpatialHadoop等)不同,我们希望我们的框架的语义更符合GIS的世界观。 该存储库仍在开发中。 层的...

      learning-spark:玩Apache Spark

      玩Apache Spark 第一步:运行Spark开发环境 从官方文档开始快速入门: : 让我们实现自包含应用程序。...import org.apache.spark.api.java.function.FilterFunction ; import org.apache.spark.sql.D

      apache-spark-benchmark:Apache Spark 框架的测试基准

      本质上,执行的测试是相似的,只是它们是使用 Apache Spark Java API 完成的,并且还测试了一些额外的配置。 此外,该基准测试不仅可以在 Amazon EC2 上运行,还可以在云和本地的任何集群中运行。 项目执行 项目...

      java6.0源码-mbo-spark:火花探索

      java6.0源码Spark 入门 可以访问本文的更好版本。 本教程写于2013年10 月。 当时, Spark的当前开发版本是0.9.0。 本教程涵盖了 Ubuntu 12.04 上的 Spark 设置: 安装所有 Spark 先决条件 Spark构建和安装 Spark基本...

      java的概要介绍与分析

      Java是一种广泛使用的编程语言,以其跨平台性、面向对象和丰富的API而著名。以下是关于Java的资源描述: Java资源涵盖了从基础知识到高级应用的全方位...Hadoop和Spark等大数据框架使用Java编写,使得Java成为处理大规

      javajsp音乐网站java-Jsp-Music.zip

      后端开发:涉及服务器端编程、API开发、数据库集成等技术。 移动应用开发:包括iOS开发(使用Swift或Objective-C)和Android开发(使用Java或Kotlin)等。 大数据技术:包括Hadoop、Spark、Hive等用于处理和分析大...

    Global site tag (gtag.js) - Google Analytics