安装这里就不写了,因为网上已有中文介绍,这里主要是介绍一下入门,和hadoop一样,学习的时候,首先学习spark提供的字符统计例子:javaWordCount
Java代码
import scala.Tuple2;
import spark.api.java.JavaPairRDD;
import spark.api.java.JavaRDD;
import spark.api.java.JavaSparkContext;
import spark.api.java.function.FlatMapFunction;
import spark.api.java.function.Function2;
import spark.api.java.function.PairFunction;
import java.util.Arrays;
import java.util.List;
public class JavaWordCount {
public static void main(String[] args) throws Exception {
if (args.length 2) {
System.err.println("Usage: JavaWordCount ");
System.exit(1);
}
JavaSparkContext ctx = new JavaSparkContext(args[0], "JavaWordCount",
System.getenv("SPARK_HOME"), System.getenv("SPARK_EXAMPLES_JAR"));
JavaRDD lines = ctx.textFile(args[1], 1);
JavaRDD words = lines.flatMap(new FlatMapFunction() {
public Iterable call(String s) {
return Arrays.asList(s.split(" "));
}
});
JavaPairRDD ones = words.map(new PairFunction() {
public Tuple2 call(String s) {
return new Tuple2(s, 1);
}
});
JavaPairRDD counts = ones.reduceByKey(new Function2() {
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
List> output = counts.collect();
for (Tuple2 tuple : output) {
System.out.println(tuple._1 + ": " + tuple._2);
}
System.exit(0);
}
}
运行: ./run spark/examples/JavaWordCount local input.txt
local:不解析,自己查
Html代码
Hello World Bye World goole
运行的结果和haddoop中运行的JavaWordCount 一样
Html代码
goole: 1
World: 2
Hello: 1
Bye: 1
所有博客已经转移至leanote:
http://blog.leanote.com/shiwei/
或者:
http://luoshiwei.me/
分享到:
相关推荐
spark的javaAPI开发文档,只不过是英文版的。没有做翻译工作。希望对下载人员有帮助。
通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面,包括项目的架构设计,用的的技术剖析、开发实现、运维等等。
spark通过 java api开发方法的所有示例代码,保证准确可行
5、Spark案例实战的代码,几乎都提供了Java和Scala两个版本和讲解(一次性同时精通Java和Scala开发Spark); 6、大量全网唯一的知识点:基于排序的wordcount,Spark二次排序,Spark分组取topn,DataFrame与RDD的两种...
包含:实时流任务调度、kafka偏移量管理,web后台管理,web api启动、停止spark streaming,宕机告警、自动重启等等功能支持,用户只需要关心业务代码,无需关注繁琐的技术细节,大大提高实时流开发效率和难度(附...
开发 Spark 外部数据源 该项目说明了 Spark 2.3.0 中引入的新 V2 Apache Spark 外部数据源 API。 它包括: 一个简单的内存数据库系统 (ExampleDB),它支持说明 API 特性所需的所有数据访问范式 一系列不同复杂度的...
后端开发:涉及服务器端编程、API开发、数据库集成等技术。 移动应用开发:包括iOS开发(使用Swift或Objective-C)和Android开发(使用Java或Kotlin)等。 大数据技术:包括Hadoop、Spark、Hive等用于处理和分析大...
用于Apache Spark的Neo4j连接器 该存储库包含适用于Apache...这将打开提供开发文档的 。 建筑 构建Spark 2.4 您可以同时使用Scala 2.11和Scala 2.12构建Spark 2.4 ./mvnw clean package -P spark-2.4 -P scala-2.11 .
1. Spark是特性 ...4. Spark支持的API Scala、Python、Java等 5. 运行模式 Local (用于测试、开发) Standlone (独立集群模式) Spark on Yarn (Spark在Yarn上) Spark on Mesos (Spark在Mesos)
在Ubuntu里安装spark,spark-2.1.0-bin-without-hadoop该版本直接下载到...它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。
Sparkjava啤酒 * .beers项目的服务器端伴侣 我的各种Beers教程( , , 是独立的,可以在没有任何后端的情况下使用。但是恕我直言,可惜只做客户端并用普通文件模拟服务器API。所以这里我们有一个配套项目,我们将...
HBase JAVA API编程实践 64 安装MySQL 68 Hive安装 70 Redis安装和使用 74 MongoDB安装和使用 83 Neo4j安装和使用 96 安装Spark 103 使用 Spark Shell 编写代码 104 Scala独立应用编程 106 Java独立应用...
Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据...
后端开发:涉及服务器端编程、API开发、数据库集成等技术。 移动应用开发:包括iOS开发(使用Swift或Objective-C)和Android开发(使用Java或Kotlin)等。 大数据技术:包括Hadoop、Spark、Hive等用于处理和分析大...
用于常规时空数据分析的Spark扩展。 该项目旨在为专业GIS运营充分利用最新框架。 与以前的框架(如GeoSpark,SpatialHadoop等)不同,我们希望我们的框架的语义更符合GIS的世界观。 该存储库仍在开发中。 层的...
玩Apache Spark 第一步:运行Spark开发环境 从官方文档开始快速入门: : 让我们实现自包含应用程序。...import org.apache.spark.api.java.function.FilterFunction ; import org.apache.spark.sql.D
本质上,执行的测试是相似的,只是它们是使用 Apache Spark Java API 完成的,并且还测试了一些额外的配置。 此外,该基准测试不仅可以在 Amazon EC2 上运行,还可以在云和本地的任何集群中运行。 项目执行 项目...
java6.0源码Spark 入门 可以访问本文的更好版本。 本教程写于2013年10 月。 当时, Spark的当前开发版本是0.9.0。 本教程涵盖了 Ubuntu 12.04 上的 Spark 设置: 安装所有 Spark 先决条件 Spark构建和安装 Spark基本...
Java是一种广泛使用的编程语言,以其跨平台性、面向对象和丰富的API而著名。以下是关于Java的资源描述: Java资源涵盖了从基础知识到高级应用的全方位...Hadoop和Spark等大数据框架使用Java编写,使得Java成为处理大规
后端开发:涉及服务器端编程、API开发、数据库集成等技术。 移动应用开发:包括iOS开发(使用Swift或Objective-C)和Android开发(使用Java或Kotlin)等。 大数据技术:包括Hadoop、Spark、Hive等用于处理和分析大...