spark java api 开发 - - ITeye博客

`

Horse_Chasing

浏览: 7694 次
性别:
来自: 广州

最近访客更多访客>>

maituwang

dawei1980

hudeyong926

caibo5566

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

spark java api 开发

博客分类：

编程语言

spark java api 开发

阅读更多

安装这里就不写了，因为网上已有中文介绍，这里主要是介绍一下入门，和hadoop一样，学习的时候，首先学习spark提供的字符统计例子：javaWordCount

Java代码

import scala.Tuple2;

import spark.api.java.JavaPairRDD;

import spark.api.java.JavaRDD;

import spark.api.java.JavaSparkContext;

import spark.api.java.function.FlatMapFunction;

import spark.api.java.function.Function2;

import spark.api.java.function.PairFunction;

import java.util.Arrays;

import java.util.List;

public class JavaWordCount {

public static void main(String[] args) throws Exception {

if (args.length 2) {

System.err.println("Usage: JavaWordCount ");

System.exit(1);

}

JavaSparkContext ctx = new JavaSparkContext(args[0], "JavaWordCount",

System.getenv("SPARK_HOME"), System.getenv("SPARK_EXAMPLES_JAR"));

JavaRDD lines = ctx.textFile(args[1], 1);

JavaRDD words = lines.flatMap(new FlatMapFunction() {

public Iterable call(String s) {

return Arrays.asList(s.split(" "));

}

});

JavaPairRDD ones = words.map(new PairFunction() {

public Tuple2 call(String s) {

return new Tuple2(s, 1);

}

});

JavaPairRDD counts = ones.reduceByKey(new Function2() {

public Integer call(Integer i1, Integer i2) {

return i1 + i2;

}

});

List> output = counts.collect();

for (Tuple2 tuple : output) {

System.out.println(tuple._1 + ": " + tuple._2);

}

System.exit(0);

}

}

运行： ./run spark/examples/JavaWordCount local input.txt
local：不解析，自己查

Html代码

Hello World Bye World goole

运行的结果和haddoop中运行的JavaWordCount 一样

Html代码

goole: 1

World: 2

Hello: 1

Bye: 1

所有博客已经转移至leanote：http://blog.leanote.com/shiwei/

或者：http://luoshiwei.me/

分享到：

Spark开发指南

2015-04-22 14:10
浏览 2155
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark 2.0 javaAPI: spark的javaAPI开发文档，只不过是英文版的。没有做翻译工作。希望对下载人员有帮助。

Spark高手之路-API编程动手实战: 通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面，包括项目的架构设计，用的的技术剖析、开发实现、运维等等。

spark全案例: spark通过 java api开发方法的所有示例代码，保证准确可行

Spark从入门到精通: 5、Spark案例实战的代码，几乎都提供了Java和Scala两个版本和讲解（一次性同时精通Java和Scala开发Spark）； 6、大量全网唯一的知识点：基于排序的wordcount，Spark二次排序，Spark分组取topn，DataFrame与RDD的两种...

基于Spark Streaming的大数据实时流计算平台和框架，并且是基于运行在yarn模式运行的spark streaming: 包含：实时流任务调度、kafka偏移量管理，web后台管理，web api启动、停止spark streaming，宕机告警、自动重启等等功能支持，用户只需要关心业务代码，无需关注繁琐的技术细节，大大提高实时流开发效率和难度(附...

javashuffle源码-spark-data-sources:使用V2API开发Spark外部数据源: 开发 Spark 外部数据源该项目说明了 Spark 2.3.0 中引入的新 V2 Apache Spark 外部数据源 API。它包括：一个简单的内存数据库系统 (ExampleDB)，它支持说明 API 特性所需的所有数据访问范式一系列不同复杂度的...

使用网易云API 开发中的个人音乐网站GuGuMusic.zip: 后端开发：涉及服务器端编程、API开发、数据库集成等技术。移动应用开发：包括iOS开发（使用Swift或Objective-C）和Android开发（使用Java或Kotlin）等。大数据技术：包括Hadoop、Spark、Hive等用于处理和分析大...

neo4j-spark-connector：用于Apache Spark的Neo4j连接器，它使用Spark DataSource API提供从Spark对Neo4j的双向读写访问: 用于Apache Spark的Neo4j连接器该存储库包含适用于Apache...这将打开提供开发文档的。建筑构建Spark 2.4 您可以同时使用Scala 2.11和Scala 2.12构建Spark 2.4 ./mvnw clean package -P spark-2.4 -P scala-2.11 .

Spark实战.docx: 1. Spark是特性 ...4. Spark支持的API Scala、Python、Java等 5. 运行模式  Local （用于测试、开发）  Standlone （独立集群模式）  Spark on Yarn （Spark在Yarn上）  Spark on Mesos （Spark在Mesos）

spark-2.1.0-bin-without-hadoop版本的压缩包，直接下载到本地解压后即可使用: 在Ubuntu里安装spark，spark-2.1.0-bin-without-hadoop该版本直接下载到...它提供使用 Java、Scala、Python 和 R 语言的开发 API，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。

sparkjava-beers: Sparkjava啤酒 * .beers项目的服务器端伴侣我的各种Beers教程（，，是独立的，可以在没有任何后端的情况下使用。但是恕我直言，可惜只做客户端并用普通文件模拟服务器API。所以这里我们有一个配套项目，我们将...

大数据技术开发环境搭建.docx: HBase JAVA API编程实践 64 安装MySQL 68 Hive安装 70 Redis安装和使用 74 MongoDB安装和使用 83 Neo4j安装和使用 96 安装Spark 103 使用 Spark Shell 编写代码 104 Scala独立应用编程 106 Java独立应用...

Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala: Java API 的使用基于 Zookeeper 搭建 Hadoop 高可用集群二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用常用 DDL 操作分区表和分桶表视图和索引常用 DML 操作数据...

java开发音乐网站(SSH),主要功能登录注册用户管理音乐期刊管理音乐的上传等ggMusic.zip: 后端开发：涉及服务器端编程、API开发、数据库集成等技术。移动应用开发：包括iOS开发（使用Swift或Objective-C）和Android开发（使用Java或Kotlin）等。大数据技术：包括Hadoop、Spark、Hive等用于处理和分析大...

gis-spark:适用于正常时空数据的Spark扩展: 用于常规时空数据分析的Spark扩展。该项目旨在为专业GIS运营充分利用最新框架。与以前的框架（如GeoSpark，SpatialHadoop等）不同，我们希望我们的框架的语义更符合GIS的世界观。该存储库仍在开发中。层的...

learning-spark:玩Apache Spark: 玩Apache Spark 第一步：运行Spark开发环境从官方文档开始快速入门： : 让我们实现自包含应用程序。...import org.apache.spark.api.java.function.FilterFunction ; import org.apache.spark.sql.D

apache-spark-benchmark:Apache Spark 框架的测试基准: 本质上，执行的测试是相似的，只是它们是使用 Apache Spark Java API 完成的，并且还测试了一些额外的配置。此外，该基准测试不仅可以在 Amazon EC2 上运行，还可以在云和本地的任何集群中运行。项目执行项目...

java6.0源码-mbo-spark:火花探索: java6.0源码Spark 入门可以访问本文的更好版本。本教程写于2013年10 月。当时， Spark的当前开发版本是0.9.0。本教程涵盖了 Ubuntu 12.04 上的 Spark 设置：安装所有 Spark 先决条件 Spark构建和安装 Spark基本...

java的概要介绍与分析: Java是一种广泛使用的编程语言，以其跨平台性、面向对象和丰富的API而著名。以下是关于Java的资源描述： Java资源涵盖了从基础知识到高级应用的全方位...Hadoop和Spark等大数据框架使用Java编写，使得Java成为处理大规

javajsp音乐网站java-Jsp-Music.zip: 后端开发：涉及服务器端编程、API开发、数据库集成等技术。移动应用开发：包括iOS开发（使用Swift或Objective-C）和Android开发（使用Java或Kotlin）等。大数据技术：包括Hadoop、Spark、Hive等用于处理和分析大...

Global site tag (gtag.js) - Google Analytics