一.序言
spark 现在用得比较多了,但是开始连接spark 的的时候有些小问题,这里简单记录一下, 我用的spark1.4.1 hadoop2.7 hive1.2.1, 目的想用spark-sql 连接 hive 的metastore,关于集群配置 这暂时不介绍了,例子很多,这里仅仅记录java/scala 连接部分。
二.连接配置
2.1 maven 配置:
<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.4.1</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>1.2.1</version> </dependency> </dependencies>
2.2 java 连接
public static final String master = "spark://master:7077"; public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("demo").setMaster(master); JavaSparkContext sc = new JavaSparkContext(conf); System.out.println(sc); sc.stop(); }
基本上 获取到sc,就算连接成功了
3.连接问题:
异常1:连接的时候控制台:
15/09/07 11:24:54 INFO ui.SparkUI: Started SparkUI at http://10.1.50.190:4040 15/09/07 11:24:54 INFO client.AppClient$ClientActor: Connecting to master akka.tcp://sparkMaster@master:7077/user/Master... 15/09/07 11:24:54 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@master:7077] has failed, address is now gated for [5000] ms. Reason is: [Disassociated]. 15/09/07 11:25:14 INFO client.AppClient$ClientActor: Connecting to master akka.tcp://sparkMaster@master:7077/user/Master... 15/09/07 11:25:14 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@master:7077] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].
spark log 出现:
ERROR Remoting: org.apache.spark.deploy.Command; local class incompatible: stream classdesc serialVersionUID = -7098307370860582211, local class serialVersionUID = -3335312719467547622 java.io.InvalidClassException: org.apache.spark.deploy.Command; local class incompatible: stream classdesc serialVersionUID = -7098307370860582211, local class serialVersionUID = -3335312719467547622
这个是连接到了服务器,但是class 不匹配,也就是版本不对,用spark-core_2.11 版本会出现这个异常,因为启动spark-shell 启动的的时候,info 信息表示用的scala-2.10.4 版本。
异常二:
出现类似的: scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashS
这里也是因为我本例用的scala 2.11 的SDK,然后我换成了2.10 就好了
异常三:
client.AppClient$ClientActor: Connecting to master akka.tcp://sparkMaster@10.10.1.1:7077/user/Master...
一直连接不上spark,因为这里使用ip:10.1.1.1 进行连接,而spark_master_ip 配置是master 的映射,因此通过ip 他会找不到,要客户端配置10.1.1.1 master 映射,用master 连接 就行,这里有点怪- -!
其他异常:
还有包含防火墙,集群之间网络等问题,差不多 都是这些引起的。
小结:
1.先保证集群之间连通,一般也是网络 防火墙 等问题造成的,我是直接关闭了 防火墙
2.客户端连接 一般是网络 域名 版本造成的,要看日志
3.日志 通过spark/conf/log.propertis 设置成debug 就能看到很详细的日志,如果没看到日志,那么说明客户端还没连接到服务器
4.可以通过spark-shell --master spark://ip:7070 尝试连接,然后再通过客户端连接
相关推荐
spark笔记整理文档spark笔记整理文档spark笔记整理文档
cmd = "ssh root@10.195.11.200 \"/usr/local/spark-3.1.2-bin-hadoop2.7/bin/spark-sql --master spark://gpmaster:7077 --executor-memory 2G --total-executor-cores 2 --conf spark.sql.storeAssignmentPolicy=...
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...
HDFSTopK 卡夫卡托普依赖库kafka-clients-0.8.2.1.jar kafka_2.10-0.8.2.1.jar 指标核心2.2.0.jar spark-assembly-1.3.0-hadoop2.4.0.jar spark-streaming-kafka_2.10-1.3.0.jar zkclient-0.3.jar笔记该脚本是硬编码...
spark 笔记,学习笔记、资料
spark 学习笔记
spark笔记spark笔记
2021贺岁大数据入门spark3.0入门到精通资源简介...共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,StructuredStreaming,Spark综合案例,Spark多语言开发,Spark3.0新特性,Spark性能调优 。
spark-submit --master <master> --class uk.co.pinpointlabs.App --input <path> --host <host> --keyspace <keyspace> --table 使用 CqlBulkOutputFormat 使用 datastax cassandra 连接器(当前不起作用) ...
dl4j-spark-ml-examples 例子 该存储库包含将Deeplearning4j与Spark ML结合使用的示例。 笔记本电脑 基于Spark Notebook的许多示例: 使用深信度网络(Scala)演示虹膜分类 应用领域 许多独立的示例应用程序: ml....
Spark学习笔记 Spark学习笔记 Spark学习笔记
Spark学习笔记 Spark学习笔记 Spark学习笔记 Spark学习笔记
火花Scala朱比特 Jupyter笔记本服务器准备在远程Spark... image : flaviostutz/spark-scala-jupyter ports : - 8888:8888 - 6006:6006 # volumes: # - /notebooks:/notebooks environment : - JUPYTER_TOKEN=fla
Spark-SourceCode分析 Apache Spark笔记本作者:祁传宏军 Spark简介 Spark起源自科研院所,加州大学伯克利分校UC Berkeley的AMP实验室。该校在edx上开设了系列课程:)“使用Spark XSeries进行数据科学与工程”。 08...
火花笔记本演示演示如何使用Spark笔记本
spark项目:数组也是一种复杂数据类型,表示一组有序的值的列表,可以通过数值索引来访问其中的值。数组的值也可以是任意类型——简单值、对象或数组 JSON数组也没有变量和分号,把数组和对象结合起来,可以构成...
spark2 笔记