it编程 > 开发工具 > Pycharm

pycharm连接spark教程

39人参与 2025-01-14 Pycharm

1.解压hadoop

解压到任意盘,路径不要带中文路径

进入保存后的bin目录,查看,是否解压成功

2.解压spark

到任意位置,路径不要带有中文

3. 打开pycharm

把hadoop,spark环境变量配置到pycharm中。

3.1新建项目

3.2在项目中创建一个python文件

3.3把hadoop_home

python_home,pythonpath添加到pycharm中.

注意!!!

pythonpath路径要添加到d:\spark\spark-2.4.6-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip下

3.4 检查是否有以下软件包

3.4.1 如果没有请按照以下教程下载,后期需要

3.4.2安装py4j

3.4.3安装pyspark推荐2.4.6版本

3.4.4安装pip

3.5安装findspark

4.把winutils.exe插件

放到hadoop解压后的/bin目录下面

5.把以下代码

复制到4.2步骤中,新建的python文件中

#添加此代码
import findspark
findspark.init()
#在spark前,添加此代码
from pyspark.sql import sparksession
spark = sparksession.builder.appname("wordcount").getorcreate()
spark.sparkcontext.textfile("file:///d:/hadoop/hadoop-2.7.7/readme.txt")\
        .flatmap(lambda x: x.split(' '))\
        .map(lambda x: (x, 1))\
        .reducebykey(lambda x, y: x + y)\
        .foreach(print)

必须要有这句话在spark前面!!!

6.测试

出现以上内容,表示pycharm连接spark成功。

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持代码网。

(0)
打赏 微信扫一扫 微信扫一扫

您想发表意见!!点此发布评论

推荐阅读

PyCharm进行Django项目开发环境搭建

02-09

deepseek如何接入pycharm? PyCharm接入DeepSeek实现AI编程技巧

02-13

在PyCharm中接入deepseek的API的各种方法

02-15

pycharm与cmd中制表符不一样的问题解决

12-04

Pycharm关闭控制台多余窗口的解决办法

12-02

PyCharm打代码时出现白色光标问题(笔记本的解决方案)

02-20

猜你喜欢

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论