No module named 'pyspark.streaming.kafka'

阿新 • • 發佈：2021-08-24

pyspark連線kafka

一、問題描述

直接使用from pyspark.streaming.kafka import KafkaUtils會提示這個錯誤。

二、解決方法

1、使用新的api
https://stackoverflow.com/questions/61891762/spark-3-x-integration-with-kafka-in-python
https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

2、 spark 2.4.x 版本繼續使用pyspark.streaming.kafka
https://sandeepkattepogu.medium.com/streaming-data-from-apache-kafka-topic-using-apache-spark-2-4-5-and-python-4073e716bdca

因為伺服器spark版本為2.4.7，所以考慮使用pyspark.streaming.kafka。如連結中部落格所言，需要findspark模組。

import findspark
findspark.init()
from pyspark.streaming.kafka import KafkaUtils

這樣就不會報錯。
問題：findspark.init()完成了什麼功能，使得可以找到pyspark.streaming.kafka。
其核心原始碼如下：

if not spark_home:
    spark_home = find()

if not python_path:
    python_path = os.environ.get("PYSPARK_PYTHON", sys.executable) 

# ensure SPARK_HOME is defined
os.environ["SPARK_HOME"] = spark_home

# ensure PYSPARK_PYTHON is defined
os.environ["PYSPARK_PYTHON"] = python_path

# add pyspark to sys.path
spark_python = os.path.join(spark_home, "python")
try:
    py4j = glob(os.path.join(spark_python, "lib", "py4j-*.zip"))[0]
except IndexError:
    raise Exception(
         "Unable to find py4j, your SPARK_HOME may not be configured correctly"
      )
sys.path[:0] = [spark_python, py4j]

找到了環境變數中的SPARK_HOME，/home/software/install/spark-2.4.7-bin-hadoop2.7。同時把SPARK_HOME下面的python目錄新增到系統變數中
/home/software/install/spark-2.4.7-bin-hadoop2.7/python
進入到該python目錄,可以發現存在pyspark/streaming/kafka.py。ps:spark3.x 對應python目錄下沒有了kafka.py。
綜上所述：通過執行find.init()，系統變數裡就有了/home/software/install/spark-2.4.7-bin-hadoop2.7/python

，所以該目錄下的kafka.py就可以import匯入。
這裡溫習import相關知識：
https://blog.csdn.net/weixin_38256474/article/details/81228492
只要模組儲存到了sys.path中，python就可以找到它。

No module named 'pyspark.streaming.kafka'

pyspark連線kafka 一、問題描述直接使用from pyspark.streaming.kafka import KafkaUtils會提示這個錯誤。

詳解python3中用HTMLTestRunner.py報ImportError: No module named 'StringIO'如何解決

python3中用HTMLTestRunner.py報ImportError: No module named \'StringIO\'的解決方法： 1.原因是官網的是python2語法寫的，看官手動把官網的HTMLTestRunner.py改成python3的語法：

PyCharm無法識別PyQt5的2種解決方法，ModuleNotFoundError: No module named 'pyqt5'

PyCharm不識別PyQt5的問題如圖所示，引用PyQt5的時候顯示錯誤“ModuleNotFoundError: No module named \'pyqt5\'”

解決匯入django_filters不成功問題No module named 'django_filter'

1、進入到虛擬環境workon 虛擬環境名,輸入pip list (django_py3_1.11) python@ubuntu:~$ pip list

ModuleNotFoundError: No module named 'phkit.pinyin'

1 產生背景在mac系統本地使用正常，在linux系統上phkit包缺少相應的python檔案 2 解決方案

python3.*報“ImportError: No module named ‘MySQLdb'”

報錯： import MySQLdb as Database ModuleNotFoundError: No module named \'MySQLdb\' [root@bbs s12bbs]# python3 manage.py --help

Fastdfs客戶端ModuleNotFoundError: No module named 'mutagen._compat'問題

(env) D:\\python_learn\\meiduo_project\\meiduo_mall>python manage.py shell Python 3.8.2 (tags/v3.8.2:7b3ab59, Feb 25 2020, 23:03:10) [MSC v.1916 64 bit (AMD64)] on win32

ModuleNotFoundError: No module named 'kombu.asynchronous.timer'解決

報錯: (env) D:\\python_learn\\meiduo_project\\meiduo_mall>celery -A celery_tasks.main worker -l info

新安裝的pip3，使用出現No module named 'lsb_release'的問題

報錯： Exception: Traceback (most recent call last): File \"/usr/local/python3/lib/python3.6/site-packages/pip/basecommand.py\", line 215, in main

pip安裝報錯：ModuleNotFoundError: No module named 'pip'

C:\\Users\\a\\PycharmProjects\\untitled>pip3 -V Traceback (most recent call last): File \"d:\\users\\a\\appdata\\local\\programs\\python\\python36\\lib\\runpy.py\", line 193, in _run_module_as_mai

linux CentOS ModuleNotFoundError: No module named '_ctypes

Yes that worked for me, I made sure these packages are installed on my Centos 7: sudo yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel

alpine python3中使用mysql報錯ModuleNotFoundError: No module named 'MySQLdb'

直接 pip3install mysqlclient==2.0.1 報如下錯誤： Collecting mysqlclient==2.0.1 Downloading https://files.pythonhosted.org/packages/a5/e1/e5f2b231c05dc51d9d87fa5066f90d1405345c54b14b0b11a1c859020f21/my