GitHub

Kafka-Spark-Cassandra Data Streaming Project

https://github.com/airscholar/e2e-data-engineering Этот проект для тех, кто не понимает, почему его проект не работает, даже если он делал всё по видео. Причина может заключаться в несовпадении версий Scala и Spark, устаревших библиотеках или новых версиях инструментов. Более того, оригинальный код из GitHub-репозитория и из видео оказался нерабочим, что подтверждено горьким опытом автора. Этот проект позволяет вам просто запустить и увидеть, как это работает, без ожидания всех деталей из видео.

Шаги запуска:

Запустите Docker Compose: Убедитесь, что Docker Compose работает корректно. Все необходимые сервисы (Kafka, Zookeeper, Cassandra и т.д.) поднимутся автоматически.
Создайте виртуальное окружение Python (venv): Лучше делать это на Linux.
```
python3 -m venv venv
source venv/bin/activate
```
Установите зависимости: Установите всё из requirements.txt.
```
pip install -r requirements.txt
```
Запустите kafka_stream.py: Этот скрипт отвечает за отправку данных в Kafka. Если у вас по каким-то причинам не работает Airflow, запустите альтернативный скрипт NoDagStream.py.
Проверьте Kafka: Убедитесь, что сообщения отправляются в топик. Для этого можно использовать Confluent UI или команду CLI Kafka. Проверьте, создан ли топик и поступают ли в него сообщения.
Запустите spark_stream.py: Этот скрипт пришлось полностью обновить, так как версия из видео уже не работает. Также код из репозитория GitHub оказался устаревшим. Новый скрипт учитывает все текущие изменения.
Проверьте базу Cassandra: Зайдите прямо в базу Cassandra и проверьте таблицу created_users. Если в таблице появились данные, значит проект работает корректно. Например:
```
SELECT COUNT(*) FROM spark_streams.created_users;
```
Если видите количество записей, значит всё хорошо.

Поздравляем! 🎉

Если вы добрались до этого момента и у вас есть данные в базе Cassandra, вы молодец! Теперь вы понимаете, как работает этот проект. Удачи!

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
LocalJavaLibs		LocalJavaLibs
dags		dags
script		script
Check_cassandra.py		Check_cassandra.py
NoDagStream.py		NoDagStream.py
Readme.md		Readme.md
docker-compose.yml		docker-compose.yml
main.py		main.py
requirements.txt		requirements.txt
spark_stream.py		spark_stream.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Kafka-Spark-Cassandra Data Streaming Project

Шаги запуска:

Поздравляем! 🎉

About

Releases

Packages

Contributors 2

Languages

aizeld/SampleDataStreamingProject

Folders and files

Latest commit

History

Repository files navigation

Kafka-Spark-Cassandra Data Streaming Project

Шаги запуска:

Поздравляем! 🎉

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages