Очистка и анализ данных сервиса HeadHunter.ru на Python

Описание проекта

В нашем проекте по Data Science мы работаем с базой данных резюме соискателей работы сервиса HeadHunter.ru. Наша цель - предоставить работодателям более точную информацию о кандидатах на вакансии.

Основные этапы проекта

Анализ структуры данных

Этап анализа структуры данных в проекте по Data Science предназначен для изучения характеристик и свойств набора данных, которым мы работаем. В этом этапе мы стараемся ответить на следующие вопросы:

Какие типы данных содержатся в наборе данных?
Какие признаки (столбцы) присутствуют в наборе данных?
Есть ли пропущенные значения в наборе данных?
Какие преобразования необходимо произвести над данными для возможности их дальнейшего анализа?

Преобразование данных

Этап преобразования данных в проекте по Data Science направлен на изменение формата, структуры или типа данных в наборе данных, чтобы сделать их более подходящими для дальнейшего анализа или машинного обучения. В этом этапе мы можем выполнять различные операции над данными, такие как:

Вычленение полезной информации из имеющихся признаков (Пол, Возраст, готовность к определенному режиму работы, предпочтения по рабочему графику)
Разделение соединенных вместе признаков для удобного анализа в дальнейшем
Унификация единиц измерения признаков (например Заработная плата)

Исследование зависимостей в данных

Этап исследования зависимостей в данных в проекте по Data Science направлен на обнаружение связей между различными признаками в наборе данных. Это может быть полезно для того, чтобы понять, какие признаки влияют на результаты и какие признаки могут быть использованы в моделях машинного обучения для прогнозирования или классификации.

В этом этапе мы путем построения графиков (scatter plots, box plots, etc.) и примененная статистического анализа стремимся ответить на следующие вопросы:

Как распределены значения в каждом признаке?
Существуют ли зависимости между различными признаками?

Очистка данных от пропусков и дубликатов

Этап очистки данных от пропусков и дубликатов в проекте по Data Science направлен на устранение некорректных или неполных значений в наборе данных. Это важно, так как пропущенные или дублирующиеся данные могут существенно искажать результаты анализа и вызывать неточности в моделях машинного обучения.

О структуре проекта:

data - папка с исходными табличными данными
graphs - папка с сохраненными графиками по итогам анализа
Project-1_HH_data.ipynb - jupyter-ноутбук, содержащий основной код проекта

Описание данных

В этом проекте используются данные о резюме (CV), предоставленных сервисом по поиску работы и работников HeadHunter.ru.

Данные содержат в себе сведения о более чем 44 тысячах соискателей, в том числе о желаемой заработной плате, городе проживания, опыте работы, возраста и пола соискателя.

Используемые зависимости

Python (3.10):

Установка проекта

git clone https://github.com/shohart/Headhunter-Project1.git

Использование

Вся информация о работе представлена в jupyter-ноутбуке Project-1_HH_data.ipynb.

Датасеты можно скачать тут

Авторы

Aleksei Bykov

Выводы

В результате проекта Анализа данных резюме с сайта hh.ru были успешно реализованы следующие этапы:

Анализ структуры данных. Была произведена оценка типа и размера данных, обнаружены некорректные и незаполненные значения.
Преобразование данных. Были приведены типы данных к нужным форматам, отброшена лишняя информация, определены новые признаки, пригодные для анализа.
Исследование зависимостей в данных. Были построены графики и выполнен корреляционный анализ для обнаружения связей между различными признаками.
Очистка данных от пропусков и дубликатов. Были удалены некорректные и повторяющиеся значения, что позволило улучшить точность анализа и избавиться от искажающего влияния на результаты.
Отдельно стоит отметить существенное уменьшение размера датасета (с почти 500 мб до не более чем 14 мб), при существенном повышении общей пригодности и информативности данных.

В результате проведенных операций датасет пригоден для дальнейшего использования в целях Data Science.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
graphs		graphs
.gitignore		.gitignore
Project-1_HH_data.ipynb		Project-1_HH_data.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Очистка и анализ данных сервиса HeadHunter.ru на Python

Оглавление

Описание проекта

Основные этапы проекта

Анализ структуры данных

Преобразование данных

Исследование зависимостей в данных

Очистка данных от пропусков и дубликатов

Описание данных

Используемые зависимости

Установка проекта

Использование

Авторы

Выводы

About

Releases

Packages

Languages

shohart/Headhunter-Project1

Folders and files

Latest commit

History

Repository files navigation

Очистка и анализ данных сервиса HeadHunter.ru на Python

Оглавление

Описание проекта

Основные этапы проекта

Анализ структуры данных

Преобразование данных

Исследование зависимостей в данных

Очистка данных от пропусков и дубликатов

Описание данных

Используемые зависимости

Установка проекта

Использование

Авторы

Выводы

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages