- Описание проекта и его этапов
- Описание данных
- Зависимости и файлы
- Установка проекта
- Использование проекта
- Авторы
- Выводы
В нашем проекте по Data Science мы работаем с базой данных резюме соискателей работы сервиса HeadHunter.ru. Наша цель - предоставить работодателям более точную информацию о кандидатах на вакансии.
Этап анализа структуры данных в проекте по Data Science предназначен для изучения характеристик и свойств набора данных, которым мы работаем. В этом этапе мы стараемся ответить на следующие вопросы:
- Какие типы данных содержатся в наборе данных?
- Какие признаки (столбцы) присутствуют в наборе данных?
- Есть ли пропущенные значения в наборе данных?
- Какие преобразования необходимо произвести над данными для возможности их дальнейшего анализа?
Этап преобразования данных в проекте по Data Science направлен на изменение формата, структуры или типа данных в наборе данных, чтобы сделать их более подходящими для дальнейшего анализа или машинного обучения. В этом этапе мы можем выполнять различные операции над данными, такие как:
- Вычленение полезной информации из имеющихся признаков (Пол, Возраст, готовность к определенному режиму работы, предпочтения по рабочему графику)
- Разделение соединенных вместе признаков для удобного анализа в дальнейшем
- Унификация единиц измерения признаков (например Заработная плата)
Этап исследования зависимостей в данных в проекте по Data Science направлен на обнаружение связей между различными признаками в наборе данных. Это может быть полезно для того, чтобы понять, какие признаки влияют на результаты и какие признаки могут быть использованы в моделях машинного обучения для прогнозирования или классификации.
В этом этапе мы путем построения графиков (scatter plots, box plots, etc.) и примененная статистического анализа стремимся ответить на следующие вопросы:
- Как распределены значения в каждом признаке?
- Существуют ли зависимости между различными признаками?
Этап очистки данных от пропусков и дубликатов в проекте по Data Science направлен на устранение некорректных или неполных значений в наборе данных. Это важно, так как пропущенные или дублирующиеся данные могут существенно искажать результаты анализа и вызывать неточности в моделях машинного обучения.
О структуре проекта:
- data - папка с исходными табличными данными
- graphs - папка с сохраненными графиками по итогам анализа
- Project-1_HH_data.ipynb - jupyter-ноутбук, содержащий основной код проекта
В этом проекте используются данные о резюме (CV), предоставленных сервисом по поиску работы и работников HeadHunter.ru.
Данные содержат в себе сведения о более чем 44 тысячах соискателей, в том числе о желаемой заработной плате, городе проживания, опыте работы, возраста и пола соискателя.
git clone https://github.com/shohart/Headhunter-Project1.git
Вся информация о работе представлена в jupyter-ноутбуке Project-1_HH_data.ipynb.
Датасеты можно скачать тут
В результате проекта Анализа данных резюме с сайта hh.ru были успешно реализованы следующие этапы:
-
Анализ структуры данных. Была произведена оценка типа и размера данных, обнаружены некорректные и незаполненные значения.
-
Преобразование данных. Были приведены типы данных к нужным форматам, отброшена лишняя информация, определены новые признаки, пригодные для анализа.
-
Исследование зависимостей в данных. Были построены графики и выполнен корреляционный анализ для обнаружения связей между различными признаками.
-
Очистка данных от пропусков и дубликатов. Были удалены некорректные и повторяющиеся значения, что позволило улучшить точность анализа и избавиться от искажающего влияния на результаты.
-
Отдельно стоит отметить существенное уменьшение размера датасета (с почти 500 мб до не более чем 14 мб), при существенном повышении общей пригодности и информативности данных.
В результате проведенных операций датасет пригоден для дальнейшего использования в целях Data Science.