Общая информация про «большие данные»


«Большие данные» - совокупность структурированной и неструктурированной информации, объем которой непрерывно увеличивается. Например, это могут быть данные, поступающие с физических экспериментальных установок или архив транзакций в банковском секторе.

Название субъективное, т.к. неизвестно, какой объем данных можно считать большим. Руководитель IT-департамента «ВымпелКома» Виктор Булгаков говорит, что к этой категории можно относить потоки больше 100 Гб в сутки.


Методы аналитики


Большие объемы информации обрабатываются, чтобы человек мог получить нужные результаты для дальнейшего применения.

Согласно информации консалтинговой компании McKinsey, которая сотрудничает с государственными учреждениями, крупнейшими мировыми корпорациями и НКО, чаще всего применяются такие техники:
  • machine learning;
  • прогнозная аналитика;
  • имитационное моделирование;
  • нейронные сети;
  • статистический анализ;
  • визуализация.


Базовый принцип обработки - горизонтальная масштабируемость. Любая система, работающая с большими объемами информации, должна быть расширяемой.

Поэтому данные разделяются на вычислительные узлы, а обработка происходит без снижения производительности.


Используемые инструменты и технологии


Компания Mail.ru Group провела исследование рынка вакансий и выяснила такие распространенные навыки Data Science и специалистов по машинному обучению, как:
  • язык программирования Python;
  • язык запросов к базам данных SQL;
  • Git - система контроля версий и среда совместной разработки.


Также для работы используются язык программирования R, базы данных NoSQL, MapReduce (фреймворк для вычислений с использованием большого количества компьютеров) и Hadoop (набор библиотек и фреймворк для распределенных вычислений), аппаратные решения.

Востребованность профессии на сегодняшний день


Академия MADE и HR-платформа HeadHunter проанализировали спрос на специалистов по BD в России. Количество вакансий для аналитиков c 2015 г. по 2019 г. выросло в 9,6 раза, для специалистов по машинному обучению - в 7,2 раза. В мировой практике тоже наблюдается положительная тенденция: эксперты компании Frost & Sullivan прогнозируют, что рынок аналитики будет расти на 35,9% ежегодно.

Области применения


«Большие данные», неоднородные по структуре и поступающие непрерывно, невозможно обработать традиционными средствами, а сам анализ позволяет понять закономерности, которые человек увидеть не может.

Это позволяет оптимизировать государственное управление, производство, банковский сектор, телекоммуникации:
  • российский «Сбербанк» разработал систему, которая анализирует фото клиентов банка для предотвращения мошенничества;
  • «Билайн» использует технологию для сегментации базы клиентов и подготовки персонализированных предложений, защиты от денежных махинаций;
  • эксперты розничной компании Watsons определяют, какие товары стоит выводить из ассортимента, как запуск новинки влияет на покупки других товаров в той же категории или того же бренда и т.п.


Главные преимущества


В будущем большую часть информации будут генерировать коммерческие предприятия. Уже сейчас data-driven позволяет получить бизнесу важные преимущества, например обоснованность управленческих подходов и высокую скорость принятия решений. Поэтому уровень востребованности специалистов будет только увеличиваться.

Положительные стороны этой профессии:
  • высокая зарплата;
  • постоянное развитие;
  • дефицит кадров на рынке.


Качественные характеристики специалиста в сфере Big Data


Джеффри Лик, эксперт по биологической статистике из Университета Джонса Хопкинса, выделяет 3 основные группы навыков для Data Scientist:
  1. IT: владение софтом, кодинг, придумывание и решение алгоритмических задач.
  2. Математику и статистику.
  3. Опыт в какой-либо области для понимания бизнес-запросов организации.


Однако знания и практические навыки не панацея. Не каждый человек сможет освоить профессию: нужен особый склад ума.

Важные навыки и умения


Для работы с «большими данными» нужно быть разноплановым специалистом. Как минимум необходимо разбираться в математике, статистике, программировании. Важно понимать, что такое Big Data, уметь работать с реляционными базами данных и делать визуализации.

В работе data-инженера помогут творческий подход, желание учиться и умение делать это самостоятельно, стремление к автоматизации процессов, внимательность, любознательность.


Задачи и обязанности


Должностной инструкции data-аналитика не существует - все зависит от сферы применения навыков.

Любой Data Scientist сталкивается в ежедневной деятельности с такими задачами, как:
  • сбор большого объема неструктурированных данных, преобразование их в удобный формат;
  • решение задач бизнеса на основе подхода data-driven;
  • работа со статистикой (тесты, распределения);
  • программирование на R, Python;
  • применение аналитических методов (deep learning, machine learning, текстовая аналитика);
  • выявление тенденций, закономерностей;
  • визуализация данных.


Основные способы стать профессионалом в этой области


Для тех, кто хочет работать с «большими данными», существует много возможностей:
  • онлайн-школы запустили образовательные курсы;
  • в российских вузах есть магистерские программы для Data Scientist;
  • зарубежные университеты публикуют программы лекций в открытом доступе.


Многие компании готовы нанимать специалистов с минимальной базой и без опыта, но придется много учиться самостоятельно.


Учеба в вузе


Фундаментальные знания будущий data-аналитик может получить в университетах по направлениям подготовки «Информатика», «Прикладная математика», «Математическая статистика» (бакалавриат). Некоторые вузы открывают магистерские программы по машинному обучению, нейронным сетям. Хорошим бэкграундом также будет техническое или технологическое образование.

Самостоятельно с нуля


Устроиться на работу можно и без профильного образования. Руководитель группы анализа данных в Eastwind Андрей Плющенко говорит, что компания нанимает новичков после курсов. Если специалист готов к развитию, понимает специфику отрасли и основы Big Data, то его обучают практически с нуля.

Для погружения можно освоить подходящие программы на платформе Coursera, пройти курсы Open Data Science или в «Школе анализа данных» от «Яндекса».

Онлайн-лекции публикуют многие зарубежные университеты. Но этот вариант подойдет только тем, чей уровень английского выше среднего.


Особенности обучающих курсов


Выбор подходящего метода обучения зависит от целей и возможностей слушателя. Если необходимо быстро освоить практические навыки и получить теоретическую базу с нуля, то лучше выбрать аудиторные занятия с экспертом, а онлайн-курсами дополнить офлайн-занятия. У каждого формата есть особенности, которые тоже могут повлиять на окончательный выбор.

Онлайн


Онлайн-обучение - удобный формат получения новых знаний. Можно не только самостоятельно формировать программу из нескольких курсов, но и строить график занятий, варьировать интенсивность.

Офлайн


Очные занятия дают возможность получить мгновенную обратную связь лектора и обеспечивают максимальную вовлеченность. На обучающем процессе и результатах хорошо отражается окружение интересными людьми, которые интересуются одним и тем же: общая цель и здоровая конкуренция мотивируют.

Бесплатные лекции и вебинары


Бесплатные уроки проводятся онлайн. Найти интенсивы по узким темам или полноценные курсы можно на платформах МООК - Coursera, «Открытое образование». Но следует учитывать, что лекции с качественной информацией чаще англоязычные.

Приобретаемые знания


Требования к уровню профессиональных навыков зависят от специализации компании, в которой будет работать data-аналитик. Преподаватели школ изучают вакансии и составляют список навыков и знаний, которые понадобятся специалисту. На основе этого перечня составляются программы базовой подготовки.

Математическое мышление


Математический анализ помогает оптимизировать производительность алгоритмов в машинном обучении, а линейная алгебра используется для ввода данных в таблицы, хранения и обработки.

Минимальная база, которую получают слушатели курсов:
  • матанализ (производные, цепное правило, градиенты);
  • алгебра (матричные преобразования, векторы, пространства);
  • статистика (описательная, дескриптивная), планирование эксперимента.


Языки программирования


Среди Data Scientist в США проводился опрос на определение самого популярного используемого языка программирования. Более половины (61%) указали R. На втором месте по популярности (39%) - Python. Это язык, понятный для новичков, который можно освоить за пару месяцев.

Используются и другие языки, например Java и Scala. Но к ним лучше переходить, уже имея понимание основ работы с «большими данными».


Машинное обучение


Машинное обучение - подраздел ИИ, изучающий алгоритмы, способные обучаться на основе предыдущего опыта. На курсах студенты изучают типы machine learning: обучение по прецедентам, индуктивное и дедуктивное, контролируемое (которое чаще всего применяется для больших объемов данных) и неконтролируемое.

Построение алгоритмов


Data-аналитик должен постоянно искать среди всех алгоритмов тот, который подходит для решения задач проекта. Но новичкам стоит получать комплексное представление о предмете, не вникая в то, какие алгоритмы более популярны и востребованны в том или ином направлении.

Работа с большими данными


Слушатели курсов учатся собирать и проверять данные, обрабатывать их, чтобы передавать в алгоритмы машинного обучения и генерировать новые признаки. Это базовая часть работы data-аналитика, так что тематическому блоку уделяется наибольшее внимание.

Применение специального ПО


Data-аналитики применяют open source- (например, OpenRefine, RapidMiner, Pentaho) и сентимент-инструменты (Semantria, Trackur), ПО для визуализации (Google Fusion Tables, Tableau, Qlik), программы для парсинга данных в интернете (Parsehub, Octoparse, Mozenda). Некоторые инструменты могут изучаться на курсах.

Критерии выбора тренингов


К вопросу выбора курсов следует подойти ответственно. Нужно учитывать цель обучения, отзывы студентов, наличие очных программ, потому что в тренде - смешанное обучение, продолжительность присутствия онлайн-школы на рынке.

Цель


Программа должна соответствовать уровню подготовки и целям студента. Например, если цель - найти первую работу, то лучше выбирать курсы со стажировкой. При этом по содержанию программа должна подходить для новичков.

Длительность


Фундаментальные курсы занимают от 300 учебных часов. На реализацию такой программы требуется 6-9 месяцев, но необязательно: чем продолжительнее курс, тем лучше обучение или профессиональная квалификация выпускника.

Преподавательский состав


Преподаватели должны быть практиками, желательно трудоустроенными в крупных компаниях. Перед тем как записываться на курс, стоит пройти бесплатный пробный урок или посмотреть выступления наставника на конференциях, чтобы оценить формат и доступность подачи материала, способ общения с аудиторией.

Условия обучения


Платформа, на которой будет проходить обучение, должна быть понятной. Стоит обратить внимание на способ взаимодействия с преподавателем и сокурсниками, сроки выполнения и проверки домашних заданий, формат уроков. Если обучение очное, то важно, чтобы лекции проходили в подходящем месте и в удобное время.

Рейтинг компаний, предоставляющих возможность изучения Big Data


Курсы проводят онлайн-университеты и школы интернет-профессий, а на платформах открытого образования можно пройти обучение бесплатно (но за проверку домашних заданий и сертификат нужно платить). В рейтинге представлены качественные программы организаторов с положительной репутацией.

Трудоустройство и карьера


Профессии, связанные с Big Data, условно можно разделить на 2 направления: разработку и анализ данных. Например, аналитик (Data Scientist) работает с информационной историей, выявляет закономерности в данных, варианты их использования для бизнеса. А Data Engineer (разработчик) занимается структурным обеспечением, оптимизирует рутинные процессы аналитиков, решает технические задачи.

С Big Data работают и «вспомогательные» специалисты, которые напрямую с данными не связаны, но занимаются развитием аналитических платформ. Так, дизайнеры интерфейсов преобразуют сложные технологии в простую для восприятия форму, а продакт-менеджеры администрируют аналитическую платформу в бизнес-среде, участвуют во внедрении.

Обзор вакансий


HeadHunter находит почти 150 вакансий по запросу Data Scientist с локацией в Москве, 50 - в Санкт-Петербурге. Программисты, которые могут работать с Big Data, требуются более чем 230 работодателям. Больше половины предложений работодателей сосредоточено в Москве (60% по данным исследовательской службы HH). Data-аналитики требуются в Санкт-Петербурге (15%), Новосибирской и Свердловской областях (по 4%) и в Татарстане (3%).

Подготовка к собеседованию


Процесс поиска работы состоит из 5 этапов. Среди них:
  1. Подготовка резюме. Если предыдущий опыт непрофильный, нужно написать подробное сопроводительное письмо для каждого работодателя.
  2. Технический скрининг. Проходит онлайн или по телефону. Состоит из нескольких вопросов, пересекающихся с особенностями бизнеса работодателя.
  3. Интервью с HR-менеджером. Эйчар - не технический специалист, в его задачи входят только установление контакта с соискателем, проверка на адекватность, умение общаться, формальное соответствие требованиям и корпоративной культуре компании.
  4. Техническое собеседование. Проходит очно. Более углубленно проверяются технические знания.
  5. Собеседование с руководителем (техническим директором или архитектором). Data Scientist - позиция стратегическая, поэтому нужно, чтобы новый человек совпадал по взглядам с командой и топ-менеджером.


Например, в Beeline процесс найма начинается с телефонного интервью с вопросами по линейной алгебре. После этого кандидата ждет задача по машинному обучению и алгоритмам. Положительная оценка означает допуск к основному этапу собеседования, на котором проверяется знание анализа данных, методов machine learning, задаются нестандартные вопросы из практики и логические задачи.

Советы новичкам по прохождению первого технического собеседования:
  • «думать вслух», чтобы интервьюер понял, как соискатель обдумывает задачу;
  • задавать уточняющие вопросы (например, «что вы имеете в виду?» или «можете привести пример?»);
  • подробно рассказывать о предыдущих проектах (какие вопросы сложнее было решить, что оказалось самым интересным);
  • общаться с интервьюером на равных.


Приглашение на собеседование для новичка - это уже достижение. Поэтому не стоит бояться ответить на вопрос с ошибкой.



Средний уровень дохода менеджера


По данным Glassdoor, в международной практике зарплата data-аналитика стартует от 100 тыс. долларов (7,4 млн руб.) в год и растет с опытом. Дополнительно менеджеры получают опционы на акции компании.

В России зарплата новичков не превышает 50 тыс. руб. в регионах, 80 тыс. руб. - в Москве. Через 1-2 года начинающие Data Scientist могут рассчитывать на 90-100 тыс. руб., а через 2-5 лет - на 120-160 тыс. руб.

Со стажем от 5 лет легче откликаться на узкоспециализированные позиции, например:
  • эксперта по внедрению корпоративного ПО - до 350 тыс. руб. в месяц;
  • архитектора ПО в банке или телекоме - 250 тыс. руб.;
  • Pre-Sales в ретейле или b2b - 200 тыс. руб.


Отрицательные стороны специализации


Data-аналитик должен постоянно развиваться, понимая, что времени на отдых не остается. Когда ни один подход к решению проблемы не работает (ведь готовых решений нет), это вызывает стресс. Необходимо заново писать алгоритм.

Курсы Big Data




Лукьянов Алексей
Лукьянов Алексей
Я нашел 5 курсов на март 2024


Чтобы стать специалистом по Big Data, нужно иметь аналитический склад ума, постоянно учиться и не пасовать перед трудностями. Только так можно наработать необходимую теоретическую и практическую базу, которая необходима «ученым по данным».

1 место. GeekBrains


GeekBrains
Маркетинг, Программирование, Дизайн
Рейтинг:
9.5
Рейтинг Смотрим.ком

Плюсы

Данные собираются

Минусы

Данные собираются
      3
      Показать еще №

2 место. Нетология


Нетология
Управление, Маркетинг, Аналитика, Программирование, Дизайн
Рейтинг:
Рейтинг Смотрим.ком

Плюсы

Данные собираются

Минусы

Данные собираются
      3
      Показать еще №

3 место. Otus


Otus
Управление, Программирование
Рейтинг:
Рейтинг Смотрим.ком

Плюсы

Данные собираются

Минусы

Данные собираются
      3
      Показать еще №

4 место. Skillfactory


Skillfactory
Аналитика, Программирование
Рейтинг:
Рейтинг Смотрим.ком

Плюсы

Данные собираются

Минусы

Данные собираются
      3
      Показать еще №

5 место. Product Live

Рейтинг:
10
Рейтинг Смотрим.ком

Плюсы

Данные собираются

Минусы

Данные собираются
      3
      Показать еще №