Чем занимается Data Engineer?

Содержание

Data Engineer и Data Scientist: что умеют и сколько зарабатывают

Чем занимается Data Engineer?

Вместе с Еленой Герасимовой, руководителем факультета «Data Science и аналитика» в Нетологии продолжаем разбираться, как взаимодействуют между собой и чем различаются Data Scientist и Data Engineer.

В первой части рассказали об основных отличиях Data Scientist и Data Engineer.

В этом материале поговорим о том, какими знаниями и навыками должны обладать специалисты, какое образование ценится работодателями, как проходят собеседования, а также сколько зарабатывают дата-инженеры и дата-сайентисты. 

Что должны знать сайентисты и инженеры

Профильное образование для обоих специалистов — Computer Science.

Любой специалист по данным — дата-сайентист или аналитик — должен уметь доказывать корректность своих выводов. Для этого не обойтись без знания статистики и связанной со статистикой базовой математики.

Машинное обучение и инструменты анализа данных незаменимы в современном мире. Если привычные инструменты недоступны, нужно иметь навыки быстрого изучения новых инструментов, создания простых скриптов для автоматизации задач.

Важно отметить, что специалист по работе с данными должен эффективно донести результаты анализа. В этом ему поможет визуализация данных или результатов проведённых исследований и проверки гипотез. Специалисты должны уметь создавать диаграммы и графики, использовать инструменты визуализации, понимать и разъяснять данные из дашбордов.

Для инженера данных на первый план выходят три направления.

Алгоритмы и структуры данных. Важно набить руку в написании кода и использовании основных структур и алгоритмов:

  • анализ сложности алгоритмов,
  • умение писать понятный, поддерживаемый код, 
  • пакетная обработка,
  • обработка в реальном времени.

Базы и хранилища данных, Business Intelligence:

  • хранение и обработка данных,
  • проектирование целостных систем,
  • Data Ingestion,
  • распределенные файловые системы.

Hadoop и Big Data. Данных становится всё больше, и на горизонте 3‒5 лет эти технологии станут необходимы каждому инженеру. Плюс:

  • Data Lakes,
  • работа с облачными провайдерами.

Машинное обучение будет использоваться повсеместно, и важно понимать, какие бизнес-задачи оно поможет решить. Не обязательно уметь делать модели (с этим справятся дата-сайентисты), но нужно разбираться в их применении и соответствующим требованиям.

Доход инженеров по обработке данных

В международной практике начальная зарплата обычно составляет $100 000 в год и значительно увеличивается с опытом, по данным Glassdoor. Кроме того, компании часто предоставляют опционы на акции и 5‒15% годовых бонусов.

В России в начале карьеры зарплата обычно не меньше 50 тыс. рублей в регионах и 80 тыс. в Москве. На этом этапе не требуется опыт, кроме пройденного обучения.

Через 1‒2 года работы — вилка 90‒100 тыс. рублей.

Вилка увеличивается до 120‒160 тыс. через 2‒5 лет. Добавляются такие факторы, как специализация прошлых компаний, размер проектов, работа с big data и прочее.

После 5 лет работы легче искать вакансии в смежных отделах или откликаться на такие узкоспециализированные позиции, как:

  • Архитектор или ведущий разработчик в банке или телеком — около 250 тыс.
  • Pre-Sales у вендора, с технологиями которого вы работали плотнее всего, — 200 тыс. плюс возможен бонус (1‒1,5 млн рублей). 
  • Эксперты по внедрению Enterprise business application, таких как SAP, — до 350 тыс.

Доход дата-сайентистов

Исследование рынка аналитиков компании «Нормальные исследования» и рекрутингового агентства New.HR показывает, что специалисты по Data Science получают в среднем большую зарплату, чем аналитики других специальностей. 

В России начальная зарплата дата-сайентиста с опытом работы до года — от 113 тыс. рублей. 

В качестве опыта работы сейчас также учитывается прохождение обучающих программ.

Через 1‒2 года такой специалист уже может получать до 160 тыс.

Для сотрудника с опытом работы от 4‒5 лет вилка вырастает до 310 тыс.

Как проходят собеседования

На западе выпускники программ профессионального обучения проходят первое собеседование в среднем через 5 недель после окончания обучения. Около 85% находят работу через 3 месяца.

Процесс прохождения собеседований на вакансии инженера данных и дата-сайентиста практически не различается. Обычно состоит из пяти этапов.

Резюме. Кандидатам с непрофильным предыдущим опытом (например, из маркетинга) необходимо для каждой компании подготовить подробное сопроводительное письмо или иметь рекомендации от представителя этой компании.

Технический скрининг. Проходит, как правило, по телефону. Состоит из одного-двух сложных и столько же простых вопросов, касающихся текущего стека работодателя.

HR-интервью. Может проходить по телефону. На этом этапе кандидата проверяют на общую адекватность и способность общаться.

Техническое собеседование. Чаще всего проходит очно. В разных компаниях уровень позиций в штатном расписании отличается, и называться позиции могут по-разному. Поэтому на этом этапе проверяют именно технические знания.

Собеседование с техническим директором / главным архитектором. Инженер и сайентист — стратегические позиции, а для многих компаний к тому же новые. Важно, чтобы потенциальный коллега понравился руководителю и совпадал с ним во взглядах.

Что поможет сайентистам и инженерам в карьерном росте

Появилось достаточно много новых инструментов по работе с данными. И мало кто одинаково хорошо разбирается во всех. 

Многие компании не готовы нанимать сотрудников без опыта работы. Однако кандидаты с минимальной базой и знанием основ популярных инструментов могут получить нужный опыт, если будут обучаться и развиваться самостоятельно.

Полезные качества для дата-инженера и дата-сайентиста

Желание и умение учиться. Необязательно сразу гнаться за опытом или менять работу ради нового инструмента, но нужно быть готовым переключиться на новую область.

Стремление к автоматизации рутинных процессов. Это важно не только для продуктивности, но и для поддержания высокого качества данных и скорости их доставки до потребителя.

Внимательность и понимание «что там под капотом» у процессов. Быстрее решит задачу тот специалист, у которого есть насмотренность и доскональное знание процессов.

Кроме отличного знания алгоритмов, структур данных и пайплайнов, нужно научиться мыслить продуктами — видеть архитектуру и бизнес-решение как единую картину. 

Например, полезно взять любой известный сервис и придумать для него базу данных. Затем подумать, как разработать ETL и DW, которые наполнят её данными, какие будут потребители и что им важно знать о данных, а также как покупатели взаимодействуют с приложениями: для поиска работы и знакомств, прокат автомобилей, приложение для подкастов, образовательная платформа.

Позиции аналитика, дата-сайентиста и инженера очень близки, поэтому переходить из одного направления в другое можно быстрее, чем из других сфер.

В любом случае, обладателям любого ИТ-бэкграунда будет проще, чем тем, у кого его нет. В среднем взрослые мотивированные люди переучиваются и меняют работу каждые 1,5‒2 года. Легче это даётся тем, кто учится в группе и с наставником, по сравнению с теми, кто опирается лишь на открытые источники.

От редакции Нетологии

Если присматриваетесь к профессии Data Engineer или Data Scientist, приглашаем изучить программы наших курсов:

Источник: habr.com

Источник: https://prohoster.info/blog/administrirovanie/data-engineer-i-data-scientist-chto-umeyut-i-skolko-zarabatyvayut

Data Engineer: учебное пособие для прохождения собеседования

Чем занимается Data Engineer?

Перевод статьи «The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers»

Вадим Сычёв

Собеседование на любую техническую должность, как правило, требует подготовки и занимает немало времени. И не всегда понятно, что нужно конкретно изучать инженеру данных. Некоторые позиции требуют Hadoop, другие — SQL, а третьи — понимания статистики.

В материале собрано много ресурсов для подготовки, благодаря которым можно пройти собеседования в крупных технологических компаниях.

Вы также можете использовать чек-лист, который поможет отслеживать прогресс и ничего не забыть.

SQL

Почти неизбежно, что вам, как инженеру данных, зададут вопросы по SQL.

Типичные вопросы:

  • объединение с фильтрацией;
  • последовательные объединения;
  • формирование подзапросов.

Базовые задачи на знание SQL

Эти первые несколько проблем помогут вам на разных концепциях понять, какой у вас уровень.

Комплексные запросы

Задача: В городе X построен новый стадион. Каждый день его посещает много людей, и статистика сохраняется в виде следующих столбцов: id, дата посещения, количество людей.

Читайте также  Что такое кредитное плечо на рынке Форекс?

Напишите запрос, чтобы отобразить записи, которые имеют 3 или более последовательных строк и количество человек более 100 (включительно).

Задача: В таблице находится список сотрудников.

У каждого сотрудника есть идентификатор, а также столбец для идентификатора отдела. Напишите SQL-запрос, чтобы найти сотрудников, которые получают три самые высокие зарплаты в каждом отделе.

Дополнительно: Таблица содержит все отделы компании:

Для приведённых выше таблиц ваш запрос SQL должен возвращать следующие строки (порядок строк не имеет значения).

Задача: Для заданной таблицы напишите SQL-запрос, чтобы найти идентификаторы всех дат с более высокой температурой по сравнению с предыдущими датами.

Например, верните следующие идентификаторы для приведённой выше таблицы:

Aggregation

Задача: таблица Trips содержит все поездки такси. Каждая поездка имеет уникальный идентификатор, в то время как Client_Id и Driver_Id являются внешними ключами для Users Id в таблицеUsers. Статус является типом ENUM («завершено», «отменено водителем», «отменено клиентом»).

Напишите SQL запрос, чтобы найти число отменённых заявок среди незаблокированных пользователей с 1 по 3 октября 2013 года.

Расширенные объединения (Advanced Join)

Задача: Мэри — учитель в средней школе, и у неё есть таблица seat, в которой записаны имена учеников с их соответствующими местами.

Столбец ID является неизменным. Мэри хочет поменять местами соседствующих студентов.

Можете ли вы написать запрос SQL для вывода результата Мэри?

Простые объединения (Simple Joins)

Задача: Кетти даёт Еве задание создать отчёт, содержащий три столбца: Имя, Оценка и Отметка. Кетти не нужны имена тех учеников, которые получили оценку ниже 8. Отчёт должен быть составлен в порядке убывания по классам — более высокие оценки вводятся первыми. Если у двух и более учеников одинаковые оценки (8–10), упорядочите их по алфавиту. Наконец, если оценка ниже 8, используйте «NULL» в качестве имени и перечислите их по оценкам в порядке убывания. Если у двух и более учеников одинаковые оценки (1–7), упорядочите учеников по их оценкам в порядке возрастания.

Напишите запрос, чтобы помочь Еве.

Ранжирование количества строк и аналитические функции

Задача: написать запрос SQL, чтобы получить n-ую самую высокую зарплату из таблицы Employee:

Сложные запросы Self Join

Задача: Приведена таблица, содержащая два столбца: X и Y.

Две пары (X 1 , Y 1) и (X 2 , Y 2) называются симметричными парами, если X 1 = Y 2 и X 2 = Y 1.

Напишите запрос для вывода всех таких симметричных пар в порядке возрастания величины X.

Дополнительно

Если вам нужно больше задач SQL:

Вы также можете посмотреть обучающие видео (на английском языке):

Решение SQL задач после просмотра обучающих видео

Как только вы закончите смотреть видео по SQL, посмотрите задачи ниже. Если остались пробелы, запишите темы, в которых вы ещё слабы, и больше работайте над ними.

Базы данных, ETL и хранилища данных

Чтобы разобраться с вопросами по проектированию баз данных, ETL и хранилищ данных, посмотрите несколько видеороликов. А также рассмотрите несколько концепций баз данных, которые вы могли бы попробовать разработать самостоятельно.

:

Самостоятельная практика и возникающие проблемы

Перечислим несколько бизнес-систем, которые вы можете попытаться разработать. Сначала рекомендуется создать реляционную базу данных, а затем подумать о том, как бы вы разработали ETL и DW, которые полагаются на неё:

  • Приложение для знакомств;
  • Прокат велосипедов;
  • Приложения Music Streaming;
  • Сайта поиска работы;
  • Веб-сайта Udemy.

Эти несколько вариантов помогут вам получить более чёткое представление о том, что вы можете практиковать в моделировании и проектировании. Прежде чем начинать, подумайте о том, как пользователи взаимодействуют с этими приложениями.

Задачи по программированию

Инженеры данных обычно используют несколько языков, и Python среди них наиболее распространённый. Если требуется много работать с Hadoop, то хорошо подойдёт Java, а если вы работаете в Windows, то также Powershell.

Обычно вопросы бывают двух типов: прикладные и по алгоритмам и структурам данных.

Алгоритмы и структуры данных

Задачи перед подготовкой:

Теперь, когда вы решили эти задачи, давайте начнём рассмотрение других концепций по следующим видео.

Big O

Введение в анализ сложности алгоритмов

Ещё варианты прохождения интервью:

Задачи после изучения

Как только вы закончили с видео, попробуйте свои силы в решении задач. Следите за тем, насколько уверенно вы себя чувствовали, работая над ними.

Если вы всё ещё чувствуете, что нуждаетесь в помощи, подумайте о прохождении курса по алгоритмам и структурам данных.

Задачи оперативного программирования

Будет полезно знать, как использовать массивы и словари. Вот некоторые задачи, которые отлично подходят для подготовки.

Проектирование систем

Вопросы по проектированию систем встречаются не так часто. Тем не менее, лучше быть к ним готовым.

Потратив некоторое время на просмотр видео, вы будете готовы ко всему, что интервьюер может попросить вас сделать:

Курсы

Если вы разобрали все задачи и посмотрели видеоролики, но по-прежнему не чувствуете уверенности, подумайте о прохождении курсов. Они, скорее всего, будут охватывать те же понятия, что и видео, однако полезно услышать одну и ту же информацию из нескольких источников.

Англоязычные курсы на Udemy:

Заключение

Надеемся, что этот обзор поможет вам подготовиться к собеседованию на должность Data Engineer. Если вам нужен контрольный список, вы можете найти его здесь.

Источник: https://tproger.ru/curriculum/data-engineer-interview-guide/

Как стать Data Engineer

Чем занимается Data Engineer?
25 Март 2019, Data engineering, 49264 просмотров

Сейчас специализация в области data engineering активно набирает обороты. Судя по отчёту компании hired.com, спрос на data engineer специалистов вырос на 38%, и рост продолжится. Средняя зарплата у Data Engineer в Нью-Йорке составляет $132 тысячи, а в Сан-Франциско $151 тысячу. Что касается рынка СНГ, то спрос на дата инженеров только начинает расти. В России зарплатная вилка варьируется от 100 тысяч рублей до 250 тысяч. Эту информацию я получил из небольшого анализа открытых вакансий на ресурсах Мой Круг и HeadHunter.

Что такое Data Engineering

Из названия понятно, что область data engineering связана с данными, а именно с их доставкой, хранением и обработкой. задача дата инженеров — обеспечить надёжную инфраструктуру для данных. Если обратиться к пирамиде AI, то data engineering занимает в ней первые 2-3 ступени: Collect, Move & Store, Data Preparation. Из этого следует вывод, что любой data-driven организации жизненно необходим data engineer, чтобы добраться до вершины.

Чем же в итоге занимаются дата инженеры? С появлением «больших данных» область ответственности дата инженеров сильно изменилась. Если раньше эти специалисты писали большие SQL запросы и перегоняли данные с помощью инструментов типа Informatica ETL, Pentaho ETL, Talend, то сейчас требования к дата инженерам выросли. Большинство компаний с открытыми позициями на роль Data Engineer предъявляет следующие минимальные требования:

  • Отличное знание SQL и Python
  • Опыт работы с облачными платформами, в частности Amazon Web Services
  • Желательно знание Java/Scala
  • Хорошее понимание баз данных SQL и NoSQL (data modeling, data warehousing)

Имейте в виду, что это минимальный набор знаний. Из списка выше можно сделать вывод, что дата инженерами становятся специалисты из области software engineering, backend разработчики. Например, если компания начинает генерировать большой объем данных из разных источников, ваша задача, как дата инженера, организовать сбор информации, её обработку и хранение.

Перечень используемых инструментов в этом случае может отличаться, всё зависит от объёма этих данных, скорости их поступления и разнородности. У большинства компаний нет никакой «биг даты», поэтому в качестве централизованного хранилища, т.н. Data Warehouse, подходит SQL база данных (PostgreSQL, MySQL и т.д.

) с небольшим количеством скриптов, которые загоняют данные в хранилище. 

У IT гигантов типа Google, Amazon, или Dropbox, требования выше.

  • Знание Python, Java или Scala
  • Опыт работы с большими данными: Hadoop, Spark, Kafka
  • Знания алгоритмов и структур данных
  • Понимание основ распределённых систем
  • Опыт работы с инструментами визуализации данных типа Tableau или Qlik View будет большим плюсом

То есть здесь явно прослеживается уклон в большие данные, а именно их обработку в условиях высоких нагрузок. У таких компаний требования к отказоустойчивости систем повышенные.

Что нужно знать дата инженеру

Data Engineering это в первую очередь техническая область, где требуются знания основ computer science, а именно понимание эффективных алгоритмов и структур данных. Так как дата инженеры имеют дело с данными, то понимание работы баз данных и структур, лежащих в их основе это необходимость. Например, в основе привычных нам SQL баз данных лежит структура B-Tree, а в современных распределённых хранилищах LSM-Tree и другие модификации хэш таблиц.

Изучаем SQL

Вся наша жизнь — данные. А чтобы эти данные извлекать из базы, нужно «говорить» с ней на одном языке. SQL (Structured Query Language) это lingua franca в области данных. Кто бы что ни говорил, а SQL жил, жив и будет ещё очень долго жить.

Если вы давно в разработке, то наверняка замечали, что периодически появляются слухи о скорой смерти SQL. Язык был разработан в начале 70-х годов и до сих пор дико популярен среди аналитиков, разработчиков и просто энтузиастов. Без знаний SQL в data engineering делать нечего, т.к.

вам неизбежно придётся конструировать запросы для извлечения данных. Все современные big data warehouse поддерживают SQL:

  • Amazon Redshift
  • Yandex Clickhouse
  • HP Vertica
  • Druid (пока экспериментально)
  • Oracle
  • SQL Server

и многие другие. Чтобы анализировать большой пласт данных, хранящийся в распределённых системах типа HDFS, придуманы SQL движки: Apache Hive, Impala и т.д. Видите, никуда не деться. Как изучать SQL? На практике.

Из бесплатных ресурсов советую ознакомиться с прекрасным туториалом от Mode Analytics. На образовательной платформе Datacamp можно пройти бесплатно 4 курса, советую обратить внимание на эти:

  • Intermediate SQL
  • Joining Data in SQL

Источник: https://khashtamov.com/ru/data-engineer/

Что такое Data Engineering и как начать работу в этой сфере

Чем занимается Data Engineer?

Последние годы мы часто слышим про искусственный интеллект, машинное обучение и Big Data. «Это ж-ж-ж неспроста!». С развитием новых направлений в IT появляются новые профессии и специальности. В ответ на запрос рынка GeekUniversity открывает новый факультет Data Engineering, где студентов научат создавать системы предварительной обработки данных для проектов в области Data Science!

Читайте также  Что подарить на открытие своего дела?

Чем конкретно занимается инженер данных, что он должен уметь, чтобы хорошо зарабатывать, и что важно знать в начале карьеры — рассказывает декан факультета Сергей Ширкин.

Кто такой Data Engineer

Инженер данных – незаменимый сотрудник для любой команды, занимающейся Data Science. От дата-инженера зависит, насколько удобно будет построен процесс работы с данными в проекте. Этот специалист отвечает за сбор, хранение и обработку данных, выстраивает их кратчайший путь к дата-сайентистам – чтобы коллеги не отвлекались от своих основных задач. Поэтому команды, где есть дата-инженеры, работают быстрее и эффективнее тех, где при подготовке данных не хватает разделения труда.

Какую проблему рынка решает новый факультет

Бизнесу очень нужны специалисты по обработке данных, а вузы либо не готовят их вообще, либо обучают сильно устаревшим технологиям. Когда в компании остро не хватает дата-инженеров, на эти позиции зачастую берут самоучек. Но даже при таком сценарии многие вакансии долго остаются незакрытыми и вопросы дата-инжиниринга приходится решать дата-сайентистам или смежным IT-специалистам. Таким образом, на рынке труда есть явный запрос, который стоит удовлетворить.

Отличия от других факультетов направления Data Science

Дата-инженеры проходят подготовку за один год, потому что им не нужно углубляться в математику и тонкости построения моделей машинного обучения. Для сравнения,  студенты факультетов искусственного интеллекта и аналитики Big Data учатся полтора года.

Инженеры данных заняты несколько другими вещами, нежели классические дата-сайентисты — IT-инфраструктурой, базами данных (SQL и NoSQL), оптимизацией процессов ETL (Extract, Transform, Load – «извлечение, преобразование, загрузка»), автоматизацией сбора данных из интернета и построением систем обработки данных в реальном времени.

Сходство между факультетами Data Engineering и аналитики Big Data в том, что и те и другие проводят большую часть обучения со стеком Hadoop/Spark. Именно эти технологии активно применяются в больших компаниях, и специалистов по работе с ними по-прежнему не хватает.

Что будет уметь выпускник факультета Data Engineering и каким будет его портфолио

Будущим инженерам предстоит выполнять курсовые проекты по итогам каждой четверти. Темы проектов будут связаны с актуальными рабочими процессами современных компаний.

В первой четверти студент познакомится с IT-инфраструктурой и параллельно научится собирать данные. Для закрепления знаний он создаст парсер (обработчик) интернет-сайтов – систему пополнения баз данных актуальной информацией из различных источников.

Во второй четверти учащиеся построят собственные хранилища для аналитической системы. Курсовая работа будет посвящена построению полного конвейера данных (pipeline) для Business intelligence (BI) — созданию системы перевода сырой информации в удобную для человеческого восприятия форму.

Третья четверть будет полностью посвящена работе с «большими данными». Сначала студенты освоят инструменты экосистемы Hadoop, а затем изучат Spark и познакомятся с обработкой потоков данных методами Big Data.

В заключительной четверти будущие выпускники изучат обработку данных в реальном времени и углубятся в инфраструктуру для работы с данными, доводя свои знания до продвинутого уровня.

Где работать

Нас часто спрашивают, на какой уровень знаний и зарплат можно рассчитывать после выпуска из GeekUniversity — Junior или Middle. Если студент активно работает, навыки и знания, которые он в итоге приобретёт, вполне могут соответствовать уровню подготовки Middle-специалиста. Но нужно понимать, что без опыта работы по профилю или хотя бы в смежных направлениях IT в первое время реальнее устроиться на позиции Junior. Но хорошая стартовая подготовка ускорит продвижение по карьерной лестнице, так что путь к Middle-вакансиям после окончания нашего факультета в любом случае станет проще и короче. 

Многие наши студенты, кстати, находят работу ещё до окончания учёбы. Я знаю случаи, когда учащиеся по направлению Data Science трудоустраивались на младшие позиции уже после первой четверти в GeekUniversity и дальше успешно совмещали учёбу с работой. То есть даже прохождение начальных курсов в принципе позволяет начать зарабатывать.

Что нужно знать для поступления

Чтобы легче усваивать программу факультета, желательно к моменту поступления уже иметь начальные знания Python и SQL. Правда, наиболее мотивированные студенты умудряются получить эти знания уже по ходу обучения — начинают «с нуля», очень интенсивно занимаются и в итоге органично вливаются в учебный процесс.

Как организована учёба

В процессе обучения студент постоянно погружен в среду, способствующую его профессиональному росту. Взаимодействие с преподавателями, наставниками и однокурсниками строится по тем же принципам, что и на других факультетах направления Data Science. У каждой группы есть свой чат, где студенты общаются, обмениваются вопросами и решениями. Там же присутствуют и преподаватели, и наставники, к которым студенты всегда могут обратиться за консультацией. Наставники отвечают на вопросы, связанные с материалами лекций и выполнением домашних заданий.

На факультете преподают действующие специалисты в области работы с данными – у них можно получить не только обратную связь по выполненным учебным проектам, но и дельный совет по трудоустройству, прохождению собеседований и дальнейшему развитию карьеры. Так у будущего специалиста формируется более полное представление об отрасли и появляются первые знакомства в профессиональной среде.

Хотите приобщиться к работе над самыми передовыми IT-проектами, связанными с искусственным интеллектом, машинным обучением и анализом больших данных? Записывайтесь на факультет Data Engineering, чтобы стать специалистом, востребованным в любом серьёзном Data Science проекте!

Источник: https://geekbrains.ru/posts/chto-takoe-data-engineering-i-kak-nachat-rabotu-v-ehtoj-sfere

Data Engineer

Чем занимается Data Engineer?

Data Engineer работает в сфере информационной инженерии, занимается доставкой, хранением и обработкой данных. Профессия имеет ярко выраженные технические черты, подойдет для ребят, которые увлекаются информационными технологиями.

Краткое описание

Появление Big Data кардинально изменило стратегию работы с данными. Data Analyst и Scientist занимаются анализом и извлечением данных из огромных массивов, а Data Engineer специализируется на разработке структуры для Big Data и других типов данных. Работа связана с большим количеством профессиональных компетенций, однако она имеет высокую популярность из-за достойного уровня оплаты труда и колоссальной востребованности на кадровом рынке.

Особенности профессии

Data Engineer занимается извлечением, последующим преобразованием, загрузкой данных, а также их обработкой. Нередко Data Engineer и Data Scientist путают, однако это разные профессии. Первый специалист безупречно знает программирование и является гуру Big Data, второму нет равных в работах, связанных с аналитическими процессами и алгоритмами. Data Engineer является профессиональным программистом и пишет чистый код, без которого невозможно построить пайплайн данных.

Data Engineer востребованы во всех сферах бизнеса, например, в банковском секторе, который имеет тысячи хранилищ информации с данными, касающимися клиентов, транзакций и других финансовых операций. Однако конкуренция в сфере информационной инженерии невысокая, как утверждают российские HR-специалисты. На данный момент отечественный рынок испытывает потребность в опытных Data Engineer, поэтому последние без труда найдут работу в любой сфере.

Плюсы

  1. Сегмент характеризуется высоким уровнем оплаты труда.
  2. HR-специалисты и работодатели заинтересованы в опытных Data Engineer.
  3. Работа достаточно интересная.
  4. Возможность занять вакансию в крупной отечественной или зарубежной компании.
  5. Многозадачность, благодаря которой Data Engineer может реализовать свой потенциал в смежных сферах деятельности.
  6. Профессия редкая, поэтому нет высокой конкуренции.

Минусы

  1. До получения вакансии Data Engineer специалисту необходимо преодолеть много ступеней карьерной лестницы.
  2. Профессия не слишком распространена, многие компании заинтересованы в Data Engineer, однако не имеют четких требований и списка должностных обязанностей. Все это порождает недопонимание.

Важные личные качества

Data Engineer – многозадачный, ответственный и очень педантичный специалист. Работа с данными требует высокой внимательности и развитого технического мышления. Data Engineer умеет работать в команде, но предпочитает уединенность. Он компетентный, обладает высоким уровнем концентрации внимания и аналитическими способностями. Во время работы применяет алгоритмизированный подход, демонстрирует полную вовлеченность в поставленную задачу.

Обучение на Data Engineer

Профессия новая и пока не приобрела должного распространения, поэтому требования к уровню образования размыты. Специалист должен окончить вуз, выбрав направление подготовки, связанное с программной инженерией. После окончания вуза обучение необходимо будет продолжить, делая ставку на отечественные и зарубежные курсы.

Лучшие вузы для Data Engineer

  1. МГТУ им. Н. Э. Баумана.
  2. НИЯУ «МИФИ».
  3. РТУ МИРЭА.
  4. НИУ «ВШЭ».
  5. КубГТУ.

Курсы

GeekUniversity

Доступен факультет Data Engineering, который поможет освоить высокооплачиваемую профессию с нуля. Программа имеет низкий порог вхождения, обучение позволяет будущим Data Engineering приобрести год опыта. Она разработана в содружестве с онлайн-университетом Mail.ru Group. Первые полгода студенты обучаются бесплатно, дальнейшая стоимость составляет 4990 руб. в месяц. Выпускники получают сертификат и диплом о профессиональной переподготовке.

Место работы

Data Engineering востребованы в IT-компаниях, финансовом и других секторах. В них заинтересованы образовательные платформы, крупные торговые площадки, операторы мобильной связи – любые виды бизнеса, которые испытывают потребность в хранении петабайтов данных.

Заработная плата

Data Engineering претендуют на высокий уровень оплаты труда, который будет зависеть от масштаба проекта и компании, профессиональных компетенций, опыта, наличия высшего и дополнительного профессионального образования.

Профессиональные знания

  1. Big Data Engineering, SQL.
  2. Технологии построения хранилищ данных.
  3. Потоковая обработка данных.
  4. Технический иностранный язык.
  5. Алгоритмы и структуры данных.
  6. Программирование, в приоритете язык Python или Java.

Источник: https://www.profguide.io/professions/data-engineer.html

Кто такой Data Engineer в Big Data: профессиональные компетенции инженера данных

Чем занимается Data Engineer?

Мы уже рассказывали о некоторых профессиях Big Data, например, объясняли «для чайников», кто такие аналитик (Data Analyst) и исследователь (Data Scientist): что каждый из них должен знать и уметь, чем они занимаются и как отличаются друг от друга. Сегодня поговорим об инженере данных (Data Engineer) – его рабочих обязанностях, профессиональных компетенциях, зарплате и отличиях от вышеуказанных специалистов.

Что делает инженер данных

Чтобы Data Analyst и Data Scientist могли извлекать из информационных потоков и массивов Big Data знания, полезные для бизнеса, все эти большие данные должны соответствующим образом собираться и храниться. Именно этим занимается Data Engineer: настраивает инфраструктуру для Big Data, корпоративных хранилищ информации, ETL-систем, внутренних баз данных и сторонних источников (почта, CRM-, ERP- и других прикладных систем).

Читайте также  Что за программа McAfee WebAdvisor?

Таким образом, инженер данных выполняет следующие операции:

  • организация автоматизированного сбора данных из различных источников в единое централизованное хранилище (Data Warehouse) или озеро данных (Data Lake);
  • перемещение и хранение информационных массивов;
  • настройка, интеграция и создание витрин данных для работы аналитиков и исследователей;
  • создание конвейеров регулярной и непрерывной подготовки данных (CI/CD pipelines);
  • контроль и повышение качества данных.

Отличия Data Engineer от Data Scientist

Профессиональные компетенции инженера данных: что должен знать DataEngineer

Тогда как Data Scientist и Data Analyst концентрируются на сути информационных массивов Big Data, инженер данных организует для них инфраструктуру. Для этого ему необходимы профессиональные следующие знания и навыки:

  • алгоритмы и структуры данных;
  • принципы хранения информации в SQL и NoSQL, а также умение работать с реляционными и нереляционными базами данных (MySQL, MSSQL, PostgreSQL, MongoDB, SQL Server, Oracle, HP Vertica, Amazon Redshift и т.д.)
  • ETL-системы (Informatica ETL, Pentaho ETL, Talend и пр.);
  • облачные платформы для Big Data решений (Amazon Web Services, Google Cloud Platform, Microsoft Azure и другие подобные решения от крупных PaaS/IaaS-провайдеров);
  • стек Apache Hadoop (HDFS, HBase, Cassandra) и SQL-движки для анализа данных, хранящихся в распределенных файловых системах типа HDFS (Apache Hive, Impala и пр.);
  • кластеры Big Data на базе Apache (Hadoop, Kafka, Spark);
  • языки программирования (Python, Java, Scala) для работы с Big Data системами.

Несмотря на плотную работу с ETL- и OLAP-системами, Data Engineer’у, в отличие от аналитика и ученого по данным, не требуются экспертные знания Business Intelligence (BI), а также специфики предметной области. Гораздо полезнее инженеру по данным будет опыт разработки программного обеспечения и администрирования кластеров, хотя это, в основном, является областью ответственности администратора Big Data. Подробнее об этом читайте в нашей следующей статье.

Области профессиональных знаний инженера данных

Зарплата и востребованность инженера данных на рынке труда

В статье «Big Data с чего начать», говоря о профессиях в мире больших данных «для чайников», мы уже упоминали, что ИТ-специалисты этой области очень высоко ценятся на рынке труда как в России, так и за рубежом. При этом, в связи с тотальной цифровизацией и цифровой трансформацией различных отраслей экономики, наблюдается повышенный спрос на Data Professional’ов.

В условиях такого дефицита кадров, зарплата инженеров данных является одной из самых высоких в ИТ. Например, согласно ежегодному исследованию портала Stack OverFlow, в 2019 году американский Data Engineer зарабатывает около 66 тысяч долларов в год, что составляет более 300 тысяч рублей в месяц. Далеко не каждый Data Analyst или Data Scientist может похвастаться таким заработком. В России, по обзору вакансий с популярной рекрутинговой площадки HeadHunter, инженер данных стоит 150-250 тысяч в месяц.

Профессиональный портрет инженера данных

Итак, Data Engineer настраивает инфраструктуру Big Data для аналитиков и исследователей данных. Как сделать это быстро, грамотно, безопасно и с возможностью масштабирования, рассматривается на наших практических курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве:

Источник: https://www.bigdataschool.ru/blog/data-engineer-big-data.html

Инженер данных: что это за специалист и как им стать? | Rusbase

Чем занимается Data Engineer?

Инженер данных — это специалист, который занимается созданием и развитием платформы, осуществляющей сбор, обработку, хранение и выдачу данных. По этому определению, конечно, сложно представить, что же он делает.

Раньше я работал в банке, и люди, не связанные с ИТ, спрашивали меня о профессии. Я отвечал, что знаю все о клиентах. Это, конечно же, шутка, потому что данные обезличены. 

Сейчас говорю, что компания анализирует большие объемы данных для принятия решений, а я занимаюсь их сбором и кластеризацией. По крайней мере, это понимают молодые люди. Но находятся и те, кто просто считают меня программистом и, не вдаваясь в подробности, просят «починить комп». И я, конечно, не отказываю.

Но вы же тут немного разбираетесь в ИТ и вам нужно больше подробностей? Тогда усаживайтесь поудобнее — сейчас расскажу вам историю.

По мере того как развивались технологии, компании, которые их используют, стали производить больше данных. Соответственно, изменились и подходы к их хранению. Если раньше довольствовались базами данных SMP (symmetric multiprocessing), то сегодня существуют иные подходы и технологии, такие как базы данных MPP (massive parallel processing) и Hadoop.

SMP хороши для транзакционных данных, веб-форм и метаданных. MPP лучше подходят для высоконагруженных запросов, отчетности, быстрой обработки за счет деления данных по нескольким узлам. А Hadoop — для хранения огромных массивов «холодных» данных. 

Во всех этих базах информация может храниться в виде таблиц, графиков, документов, аудио, видео, временных рядов и так далее. Пользователю важно иметь удобный интерфейс для работы с информацией, инструменты для сегментации и вывода данных в виде определенной структуры. Пользователь должен быть уверен в качестве данных и быстро извлекать из них пользу.

Таким образом, стали появляться разные технологии баз данных: документоориентированные, key-value, time series, in memory, пространственные, графовые, вероятностные и прочие.

Со всем этими базами нужно кому-то работать. Раньше, когда компания использовала реляционную SMP базу данных, команда, которая с ней работает, состояла примерно из следующих специалистов: 

  • администратора (который занимался инфраструктурой),
  • разработчика (который писал SQL-запросы и «переливал» данные посредством ETL-инструмента), 
  • аналитика (который общался с бизнес-заказчиками и формировал требования к разработке потоков данных).

Теперь же есть потребность использовать гибридный вариант платформ с различными технологиями, — соответственно, нужны специалисты, обладающие более широкими знаниями и способные при необходимости быстро развернуть ПО, например, в облаке. Так появился data engineer. 

Как он это делает?

Инженер данных нужен как раз для того, чтобы аналитики имели возможность использовать данные для решения бизнес-задач — например, для оптимизации запросов, оценки прибыльности и рентабельности продуктов, отчетности и так далее. Он создает pipeline данных, интеграцию различных систем и источников, предоставляет пользователям инструменты работы с данными. 

Например, работа инженера в СИБУРе в первую очередь отличается большим количеством производственных данных, генерируемых промышленным оборудованием, АСУ ТП (автоматизированная система управления технологическим процессом), сенсоров и датчиков.

Например, мой коллега написал приложение, которое собирает данные с АСУ ТП предприятия в Тобольске и отправляет их на брокер сообщений (программа, которая принимает сообщения от различных отправителей, формирует из них очередь), чтобы доставить их в хранилище. Дальше они заливаются в базу данных, предварительно пройдя фильтрацию и унификацию.

Сам я занимаюсь развертыванием системы мониторинга и сбора метрик, основанных на time series. В СИБУРе есть огромное количество ИТ-систем и серверов продуктов, каждый из которых должен стабильно работать.

Если одна из систем «упадет» и какая-то часть данных не будет загружена на серверы, компания может понести потери, в том числе и финансовые. За работоспособностью систем нужно внимательно следить — этим и занимается система мониторинга.

Каждые 10 секунд с каждого продуктового сервера компании в нее поступают метрики (данные с временной меткой), например, информация о загрузке процессоров, нагрузке на сеть или объеме свободной памяти. Динамика этих показателей отображается на дашбордах (графиках).

    

Также я занимаюсь внедрением Elasticsearch — поискового движка, который помогает поиску по большому объему данных. В СИБУРе мы пока задействуем его для сбора логов с серверов, но планируем использовать значительно шире, потому что вариантов множество.

Объяснять пользу этого движка в работе с большими данными можно на примере статей rb.ru. С помощью Elasticsearch можно не только легко найти конкретного автора, но и определить, чем он занимается и какие слова употребляет в своих колонках чаще других спикеров. 

Как стать инженером данных?

С детства мне было интересно, как устроена техника. У меня был компьютер и мотоцикл, которые я периодически разбирал, перебирал, что-то дорабатывал. В школе начал увлекаться физикой, участвовал в олимпиадах и даже поступил на кафедру технической физики в Бауманку. 

Но со временем понял, что я скорее практик, чем теоретик, люблю делать что-то руками — то есть больше инженер. Я стал искать другие варианты развития.

В той же Бауманке на программиста учился мой друг, и он помог мне получить первые технические навыки: дал базовые знания, подсказал, где найти задачи, и помог изучить SQL. Потом был Стэнфордский онлайн-курс по базам данных, решение разных задач по программированию из открытых источников. Так я стал разработчиком SQL.

Сперва устроился в ИТ-компанию, где работал все тот же друг. Компания была подрядчиком «Альфа-Банка», и я сидел вместе с другими сотрудниками банка в их офисе. Работал с SMP-базами данных, создавал инструменты для загрузки и трансформации данных. 

Через два года я понял, что хочу заниматься большими данными и получил такую возможность в «Тинькофф Банке». Там я уже начал работать с базами данных MPP и брал на себя задачи, связанные с Hadoop, Kafka, HBase и Spark. 

Еще через пару лет я узнал термин data engineer и понял, кто я на самом деле. В то же время мне хотелось развиваться дальше и заняться каким-то проектом с нуля, чтобы научиться администрировать, устанавливать программное обеспечение, конфигурировать его. 

Я тогда не искал работу, СИБУР нашел меня сам через LinkedIn, предложил должность инженера данных, и я согласился. Меня привлекло в том числе и то, что мой руководитель в СИБУРе Артем Данилов раньше работал в «Авито» и хорошо знает новейшие подходы к работе с данными. Именно поэтому компания сразу начала искать нужных людей. 

Переход из финансовой сферы в нефтехимию меня не беспокоил: по большому счету для грамотного специалиста неважно, чем занимается компания, главное, что есть большие массивы данных и бизнес-задачи, которые с их помощью можно решить. А в СИБУРе много и того, и другого.

Источник: https://rb.ru/opinion/inzhener-dannyh/