Хостинг в Европе: роли и обязанности дата-инженера

В этой статье будет рассказано о профессии дата-инженера.

k9l9h42PZts 800x602 Хостинг в Европе: роли и обязанности дата инженера

Хостинг в Европе родил новую профессию

Хранилище данных

Хранилище данных в настоящее время является актуальным, как никогда раньше, и так называемые дата-инженеры отвечают за очень многие стороны его формирования и использования. Хранилище данных — это координатный центр дата-инженера.

Хранилище данных сегодня — это более открытое место, нежели ранее. В настоящее время в его создании и использовании одновременно участвуют ученые, инженеры-программисты и аналитики. Данные стали очень важным центром деятельности любой организации, чтобы как-то ограничивать к ним доступ. Все больше типов работников могут ими управлять.

Хотя это и дает возможность масштабировать ради организации различных рабочих процессов внутри компании и удовлетворения ее потребности в данных, в итоге такой подход приводит к появлению несовершенного и хаотичного элемента инфраструктуры.

Дата-инженеры организаций зачастую проходят специальную внутреннюю сертификацию, для увеличения квалификации в сфере работы с хранилищами информации. В Airbnb, к примеру, есть набор ключевых схем, которые управляются дата-инженерами в рамках соглашения на обслуживание, где определены все параметры, которые соблюдаются.

Речь идет о документации и бизнес-метаданных самого высокого уровня, для обслуживания которых нужен четкий набор наилучших практик.

Такое хранилище данных часто становится для инженеров центром передовых разработок, где определяются стандарты и используются лучшие процессы и решения для сертификации объектов баз данных. Подобная команда может участвовать в образовании других специалистов.

Все это делается, чтобы другие инженеры постоянно совершенствовались в сфере работы с хранилищами информации. К примеру, Facebook имеет свою образовательную программу под названием «Data camp». Там инженеры проходят специальное обучение по работе с базами данных.

Дата-инженеры — библиотекари хранилища данных. Это люди, которые используют хостинг в Европе, организуют и каталогизируют метаданные, определяющие разные рабочие процессы.

В быстрорастущем и хаотичном мире информации, управление инструментарием и метаданными становится крайне важным элементом любой современной площадки.

Оптимизация и производительность

Информация приобретает все более стратегический характер, когда фирмы растут, а их бюджеты на инфраструктуру достигают довольно внушительных размеров. Это делает для всех дата-инженеров все более рациональным увеличение производительности, а также оптимизацию хранения и обработки информации.

Так как бюджеты очень редко сокращаются (в данной сфере), вся оптимизация заключается в более правильном расходовании ресурсов или выпрямлении экспоненциального увеличения нагрузки, а также затрат к линейному виду.

Зная большую сложность инженерного стека работы с базами данных, можно предположить, что оптимизация такого стека также непростая задача. В основном, принимаются решения, которые требуют минимум затрат и приносят при этом крупную выгоду.

Разумеется, в интересах инженера создавать именно масштабируемую инфраструктуру. Это дает компании возможность сэкономить ресурсы на всех стадиях.

iESFnN Хостинг в Европе: роли и обязанности дата инженера

Интеграция информации

Интеграция информации и практика бизнеса по интеграции систем при помощи обмена данными, очень важны. SaaS и программное обеспечение становятся новым стандартом работы фирм. При этом потребность синхронизации информации между данными системами становится все более критичной.

Кроме того, SaaS нужны новые стандарты управления со стороны организации, если мы желаем привносить данные, которые получены на стороне в наше хранилище таким образом, чтобы они были связаны с уже имеющимися данными.

Разумеется, SaaS и облачный хостинг имеют свои аналитические решения, однако им часто не хватает перспективы для работы со всем остальным предложенным массивом информации. Эти модели часто SaaS предлагают принимать реляционную информацию без интеграции, обмена первичными ключами.

В итоге это приводит к катастрофе, которую надо избегать любой ценой. Никто не захочет поддерживать вручную два хранилища и клиента для двух списков в разных системах.

Глава компании часто подписывает соглашение с поставщиками SaaS при этом не принимая во внимание проблему интеграции информации. Интеграционная нагрузка регулярно преуменьшается поставщиками решений для повышения продаж, что в результате ложится именно на плечи дата-инженеров, которым нужно делать незапланированные работы.

Это не говоря о том, что стандартные API-интерфейсы SaaS часто плохо спроектированы и не имеют достаточной гибкости и четкой документации. Все это значит, что вы можете ожидать чего угодно, к примеру, изменений в решение без предварительного извещения от поставщика.

Сервисы

Дата-инженеры сегодня работают с намного более высокими уровнями абстракции. Часто это значит, что предоставление инструментов и услуг для автоматизации работы эти инженеры, аналитики и ученые могут создавать вручную.

Вот ряд примеров услуг, которые сегодня могут создать дата-инженеры.

  • Поглощение информации: инструменты и сервисы, построенные вокруг «выскабливания» баз данных, загрузки логов, извлечения информации из внешних источников, либо API.
  • Вычисление метрик: фреймворки для вычисления, суммирования участия, роста, либо показателей, связанных с сегментацией.
  • Поиск аномалий: автоматизация потребления информации и система предупреждения необходимых людей об аномальных событиях, либо появлении тенденций к значительным изменениям.
  • Управление метаданными: средства, которые построены вокруг генерации, потребления метаданных. Это позволяет с легкостью найти данные и внутри, и за пределами хранилища.
  • Экспериментирование: написание специальных экспериментальных A/B-тестов, а также фреймворков зачастую является немаловажным компонентом аналитики организации с большим объемом инженерной информации.
  • Инструментарий: аналитика всегда начинается с регистрации событий, а также атрибутов, которые связаны с данными событиями. Дата-инженеры заинтересованы, чтобы высококачественная информация поднималась вверх.
  • Сессионализация: формирование источников информации, специализирующихся на выстраивании разных действий в хронологии, что дает аналитикам возможность понять логику поведения пользователей.

Как и разработчики ПО, дата-инженеры должны быть в постоянном поиске способов автоматизации своей работы, а также задания абстракций, позволяющих им развиваться. Уровень потребности автоматизации процессов меняться может в зависимости от ситуации, однако проводить ее следует по всем направлениям.

the foundation of the site is hosting e1468493490436 800x522 Хостинг в Европе: роли и обязанности дата инженера

Необходимые навыки

  • Знание SQL: если сегодня английский язык является языком бизнеса, SQL — язык данных. Насколько удачным бизнесменом вы собираетесь быть, если хорошо не говорите по-английски? Сменяются поколения и технологии, однако SQL крепко стоит на ногах. Хороший дата-инженер должен быть всегда в состоянии посредством SQL выразить такие важные вещи, как корреляция подзапросов и оконные опции любой сложности. SQL, как DML и DDL примитивны и очень просты, чтобы не иметь тайн от дата-инженера. Кроме декларативного характера SQL, дата-инженер должен быть способен понять планы выполнения баз данных, а также иметь хорошее представление о том, как же работают все стадии, индексы и разнообразные алгоритмы распределенного измерения и соединения в рамках данного плана.
  • Методы моделирования информации: для любого дата-инженера моделирование вроде «сущность-связь» должно быть рефлекторным, вместе с пониманием нормализации интуитивно чувствовать специальную грань между денормолизацией и потребностью идти на уступки. Хороший дата-инженер должен знаком быть со многомерным моделированием, а также понимать связанные с ним термины и лексикон.
  • Дизайн ETL: уникальная способность написания гибкой, эффективной и эволюционирующей ETL — ключевой фактор.
  • Архитектурные прогнозы: как профессионал в собственной сфере знаний, дата-инженер обязан иметь солидный уровень понимания подавляющего большинства инструментов, библиотек, платформ и прочих ресурсов, которые есть в его распоряжении. Кроме того, нужно понимать свойства, нюансы работы с различными базами, потоковыми процессами, вычислительными системами, форматами сериализации. При создании решений дата-инженер обязан быть в состоянии сделать верный выбор на тему того, какие именно технологии применять и иметь полное видение, каким образом все это будет работать вместе.

Заключение

За последние несколько лет работы в Кремниевой долине и крупных компаниях Airbnb, FAcebook, Yahoo!, плюс взаимодействуя с дата-инженерами из Netflix, Google, Amazon, Uber и еще десятками из компаний всех размеров, я наблюдал за постепенной эволюцией дата-инжиниринга. В итоге я почувствовал, что мне надо поделиться определенными выводами.

Я очень надеюсь, что данная статья может послужить манифестом для данной сферы. Надеюсь, она найдет отклик как со стороны сообщества, так и со стороны специалистов, которые работают в смежных сферах!


Поделитесь с друзьями



Оставить комментарий