15.04.2022 Экспертиза, МенеджментФабрики данных производят разнообразные продукты данных для различных внутренних и внешних клиентов, но качество этих продуктов зависит от качества данных, пишет на портале The New Stack Джереми Стэнли, соучредитель и технический директор компании Anomalo. Хранилище данных — это изжившая себя метафора современного стека данных. Мы не загружаем паллеты с данными в виртуальные склады, где складываем их в аккуратные ряды и колонны, а затем автопогрузчиком перегружаем на грузовики. Вместо этого мы подаем необработанные данные на фабрики, которые заполнены сложными сборочными линиями, соединенными конвейерными лентами. Затем фабрики производят индивидуальные и изменяющиеся продукты данных для различных внутренних и внешних клиентов. Предприятие, эксплуатирующие фабрику данных, должны быть озабочены в первую очередь следующим: Производит ли фабрика высококачественные продукты данных? Сколько стоит содержание фабрики? Как быстро можно адаптировать фабрику к изменяющимся потребностям клиентов? Облачные хранилища данных, такие как Redshift, Snowflake, BigQuery и Databricks, позволили снизить эксплуатационные расходы на фабрику данных. Инструменты оркестровки типа Airflow и фреймворки для преобразования данных, такие как dbt, упростили перепроектирование ее компонентов. Но из виду часто упускаются проблемы с качеством данных, что приводит к неверным решениям и некачественному продукту. Или же конечные пользователи обнаруживают их в последний момент, что приводит к спешке и ...
читать далее.