03.12.2018 Экспертиза, Открытый код/LinuxВ эпоху больших данных необходим новых подход к управлению данными, пишут на портале InformationWeek сотрудники eBay Аруп Малиаккал Падманабхан (старший менеджер команды инжиниринга платформы) и Тиффани Нгуен (старший программный инженер). Данные поступают из множества источников и должны распределяться по предприятию в различных форматах. Объем, разнообразие и быстрота поступления данных продолжают расти ошеломительными темпами, что ставит перед компаниями две неотложные проблемы: как выделить из этих данных знания, которые послужат основой действий, и как защитить данные. Решение обеих проблем напрямую связано с управлением данными. Необходимый уровень управления может обеспечить экосистема Hadoop с помощью метаданных. В идеале — на единой платформе данных. Новый подход к управлению необходим по ряду причин. В эпоху больших данных они распределяются по предприятию. Данные могут быть структурированными, неструктурированными, полуструктурированными и т. д. Источники данных недоступны тем командам, которые должны управлять данными. В таких условиях управление данными преследует три важные цели: · поддержание качества данных; · реализация контроля доступа и других мер для обеспечения безопасности данных; · выделение метаданных из наборов данных, чтобы содействовать их защите и потреблению конечными пользователям. Решения в экосистеме Hadoop Одним из способов управления данными в среде Hadoop является расстановка тегов. При таком подходе метаданные, которые будут управлять ...
читать далее.