16.03.2016 ЭкспертизаЭффективное использование больших данных требует правильного подбора инструментов для их хранения, обслуживания, обработки и анализа. Hadoop и Spark рассматривались до сих пор как альтернативные системы. Однако в последнее время все чаще говорят о том, что наилучший результат дает их совместное использование. В чем отличия этих систем и как достигается компромисс в блоге Syncsort рассказала Кристи Уилсон. 1. Модель распределенного хранения данных, предлагаемая Hadoop, дополняется средствами обработки данных в памяти, предлагаемыми через Spark В Hadoop применяется собственная распределенная файловая система HDFS. Она позволяет выполнять обширные вычисления по коллекции данных, которые собираются с нескольких узлов, входящих в отдельный кластер серверов. Такая архитектура устраняет необходимость использования избыточного оборудования. Более того, Hadoop выполняет индексацию и слежение за перемещением данных, что позволяет вести обработку и анализ больших коллекций рационально и эффективно. Модель работы Spark выстроена иначе. Вместо поиска решений для эффективного обслуживания распределенных хранилищ данных, этот проект достигает преимущества за счет рационализации процесса их обработки. Разница в идеологии работы Hadoop и Spark позволяет добиваться роста эффективности именно благодаря их совместной работе. Общая модель может рассматриваться как некая большая система управления данными, сочетающая достоинства распределенной файловой системы Hadoop и многослойной архитектуры ...
читать далее.