02.02.2016 Новости, Открытый код/LinuxДаг Катинг
Технология Hadoop, лежащая в основе анализа больших данных, обрела широкую популярность лишь в последние пару лет. Однако первые свои шаги она сделала задолго до этого и в нынешнем году должна отметить свой десятилетний юбилей. Одним из пионеров Hadoop был нынешний главный архитектор компании Cloudera Даг Катинг, который поделился своими воспоминаниями с еженедельником InformationWeek. Все началось с разработки в 2002 г. опенсорсного поискового Web-робота Nutch, которую Катинг вел совместно с Майком Цафарелла. Программный робот должен был последовательно загружать на диск посещаемые Web-страницы, обрабатывать их и анализировать на предмет связывающих их ссылок. Работала программа довольно медленно. В распоряжении разработчиков было только пять компьютеров, и им приходилось многое делать вручную. Отсутствовали какие-либо средства повышения надежности: при выходе из строя любой машины часть данных безвозвратно терялась. Толчок к переменам пришел от Google, опубликовавшей в 2004 г. статью, посвященную распределенной обработке больших массивов данных на множестве стандартных серверов с помощью MapReduce. Уже через год скорость обработки существенно выросла, а в проекте Nutch было задействовано 20 серверов. Тем не менее, в плане масштабируемости и надежности все оставалось на прежнем уровне. В начале 2006 г. Катинг перешел в Yahoo, и руководство этой компании решило инвестировать в технологию, которая была отделена от проекта Nutch и получила название Hadoop (по имени игрушечного ...
читать далее.