05.12.2006 ЭкспертизаЦифровой библиотекарь рассказывает о проблемах хранения и путях их решенияПитеру КоффиСоздать архив всего Интернета, причем не в текущем его виде, а в том, каким он был раньше, - задача не из простых. Для ее решения нужно не только довести до предела емкость хранилища, но и обеспечить свободный поиск информации при минимальных затратах. О масштабности такой проблемы и удивительной простоте ее решения в Internet Archive (www.archive.org) рассказал технологическому редактору Питеру Коффи цифровой библиотекарь и основатель этой некоммерческой организации Брюстер Кале.По мере того как объемы корпоративных данных быстро приближаются к петабайтному рубежу, коммерческие организации все чаще сталкиваются с принципиально новым явлением. Расходы на работу вычислительных центров в последнее время зачастую превосходят стоимость установленного здесь оборудования, а в таких условиях команда Кале вполне может указывать путь в будущее, равно как и в прошлое.Выдержки из интервью приводятся ниже. Более подробную аудиозапись разговора Коффи с Кале можно прослушать на странице подкастов InfraSpectrum сайта eWeek по адресу: go.eweek.com/ kahlepodcast.Какой объем информации собран на данный момент в хранилищах Internet Archive? Брюстер Кале: “У нас в основном применяются стойки с Linux-машинами”Брюстер Кале: Одна только Web-коллекция насчитывает у нас порядка 55 млрд. страниц, и без компрессии ее объем намного превысил бы 1 Пб. Даже при сжатии 2:1, которое применяется в нашем хранилище ...
читать далее.