27.02.2009 НовостиНакопленные интернет-архивы предоставляют богатый материал для учёных в области общественных наук и экономистов, изучающих временную динамику социальных сетей и рынков. Однако размеры и сложность этих веб-данных как правило предъявляют высокие требования к их обработке. Учитывая это, Корнельский университет (США, шт. Нью-Йорк) разработал семейство программных инструментов для анализа данных. Эти средства являются частью проекта Web Lab, осуществляемого университетом, организацией Internet Archive и рядом других структур. Цель проекта подготовить большую часть архивов таким образом, чтобы ими могли воспользоваться исследователи, не являющиеся экспертами в вычислительной обработке больших объёмов данных. Один из инструментов называется Web Lab Collaboration Server. Это сервис для крупномасштабного совместного анализа веб-данных. Он демонстрирует, как поддерживать нетехнических пользователей при поиске, извлечении и анализе веб-данных. Центр по передовым вычислениям (Center for Advanced Computing, CAC) университета периодически через соединение сети TeraGrid Национального научного фонда (NSF) скачивает результаты работы спайдеров (пауков) хранящиеся в БД организации Internet Archive, расположенной в Сан-Франциско. Эти результаты по-английски именуются web crawls, что можно было бы перевести как текущие копии веба. В настоящее время загружено четыре таких полных снимка, содержащих миллиарды страниц. Однако несмотря на богатство общедоступных данных существует три основных ...
читать далее.