26.11.2019 Экспертиза, БезопасностьПарсингом веб-сайтов называют процесс поиска и извлечения размещенных на них данных, представляющих интерес для того, кто этот процесс организовал. Российская компания Xmldatafeed занимается парсингом данных в основном в области электронной коммерции, последующей их обработкой и продажей. Интерес представляют названия товаров, их потребительские характеристики, описания, цены, сопутствующие товары, наличие на полках... Чаще всего подобные данные заказывают друг о друге конкуренты, хотя результаты парсинга бывают полезны и самим владельцам подвергнутых парсингу сайтов. Ежедневно Xmldatafeed обрабатывает около 600 крупных сайтов, среди них «Беру!», Ozon, «Авито», «Леруа Мерлен», «Эльдорадо», «220 вольт» и т. п. На сбор данных об одной единице товара, по словам коммерческого директора Xmldatafeed Максима Кульгина, уходит 6-7 с. Как результат, интернет-магазин регионального масштаба «Леруа Мерлен», например, может быть обработан примерно за сутки. Технически компания может организовать за сутки несколько сеансов сбора данных, но это уже будет похоже на DDoS-атаку, чего профессиональные команды (в отличие от дилетантов) не допускают. Как пояснил технический директор Qrator Labs Артем Гавриченков, парсингом сайтов компаний, схожих с упомянутыми выше, одновременно могут заниматься десятки сосредоточенных на этом бизнесе команд, различающихся по величине и квалификации. В процессе сбора данных квалифицированные команды стараются не причинить обрабатываемому источнику никакого вреда ...
читать далее.