Решил недавно поставить эксперимент, который ответил бы на мой вопрос – легко ли заполучить в свои руки приватную СПАМ-базу, использую только свои мозги?
Первый шаг – создать URL список из сайтов, главные страницы которых будем парсить на предмет присутствия e-mail.
Второй шаг – скачать главные страницы 1000 сайтов.
Третий шаг – отпарсить эти страницы на предмет присутствия e-mail.
В качестве инструментов я написал несколько программ:
- Программа спайдер-парсер, при помощи которой я «вытянул» 1000 URL-ов из одного очень известного украинского портала.
- Программа качалка – с ее помощью я скачал все доступные главные страницы со списка «1000 URL-ов».
- Программа, при помощи которой я попытался вытянуть из каждой скачаной страницы все доступные e-mail.
И вот каков результат:
Из 1000 главных страниц сайтов моя программа смогла вытянуть 316 уникальных e-mail адреса. И это с учетом того, что я при поиске e-mail адреса на каждой странице ориентировался только на «mailto:» и парсил только одну-единственную страницу сайта. А если бы я парсил каждый сайт вглубь на несколько уровней? Уверен, что тогда бы количество собранных e-mail было бы намного больше.
Общая статистика:
- Из 1000 сайтов 22 был в офлайне. 978 были в онлайне.
- Минимальный размер одной страницы: 52 Байта (страничка с META-редиректом
- Максимальный размер одной страницы: 232 КБайта.
- Средний размер одной страницы: 33.6 КБайта.
- В однопотоковом режиме на скачивание из интернета 1000 страниц ушло 52 минуты и 36 МБайтов трафика (download) при скорости соединения до 400 килобит/сек.
Скорость скачивания каждой страницы очень сильно варьировалась – от 40 до 400 килобит/сек. Очевидно сказывалась удаленность соответствующего сайта, загруженность хостинга и т.д. Из-за того, что страницы скачивались в один поток, не было возможности утилизировать свой Интернет-канал на 100%.
Как все оказывается легко. Будем думать дальше:)))
Июнь 18, 2008 в 2:19 пп |
Вывод – если программист не ленив, все, что существует в инете, он может повторить своими руками