Легко ли добыть адреса e-mail?

By bitonic

Решил недавно поставить эксперимент, который ответил бы на мой вопрос – легко ли заполучить в свои руки приватную СПАМ-базу, использую только свои мозги? :)

Первый шаг – создать URL список из сайтов, главные страницы которых будем парсить на предмет присутствия e-mail.

Второй шаг – скачать главные страницы 1000 сайтов.

Третий шаг – отпарсить эти страницы на предмет присутствия e-mail.

В качестве инструментов я написал несколько программ:

  1. Программа спайдер-парсер, при помощи которой я «вытянул» 1000 URL-ов из одного очень известного украинского портала.
  2. Программа качалка – с ее помощью я скачал все доступные главные страницы со списка «1000 URL-ов».
  3. Программа, при помощи которой я попытался вытянуть из каждой скачаной страницы все доступные e-mail.

И вот каков результат:

Из 1000 главных страниц сайтов моя программа смогла вытянуть 316 уникальных e-mail адреса. И это с учетом того, что я при поиске e-mail адреса на каждой странице ориентировался только на «mailto:» и парсил только одну-единственную страницу сайта. А если бы я парсил каждый сайт вглубь на несколько уровней? Уверен, что тогда бы количество собранных e-mail было бы намного больше.

Общая статистика:

  1. Из 1000 сайтов 22 был в офлайне. 978 были в онлайне.
  2. Минимальный размер одной страницы: 52 Байта (страничка с META-редиректом :)
  3. Максимальный размер одной страницы: 232 КБайта.
  4. Средний размер одной страницы: 33.6 КБайта.
  5. В однопотоковом режиме на скачивание из интернета 1000 страниц ушло 52 минуты и 36 МБайтов трафика (download) при скорости соединения до 400 килобит/сек.

Скорость скачивания каждой страницы очень сильно варьировалась – от 40 до 400 килобит/сек. Очевидно сказывалась удаленность соответствующего сайта, загруженность хостинга и т.д. Из-за того, что страницы скачивались в один поток, не было возможности утилизировать свой Интернет-канал на 100%.

Как все оказывается легко. Будем думать дальше:)))

Метки: , , , ,

Один ответ на “Легко ли добыть адреса e-mail?”

  1. Vlad:

    Вывод – если программист не ленив, все, что существует в инете, он может повторить своими руками :)

Ответить