Проблема при скачивании "тупыми" и "толстыми" (многопоточными с широкими каналом) качальщиками в следующем.
Сайт из-за наличия большой таксономии в абсолютном исчислении имеет около миллиона страниц (их реально ещё больше, но где-то столько доступно для гостей). На скорость работы пауков поисковиков (они тоже многопоточные) можно повлиять - через админку вебмастера или настройками файла robots.txt, в результате чего они напрягают сервер незначительно (терпимо даже когда все приходят толпами). Кроме того, при скачивании они отличаются интеллектом - не выкачивают постоянно одни и те же страницы, учитывают дату создания/изменения, используют свои алгоритмы обхода всего сайта и т.п. В то же время "обычные" программы не умеют всего этого и тупо выкачивают всё подряд по всем ссылкам на каждой странице.
Далее. Страницы на сайте генерятся динамически (именно поэтому их так много, в реальности уникальных страниц - несколько десятков тысяч). Для ускорения отдачи они кэшируются. Понятно, что "обычные" посетители в 95% процентов скачивают лишь "верхние", "популярные" страницы, которые как раз всегда закэшированы. В то же время качальщики, наоборот, сразу же "лезут вглубь", постоянно выкачивая некэшированные страницы. В результате два таких качальщика на сайте создают нагрузку много большую, нежели 200 обычных пользователей онлайн. И если одного качальщика наше текущее железо держит нормально, то когда начинают качать два сразу плюс "обычные" пользователи подтягиваются - сайт начинает тормозить. Когда приходит третий (качальщик) - сайт становится недоступным (лишь для "несчастных" обладателей узких каналов - качальщики же продолжают качать).
Потому пока не удалось настроить сервер на автоматическую раздачу банов неуёмным качальщикам - буду раздавать их вручную по результатам своей статистики. Первым кандидатом на постоянный бан является целая подсетка 94.50.0.0 - 94.51.255.255 (Екатеринбург, Уралсвязьинформ), так как с различных айпишников оной каждый день скачиваются десятки тысяч страниц. (Я не продвинут в познаниях структуры этой части интернета, потому буду признателен за информацию по данной подсети и почему там так много-часто-лихо качают ).
Проблема при скачивании "тупыми" и "толстыми" (многопоточными с широкими каналом) качальщиками в следующем.
Сайт из-за наличия большой таксономии в абсолютном исчислении имеет около миллиона страниц (их реально ещё больше, но где-то столько доступно для гостей). На скорость работы пауков поисковиков (они тоже многопоточные) можно повлиять - через админку вебмастера или настройками файла robots.txt, в результате чего они напрягают сервер незначительно (терпимо даже когда все приходят толпами). Кроме того, при скачивании они отличаются интеллектом - не выкачивают постоянно одни и те же страницы, учитывают дату создания/изменения, используют свои алгоритмы обхода всего сайта и т.п. В то же время "обычные" программы не умеют всего этого и тупо выкачивают всё подряд по всем ссылкам на каждой странице.
Далее. Страницы на сайте генерятся динамически (именно поэтому их так много, в реальности уникальных страниц - несколько десятков тысяч). Для ускорения отдачи они кэшируются. Понятно, что "обычные" посетители в 95% процентов скачивают лишь "верхние", "популярные" страницы, которые как раз всегда закэшированы. В то же время качальщики, наоборот, сразу же "лезут вглубь", постоянно выкачивая некэшированные страницы. В результате два таких качальщика на сайте создают нагрузку много большую, нежели 200 обычных пользователей онлайн. И если одного качальщика наше текущее железо держит нормально, то когда начинают качать два сразу плюс "обычные" пользователи подтягиваются - сайт начинает тормозить. Когда приходит третий (качальщик) - сайт становится недоступным (лишь для "несчастных" обладателей узких каналов - качальщики же продолжают качать).
Потому пока не удалось настроить сервер на автоматическую раздачу банов неуёмным качальщикам - буду раздавать их вручную по результатам своей статистики. Первым кандидатом на постоянный бан является целая подсетка 94.50.0.0 - 94.51.255.255 (Екатеринбург, Уралсвязьинформ), так как с различных айпишников оной каждый день скачиваются десятки тысяч страниц. (Я не продвинут в познаниях структуры этой части интернета, потому буду признателен за информацию по данной подсети и почему там так много-часто-лихо качают ).