Эксперимент по добавлению страниц в SAPE
На днях решил добавить максимальное количество страниц в систему SAPE за одну индексацию.
Почитал некоторые форумы, в том числе и сам форум сапе, узнал с каких уровней вложенности и какое количество ссылок кушает данная система и написал простенький скрипт многостраничной карты сайта.
Далее с помощью еще одного скрипта вывел ссылки на все карты на главную и добавил сайт в сапе.
Весь процесс длился около 40 часов, на индексацию ушел 21 час.
Известно что бот сапе переходит с главной страницы по 500 ссылкам, а уже с этих страниц (2-го уровня вложенности) индексирует еще 150 ссылок, эти страницы уже будут иметь 3-й уровень вложенности.
Получаем 500*150 страниц (ссылки, которые ведут с карт сайта) + сами карты 500 страниц + главная страница.
Итого 75 501 страница.
Я прикинул, сколько потребуется трафика для индексации чистого текста 75 тысяч страниц, если в среднем размер 1 страницы 50 килобайт: получается 3,5 Гигабайта - и это только с одного сайта.
Каждый день в систему добавляется огромное количество сайтов, в основном многостраничные ГС. Представляю какая нагрузка на серверы сапе и их ежедневный трафик, если в системе уже более 200 миллионов страниц. И каждую надо загрузить несколько раз в сутки, чтобы парсер проверил наличие ссылок. А еще проверка индексации, показателей PR, можно много всего перечислить.
И так: на главную поставил 450 ссылок на карты, остальные пусть проиндексирует с самого сайта, чтобы кроме самих "карт" были еще какие-нибудь странички 2 уровня вложенности.
Есть и более простые способы, например на время индексации в настройках DLE выставить по 30-50 новостей на страницу.
Добавил сайт в сапе, как всегда площадка получает стаус "ожидает индексации".
Индексация началась в 0 часов 0 минут, робот загрузил практически сразу около 1000 страниц (все карты сайта + еще некоторые ссылки на главной).
Затем скорость сильно замедлилась и робот закончил индексацию только в 9 часов вечера.
График пропускной способности протокола для данного сайта выглядел следующим образом:Это активность роботов sape, т.к. на сайте пока нет посещаемости.
Индексация длилась ровно 21 час, в итоге в сапу удалось добавить почти 22 972 страницы:Всего 628 Мегабайт.
Ожидал другой результат, что страниц будет в 3 раза больше.
Хотя и это можно объяснить - роботы сапе очень часто ломятся на сервер, в результате они получают бан на несколько минут от веб сервера apache или nginx. Робот, не получил ответ от сервера возможно и пропустил многие странички.
Результат неплохой, тем более места под ссылочки с такого количества страниц будут раскупать очень долго.
Как будет свободное время - изучу логи сервера, может быть надо подправить конфиги и тогда попробую добавить самое максимальное количество страниц за одну индексацию
А были ли в истории такие?
Какое количество страниы Вам удалось загнать в сапу за 1 индексацию?
Получаем 500*150 страниц (ссылки, которые ведут с карт сайта) + сами карты 500 страниц + главная страница.
Итого 75 501 страница.
Я прикинул, сколько потребуется трафика для индексации чистого текста 75 тысяч страниц, если в среднем размер 1 страницы 50 килобайт: получается 3,5 Гигабайта - и это только с одного сайта.
Каждый день в систему добавляется огромное количество сайтов, в основном многостраничные ГС. Представляю какая нагрузка на серверы сапе и их ежедневный трафик, если в системе уже более 200 миллионов страниц. И каждую надо загрузить несколько раз в сутки, чтобы парсер проверил наличие ссылок. А еще проверка индексации, показателей PR, можно много всего перечислить.
И так: на главную поставил 450 ссылок на карты, остальные пусть проиндексирует с самого сайта, чтобы кроме самих "карт" были еще какие-нибудь странички 2 уровня вложенности.
Есть и более простые способы, например на время индексации в настройках DLE выставить по 30-50 новостей на страницу.
Добавил сайт в сапе, как всегда площадка получает стаус "ожидает индексации".
Индексация началась в 0 часов 0 минут, робот загрузил практически сразу около 1000 страниц (все карты сайта + еще некоторые ссылки на главной).
Затем скорость сильно замедлилась и робот закончил индексацию только в 9 часов вечера.
График пропускной способности протокола для данного сайта выглядел следующим образом:Это активность роботов sape, т.к. на сайте пока нет посещаемости.
Индексация длилась ровно 21 час, в итоге в сапу удалось добавить почти 22 972 страницы:Всего 628 Мегабайт.
Ожидал другой результат, что страниц будет в 3 раза больше.
Хотя и это можно объяснить - роботы сапе очень часто ломятся на сервер, в результате они получают бан на несколько минут от веб сервера apache или nginx. Робот, не получил ответ от сервера возможно и пропустил многие странички.
Результат неплохой, тем более места под ссылочки с такого количества страниц будут раскупать очень долго.
Как будет свободное время - изучу логи сервера, может быть надо подправить конфиги и тогда попробую добавить самое максимальное количество страниц за одну индексацию
А были ли в истории такие?
Какое количество страниы Вам удалось загнать в сапу за 1 индексацию?





















