Эксперимент по добавлению страниц в SAPE

Эксперимент по добавлению страниц в SAPEНа днях решил добавить максимальное количество страниц в систему SAPE за одну индексацию.
Почитал некоторые форумы, в том числе и сам форум сапе, узнал с каких уровней вложенности и какое количество ссылок кушает данная система и написал простенький скрипт многостраничной карты сайта.
Далее с помощью еще одного скрипта вывел ссылки на все карты на главную и добавил сайт в сапе.
Весь процесс длился около 40 часов, на индексацию ушел 21 час.

Известно что бот сапе переходит с главной страницы по 500 ссылкам, а уже с этих страниц (2-го уровня вложенности) индексирует еще 150 ссылок, эти страницы уже будут иметь 3-й уровень вложенности.
Получаем 500*150 страниц (ссылки, которые ведут с карт сайта) + сами карты 500 страниц + главная страница.
Итого 75 501 страница.
Я прикинул, сколько потребуется трафика для индексации чистого текста 75 тысяч страниц, если в среднем размер 1 страницы 50 килобайт: получается 3,5 Гигабайта - и это только с одного сайта.
Каждый день в систему добавляется огромное количество сайтов, в основном многостраничные ГС. Представляю какая нагрузка на серверы сапе и их ежедневный трафик, если в системе уже более 200 миллионов страниц. И каждую надо загрузить несколько раз в сутки, чтобы парсер проверил наличие ссылок. А еще проверка индексации, показателей PR, можно много всего перечислить.


И так: на главную поставил 450 ссылок на карты, остальные пусть проиндексирует с самого сайта, чтобы кроме самих "карт" были еще какие-нибудь странички 2 уровня вложенности.
Есть и более простые способы, например на время индексации в настройках DLE выставить по 30-50 новостей на страницу.
Добавил сайт в сапе, как всегда площадка получает стаус "ожидает индексации".
Индексация началась в 0 часов 0 минут, робот загрузил практически сразу около 1000 страниц (все карты сайта + еще некоторые ссылки на главной).
Затем скорость сильно замедлилась и робот закончил индексацию только в 9 часов вечера.
График пропускной способности протокола для данного сайта выглядел следующим образом:
Эксперимент по добавлению страниц в SAPE
Это активность роботов sape, т.к. на сайте пока нет посещаемости.

Индексация длилась ровно 21 час, в итоге в сапу удалось добавить почти 22 972 страницы:
Эксперимент по добавлению страниц в SAPE
Всего 628 Мегабайт.
Ожидал другой результат, что страниц будет в 3 раза больше.
Хотя и это можно объяснить - роботы сапе очень часто ломятся на сервер, в результате они получают бан на несколько минут от веб сервера apache или nginx. Робот, не получил ответ от сервера возможно и пропустил многие странички.


Результат неплохой, тем более места под ссылочки с такого количества страниц будут раскупать очень долго.
Как будет свободное время - изучу логи сервера, может быть надо подправить конфиги и тогда попробую добавить самое максимальное количество страниц за одну индексацию crazy

А были ли в истории такие?
Какое количество страниы Вам удалось загнать в сапу за 1 индексацию?

Теги: SAPE, DLE, Сайты


Александр (23 марта 2010 02:42) #1
Спасибо за результаты, интересно был ли кто добавлял ещё большое и каким образом. Имеется ввиду за 1 раз при добавлении в систему.
А сайт то модерацию прошёл? В индексе-то мало страниц...
[цитировать]


WhyMax (23 марта 2010 08:56) #2
Модерацию прошел smile
Как ты и писал, модераторы только жмут на кнопочку "Одобрить".
Скорее всего он так долго индексировался из-за того, что одновременно шла проверка на индексацию страниц, у них просто будет статус "нет в яндекс".
В течении нескольких апов надеюсь яндекс скушает все страницы.
[цитировать]


Truth Hunter (29 марта 2010 08:41) #3
При таком раскладе получается 450 УВ2 галимых карт с 150 внутренними ссылками. Если удалить, то теряется куча УВ2, которые можно было бы раздуть анонсами на главной. А если эти карты не сносить, то получится ужасный ГС с кучей внутренних ссылок, с которого О будут раскупать неохотно, а в базы пультов он не попадёт, а без нах вряд ли он раскупится в ближайшие сто лет :)
Да и сайт не будет бесконечно раскупаться.. Делаю сайты на 2-5к страниц в сапе, при этом в индексе Я 20-30к страниц. Много таких - лучше, чем один толстый ГС)

Ошибся в своем сайте, одна лишняя "e" в домене. Исправь, плиз, битую ссылку)
[цитировать]


WhyMax (29 марта 2010 17:39) #4
В следующий раз сделаю немного хитрее, доработаю модуль, чтобы карты на время индексации заменяли страницы сайта с УВ2.
А этот через месяц переиндексирую, карты сайта из сапы удалю.
[цитировать]


Антон (23 июня 2010 21:37) #5
Подскажите новичку попроще как запустить индексацию страниц, умене толко две страници проиндексировались,главная и 2-го уровня
[цитировать]


WhyMax (23 июня 2010 22:40) #6
Антон,
Во первых проверить что код сапы установлен на всех страницах сайта и он работает (как это сделать написано в разделе FAQ или на форуме системы, таких тем много).
Когда убедились, что все в порядке - удаляете сайт из системы и добавляете заново, чтобы не ждать пока модераторы запустят переиндексацию.
[цитировать]


прохожий (27 июня 2010 22:21) #7
Про сапу понятно. А как загнать в яндекс много страниц?
Подскажи пожалуйста, как лучше добавлять и сколько именно страниц в индекс Яши?
Вот, думаю, либо сразу 2000-3000 страниц, или 200-300 и автоматический постинг, но читал, что оптимально 1-2 новости в день добавлять, не больше, чтоб не было подозрительно. при такой скорости 60 страниц в месяц прибавки - полный бред. Наверное параллельно задам этот же вопрос на нулледе. :)

а если у меня цель 6-8 тысяч страниц? и более? что тут делать?
контент - тупо переводчиком без правки. мысли? (контент полностью уникальный, но разумеется не читаемое Г)

Спасибо.
[цитировать]


WhyMax (28 июня 2010 19:11) #8
прохожий,
Рано или поздно яша их проиндексирует, так что только ждать.
Можно прогнать все страницы через аддурлку или закупить ссылок в той же сапе, но с таким количеством нет желания этим заниматься.
Яндексу пофиг - 1-2 страницы в сутки или же несколько тысяч, все равно сразу весь сайт он не проиндексирует. Если с контентом все в порядке, то бана или фильтра можно не бояться.
[цитировать]


прохожий (30 июня 2010 22:23) #9
Спасибо. А если в качестве контента переводчик без правки? Уникальный для ПС, но не читабельный для Людей. Какие подводный камни тут? Какими пачками страниц добавлять? При первой индексации и при последующих (автонаполнением), если цель загнать 3-4 тысячи страниц и более.
[цитировать]


WhyMax (1 июля 2010 00:23) #10
За 1 ап у меня влетало в индекс по 500 страниц с 1 полностью спарсенного сайта. Если домен не в бане, то с индексацией яндексом проблем обычно никогда не возникает. С гуглом все сложнее, он может даже не проиндексировать сайт с неуникальным контентом.
Если в будущем будете добавляться сайт в сапу, то позаботьтесь о беклинках (прогоните по каталогам или закупите для него дешевых ссылок), иначе сайт может попасть под фильтр (бывает не сразу).
Если у Вас стоит парсер контента - можете запускать его хоть каждый день (добавляйте столько новостей, сколько считаете нужным), это будет только плюсом для поисковиков.
На многих сайтах за сутки постят сотни новостей, в том числе и на моих ГС.
А с каким количеством страниц создавать сайт - решайте сами, но лучше наполнять его постепенно, а не сразу по 5-10 тыс. страниц.
[цитировать]


прохожий (4 июля 2010 15:35) #11
Ещё раз, большое Спасибо за ответ =)

А, вот ещё вопрос... Закупать ссылки не только на главную? На вторую, третьего уровня и все с разными анкорами? Сколько таких ссылок будет достаточно, что бы сайт держался на плаву и не попадал под фильтры? схема 1-1-1 к продаже будет, думаю.
[цитировать]


WhyMax (12 июля 2010 11:23) #12
прохожий,
Извиняюсь, времени совсем не было чтобы ответить.
Закупайте ссылки на страницы 1 и 2-го уровня. Для ГС берите дешевые ссылки и пользуйтесь плагинами для проверки. Я выставляю бюджет 200-300 рублей в месяц.
Я советую почитать какие-либо статьи о покупке ссылок в биржах или попробуйте воспользоваться сервисами СеоПульт или подобными (через них можно сгенерировать себе анкоры и добавлять их в сапе и линкфид).
[цитировать]


samizdam (30 января 2012 22:10) #13
А сколько ждать переиндексацию примерно, как быстро обычно происходит, подскажите? Всего не больше сотни страниц.
[цитировать]

Добавление комментария

Код: Включите эту картинку для отображения кода безопасности
обновить, если не виден код
Введите код