Грабберы атакуют

Грабберы атакуютПо словам фонда "Дети-мира" Газета Правительства Москвы кинула своих разработчиков сайта на 150 тысяч рублей, не оплатив хостинг за предыдущий год. Они постарались чтобы данная статья появилась на многих сайтах и написали во всех газетах.
Как Вы думаете, может ли столько стоить сайт на нуленом (взломанном) движке DLE со стандартным шаблоном? Школьники выполняют такую работу за пару баксов.
Да и дело даже не в этом, прошло уже 2 месяца, разработчики забрали сайт себе, т.к. домен и хостинг были зарегистрированы на них.
Нашли новый шаблон для дле и продолжали зарабатывать на сайте с помощью бирж ссылок.
Но не все так просто, сайт не обновляется - нужно же где-нибудь парсить контент. И где же его взять?
Конечно же на новом официальном сайте газеты, домен зарегистрирован недавно и поисковики привыкли к старому домену.

Практически каждый день редакция выкладывает новости на своем сайте и за дело берется rss-граббер.
Яндекс и Google еще не успели проиндексировать новости на официальном сайте, т.к. заходят на него очень редко.
Как только контент появляется на сайте воришек поисковики сразу же идут на их сайт, получается после индексации официального сайта они находят на нем уже плагиат.
Так что первоисточник не тот, кто первый добавил какую-либо статью на сайт, а у кого выше пузомерки, такие как тИЦ, PR и возраст домена.

Для подтверждения своих слов решил провести эксперимент и убедиться еще раз что контент воруют именно этим способом.
В RSS-ленту в конце каждой новости добавил следующий код:
<span style="display:none;">Мы воруем весь контент с сайта <a href="http://tver-13.ru">tver-13.ru</a></span>
Естественно видно его не будет, но поисковики все учтут.
Чтобы их бот ззале на сайт добавил новость, которая уже была добавлена 2 недели назад.
На сайте она не отображалась, ее можно было увидеть только в rss.

Далее за дело берется граббер, вот логи веб сервера:
178.208.83.8 tver-13.ru - - [08/May/2010:12:53:35 +0400] "GET /rss.xml HTTP/1.0" 200 12308 "-" "-" 27559 0
178.208.83.8 tver-13.ru - - [08/May/2010:12:53:36 +0400] "GET /uploads/posts/2010-04/thumbs/t1305024040011.jpg HTTP/1.0" 200 7150 "-" "-" 27564 0
178.208.83.8 tver-13.ru - - [08/May/2010:12:53:36 +0400] "GET /mg/print:page,1,9831-mockva-moskbichi.html HTTP/1.0" 200 18007 "-" "-" 27566 0
178.208.83.8 tver-13.ru - - [08/May/2010:12:53:36 +0400] "GET /uploads/posts/2010-04/t1305024040011.jpg HTTP/1.0" 200 73240 "-" "-" 27575 0
178.208.83.8 - IP адрес сервера, на котором находится сайт tver13.ru.

Скрипт хороший - смотрит что появилось нового на сайте по rss, далее загружает все изображения себе на сервер и открывает страницу для печати, откуда берет полную новость.
Насколько я помню перед добавлением новостей их можно отредактировать. Я не могу представить как Попович не увидел добавленный текст. Сходите к окулисту, может быть он Вам поможет.

Смотрим кто добавляет все новости на сайт:
Грабберы атакуют

Какой-то "Адский парсер" rofl2

Если хотите, проделайте следующее с браузерами Mozilla Firefox или Internet Explorer:
1. Выделяете текст любой новости (добавленной после 8 мая) целиком и копируете его
2. Открываете любой текстовый редактор и вставляете текст
Интересно, не правда ли?
Грабберы атакуют

В опере и хроме это сделать не получится.

Писал много писем яндекс, тех поддержку хостинга MC-Host (Макхост) - все игнорируют.
А хостер вобще с ними сотрудничает и на их стороне.

Грабберы атакуют

Теги: Дети мира, Макхост, MC-Host, Контент, Сайты


freeze (9 мая 2010 19:22) #1
Вообще-то есть соотвествующий раздел в законе, называется он "Об авторских правах". Поэтому с такими уликами можно смело обращаться в суд. Тут вопрос только в том - надо ли это...
[цитировать]

Добавление комментария

Код: Включите эту картинку для отображения кода безопасности
обновить, если не виден код
Введите код