Противодействие парсингу, либо Как защитить свои данные от копирования | SEO кейсы: социалки, реклама, инструкция

22 ноября 2017, 20:00

Новости

10/11/2024 Как купить игру в Steam с использованием Mastercard

10/11/2024 Способы пополнения кошелька Steam в России

31/10/2024 Документы для ипотеки на вторичное жилье с материнским капиталом

Вы наверное слышали выражение, что в вебе ничего не исчезает. Звучит практически как «рукописи не горят». Но смысл имеет самый прямой. Неважно какая поисковая система работает за счет того, что обретает, обрабатывает и бережёт все данные, которые в вебе возникли. С одной стороны, это превосходно, потому что мы имеем к сиим данным доступ. С иной стороны, это неувязка, потому что сделанный нами интернет-ресурс – тоже ни что другое, как данные. А означает, их несложно исследовать и скачать оттуда всю информацию. Применять ее позже как угодно. Делается это при поддержки программ парсинга. Риск того, что ваш сайт подвергнется этому процессу, есть непрерывно. Как к этому относиться и что с сиим делать?Давайте поглядим.

Как работает парсинг

Для юзера интернет-магазин(как и хоть какой сайт)– это совокупа картинок, текстов, видео – другими словами всего того, что создано для человечьих органов восприятия. Для компа сайт – это совокупа данных, созданных для обработки и преображения в определенный формат. Чтоб извлеченные данные перевести на языки программирования(PHP, Perl, Ruby, Python и т.д.), работают различные программы(скрипты). Они наделяют каждую страничку сайта собственной структурой. В зависимости от данной структуры страничка может получить формат. Таковой как.html,.xml,.sql,.txt и остальные.

Поначалу скрипты исполняют свою работу на локальном компе – конкретно во время заполнения сайта контентом. Когда сайт возникает в вебе, это делают боты поисковых систем. Они проводят анализ, разбор и преображение содержимого сайта, чтоб юзер веба увидел в поисковой выдаче ссылку на интересующий его запрос. Этот процесс и величается парсинг.

Пока содержимое сайта в нужном для следующей обработки виде доступно лишь поисковым системам, все великолепно. Программа-парсер дозволяет вычленить со странички конкретно ту информацию, которая нужна юзеру. Фактически, благодаря этому на сайт переходят гости из поиска. Но спарсить содержимое сайта можнож и в иных интересах. А конкретно, чтоб заполучить и применять контент.

Парсинг контента для внедрения на ином сайте – это действительность, с которой приходится иметь дело хоть какому собственнику интернет-магазина. Ведь специфика такового сайта – сотки и тыщи однотипных описаний продуктов, технических черт и иного контента. В отличие от иных видов страничек, контент, к образцу, интернет-магазина формализован и унифицирован. А означает, просто поддается воссозданию. Юзеру ведь все одинаково, какой сайт является первоисточником – он делает запрос продукта и переходит по хоть какой ссылке, которую дает выдача или реклама.

Можнож как угодно осуждать внедрение чужого контента, но мы живем в мире, где понятие интеллектуальной принадлежности сильно поменялось. К тому же технические описания и свойства продукта – это контент, который неразумно переписывать иными словами. А означает, он не является ничьей собственностью. Но творение полной копии чужого магазина – это теснее воровство. Одинаково как и частичное внедрение того контента, на который у вас есть права. Кстати, есть и иной термин, граббинг(от англ. «grab», т.е. применять, перехватывать)– сбор инфы по определенным характеристикам.

Мы все увлечены граббингом, когда скачиваем что-либо с торрентов. Но не считаем себя воришками до тех пор, пока нас не уличат в коммерческом использовании чужой интеллектуальной принадлежности.

Как парсинг мешает работать вам

Есть несколько видов заморочек, которые восоздает парсинг(граббинг)контента: технические, коммерческие, психологические.

Техно неувязка содержится в том, что боты и сканнеры – это напрасный трафик, который увеличивает нагрузку на сервер. Иногда статистика указывает на сайте всплеск посещаемости и «космическую» глубину просмотра, но навряд ли это повод для радости. Быстрей всего, это работает скрипт, его сканнеры и боты. Ежели у вас хостинг с ограничениями, то превышение перегрузки – это и неувязка, и настоящий повод начать следствие: кто вас парсит.

Коммерческая неувязка явна: ежели парсер запускает ваш соперник, собирает базу продуктов с вашего интернет-магазина и начинает продавать те же продукты по наименьшей стоимости, то вы утрачиваете покупателей.

Психологически делему можнож обрисовать одним восклицанием: «Ну как так!». Фактически, хоть какой вид воровства нам конкретно эту эмоцию и приносит. Необыкновенно когда мы не знаем, удастся ли наказать виновника.

Поиск вредителей

Для начала поглядим на вещи реалистично. Пока не существует метода перекрыть и наказывать за парсинг и граббинг со стопроцентной эффективностью. Потому творить рядовой магазин с рядовым контентом – это непрерывно риск. Ежели же ваш магазин известен, то паразитный трафик обязан послужить для вас предлогом развивать бизнес в том направлении, которое легче защитить. Здесь великую роль играет человечий фактор: он дозволяет создать интеллектуальный продукт, который хоть и можнож скопировать, но его авторство просто доказать, а воров – как минимум отвадить.

И все таки, что делать, ежели вы решили драться с парсингом?Есть несколько видов мер: технические, юридические, психологические.

Технические меры

На специализированных форумах развернуты ветки дискуссий, как драться с парсерами техническими методами. Превосходная новость — решения есть, нехорошая — они могут в перспективе принести больше убытка, чем выгоды.

Итак, самый обычный и работающий метод – это вычислять, с какого IP вас парсят и накрывать для него доступ. Для этого нужна таблица логов, куда записываются данные юзера и время обращения к страничке. Один из способов идентификации — время меж запросами. Ежели обращается очень нередко(другими словами отклонение от среднего значения дельты у 80% запросов меньше 10 секунд), означает парсер. Иной метод идентификации — проверка на скачивание контента, к образцу, изображений или стилей CSS. Полезные боты навряд ли их будут закачивать.

Последующий шаг — найти, нужный или напрасный бот навещает ваш ресурс. Это тяжело, потому что практически все боты маскируются под полностью себе обычные поисковые боты или под браузеры. Таковых ботов можнож выявить лишь по совокупы причин, и это просит разработки специфичного самописного ПО.

Здесь неувязка в том, что без учета различных причин можнож заблокировать бота поисковика или еще какого-то безвредного бота – не многие они верно представляются по user-agent. Да и частоту обращений вредители на данный момент выучились снижать для маскировки.

Блокировка IP вообщем резонна лишь в самых явных злостных вариантах, потому что IP быть может динамически выделенным. Но добавить ограничение на частоту обращений и данное количество вхождений будет нелишней мерой. И все это, подсказываем, относится лишь к одному способу.

Иной метод – применять различные сервисы, которые оберегают от DDOS-атак. Эти сервисы пробуют найти ступень загрузки вашего сайта. При высочайшей частоте подключений в секунду работа парсера рассматривается как подобная DDOS-атаке. На мониторе возникает задержка и предостерегающая надпись. При использовании такового подхода мы предполагаем, что парсер восоздает нагрузку в несколько потоков не делает пауз меж закачкой страничек. В ряде всевозможных случаев это может посодействовать, но лишь против самых обычных парсинговых ботов.

3-ий метод – активное внедрение различных javascript на страничке. Эти скрипты могут значительно затруднить работу парсера, потому что практически все парсеры не в состоянии их интерпретировать. Но недочет этого метода в том, что «хорошим» ботам это тоже осложняет работу. Неаккуратное внедрение сходственных скриптов может просто привести к тому, что ваш сайт выпадет из поисковой выдачи или просядет в ней.

4-ый метод – нелюбимая всеми капча. Метод можнож было бы считать действующим, ежели бы не два отрицательных момента:

капча сердит вашего юзера и мешает ему, чем понижает его лояльность по отношению к вашему ресурсу;
существуют сервисы по распознаванию капчи, они непрерывно совершенствуются.

А означает, результаты ее внедрения сомнительны в свете вероятной утраты заинтересованнности в вашем сайте.

Наиболее полезно применять ReCAPTCHA, потому что она пробует найти, человек ли странствует по сайту или нет.

Наиболее изощренные подходы требуют больше усилий: поначалу необходимо каким-то образом найти, что сайт навещает парсер, позже его идентифицировать и дальше или «разрешить» работу, или ее «запретить». В целом внедрение технических мер схоже на борьбу жителя нашей планеты с литературным или мифологическим персонажем: Лернейской гидрой, к образцу, или ветряными мельницами. Пробовать можнож, но возможность навредить себе выше.

И в конце концов, метод, который хоть отчасти, но подсобляет без убытка и постоянных усилий. Ежели мы не можем защититься от ботов, то желая бы можем затруднить внедрение собственного контента. Главную его ценность могут сочинять фото продуктов. Используйте на изображениях водяные знаки, которые тяжело удалить. Ведь автоматическим методом это сделать тяжело, а возобновление начального изображения сильно усложняет внедрение его на чужом ресурсе.

Организационные меры

Главная организационная мера – обеспечить прыткое индексирование новейших страничек сайта, пока их не успели спарсить. Сделайте в поиске запрос «авторство в Google и Yandex» и используйте все способы извещения поисковых ботов о новейших страничках. Природно, метод сработает, лишь ежели ваш контент оригинален.

Мониторинг веба на предмет заимствования ваших материалов(ручные запросы в поиске, системы антиплагиата)может открыть вам глаза на тот факт, что ваш контент скопировали. В случае ежели вами установлен факт заимствования, вы можете пробовать договориться с обладателем иного ресурса. В зависимости от фуррора переговоров можнож дойти и до юридических претензий.

При всем этом главно осмысливать свойства инфы в вебе:

Информация распространяется живо — потому доказать, что ваш ресурс является первоисточником, быть может тяжело технически;
Великая часть инфы в вебе — это не авторские мат-лы, а различные компиляции из их. Здесь авторское право может оказаться малосильным;
Правовые вопросцы условно веба не так превосходно проработаны, и доборная судебная волокита может лишь усложнить дело, а совершенно не решить его, тем наиболее в вашу выгоду;
Существует множество юридических лазеек, которыми пользуются такие великаны ИТ-отрасли, как поисковые системы. Не исключено, что ними будут воспользоваться и те, кто собирает ваш контент.
Претензии по преступному использованию фото и иного контента, авторское право на который просто доказать, предъявлять можнож. И начать прямо с жалобы поисковым системам. Как минимум, это вернет сайту превосходство первоисточника. Но в норме по жалобе наказывают: к образцу, Google может наказать за единственную картину.

Как далековато можнож зайти в организации противодействия парсингу, зависит от конкретной ситуации и того, что находится на кону. Одна из оправданных предпосылок для обязательной борьбы с парсерами — ежели парсеры пробуют смонтировать с вашего ресурса индивидуальные данные. Утечка таковых данных дискредитирует ваш ресурс. Понижение доверия, обычно, сходу же отражается и на посещаемости, и на прибыли. В неких вариантах может обернуться противостоянием с исправными органами власти.

Но практически непрерывно судебные тяжбы условно заимствования контента ни к чему превосходному не приводят. Они требуют медли и внимания, а итог может и совершенно не окупиться.

Психологические меры

В данном случае их можнож осматривать отталкиваясь от вашего настроя и необходимости. Проведем аналогию «плохой следователь – превосходный следователь». Ежели вы настроены грозно, то вам не обойтись без технических и юридических мер, цель которых – показать, что лучше отыскать иной сайт, чем воевать с вами.

Ежели вы считаете, что с парсероводами проще договориться, предложите им сотрудничество. Суть в том, что, ежели информация с вашего ресурса нужна, непрерывно найдутся желающие ее спарсить. Парсер соберет всю нужную информацию и сформирует выгрузку. Это быть может формат Excel, XML или YML. На всякий вариант, YML-файл – это документ, который обрабатывает Яндекс для собственного Маркета. Как говорится, ежели вы не можете драться с явлением, можете организовать его.

Предложите партнерские программы, программы сотрудничества с вами, организуйте интерфейс экспорта данных и получайте прибыль. Ваши вчерашние заказчики парсеров станут вашими клиентами, и вы можете с ними договориться на взаимовыгодных критериях. Окончательно, это сработает лишь в определенном рыночном секторе и при определенных видах бизнеса. Но организованные вами партнерские программы могут прирастить у вас количество гостей или продаж.

Резюмируем

Хоть какое препятствие для парсинга можнож обойти, это лишь вопросец нужности вашей инфы.
Стоимость получения ваших данных иной стороной зависит от трудности их получения, другими словами от цены, в которую вам обойдется охрана от парсинга. Так что расценивайте необходимость и нужную сложность запутываний отталкиваясь от ценности контента, который у вас есть.
Стоимость вашей охраны может включать не совершенно лишь стоимость опции системы противодействию парсинга, а дополнительно еще и опасности ее некорректной работы. Большая часть инвестиций в SEO могут совершенно не окупиться, ежели система охраны будет перекрыть поисковых ботов. Это наихудший сценарий развития ситуации. Юзеры тоже не будут в восторге от замедления работы, случайных блокировок и необходимости ввода капчи.
Трудности с поисковыми системами могут оказаться дороже, чем попытка защитить свои данные. Может, имеет смысл поразмыслить, как зарабатывать на собственном ресурсе больше, а к утратам от парсинга относиться как к реалиям нашего медли, к образцу, сетевому пиратству?

В недалеком будущем быть может наступит эпоха семантического веба, который так издавна активно дискуссируется. В данной новеньком будущем парсеры станут совершенно иными, и это создаст абсолютно иные трудности. А пока что мы еще находимся в преддверии семантического веба, не имеет смысла практически непрерывно творить себе доп трудности.