Защитите свой сайт от веб-скраппинга

Linux loves

Web Scraping (из английского языка соскабливание — соскабливание, оно же парсинг страницы) — это процесс извлечения данных, доступных в Интернете, с помощью автоматических запросов, создаваемых специализированным программным обеспечением. Робот поисковой системы просматривает информацию, чтобы проиндексировать или ранжировать сайт, в то время как процесс скраппинга копирует данные в другое место.

Защитите свой сайт от веб-скраппинга

В рамках процесса веб-скраппинга злоумышленник пытается извлечь данные с ресурса: Парсинг адресов электронной почты с вашего сайта Или даже весь. Идеальным способом получения этих данных является периодическая отправка HTTP-запросы серверу, который отправляет веб-страницу в программу. Затем злоумышленник анализирует полученные данные HTML-код и извлечь необходимые данные. Этот процесс повторяется для сотен или тысяч веб-страниц, содержащих необходимые данные.

Технически говоря, процесс парсинг данных с сайта не может быть незаконным, поскольку атакующий просто извлекает информацию, доступную ему через браузер.

Поэтому, как веб-мастер, вы должны быть готовы к тому, чтобы предотвратить кражу данных. Неконтролируемое копирование с огромным количеством запросов может привести к тому, что сервер и размещенные на нем ресурсы перестанут реагировать на запросы.

Парсинг страниц веб-сайта может привести к потере конкурентных преимуществ и доходов. В худшем случае копирование может привести к тому, что контент будет дублироваться в других местах, что приведет к потере доверия к первоисточнику. С технической точки зрения, скраппинг может привести к чрезмерной нагрузке на сервер, замедляя его работу и увеличивая расходы.

Давайте рассмотрим некоторые способы, с помощью которых вы можете противостоять потенциальным злоумышленникам. Однако вы должны знать, что все, что вы видите на экране, может быть скопировано, и абсолютной защиты не существует.

Содержание
  1. Как запретить просмотр с юридической точки зрения?
  2. Предотвращение атак типа «отказ в обслуживании» (DoS)
  3. Использование маркеров CSRF (подделка межсайтовых запросов)
  4. Использование .htaccess для предотвращения копирования
  5. Предотвратить Парсинг изображений с вашего сайта
  6. Черный или белый список определенных IP-адресов
  7. Запросы по управлению нагрузкой
  8. Создавайте «приманки»
  9. Они часто изменяют структуру DOM
  10. Совместное использование API
  11. Сообщите о злоумышленнике поисковым системам и интернет-провайдерам
  12. Как же бороться с парсингом сайта?
ЧИТАТЬ ЕЩЁ:  Использование SSL и HTTPS в WordPress

Как запретить просмотр с юридической точки зрения?

Самый простой способ предотвратить парсинг — запретить его законодательно. Например, условия использования вашего сайта Средний включите следующую строку:


Обход роботизированных сервисов разрешен, если он выполняется в соответствии с директивами в нашем файле robots.txt, но соскабливание запрещено.

Вы даже можете подать в суд на потенциальных скреперов, если запретите им это делать в условиях и положениях. Например LinkedIn.

Предотвращение атак типа «отказ в обслуживании» (DoS)

Скраппинг может нарушить работу сервера. Поэтому избегайте таких ситуаций.

Его можно определить IP-адрес злоумышленников и блокировать их запросы путем фильтрации через ваш брандмауэр. Хотя поставщики облачных услуг предоставляют доступ к инструментам, блокирующим потенциальные атаки. Например, если вы используете Веб-службы Amazon, Щит AWS поможет защитить сервер от возможных атак.

Использование маркеров CSRF (подделка межсайтовых запросов)

Используя токены в своем приложении, вы предотвращаете произвольные запросы к вашим посетителям URL-адреса. Токен может присутствовать как переменная сессии или как скрытое поле формы.

Чтобы обойти маркер, загрузите и проанализируйте. Этот процесс требует навыков программирования и использования профессиональных инструментов.

Использование .htaccess для предотвращения копирования

.htaccess — это файл конфигурации веб-сервера Apache, и может быть настроена для предотвращения доступа скреперов к вашим данным. Первым шагом — является определение синтаксического анализатора, что можно сделать следующим образом Вебмастера Google или Feedburner. После идентификации можно использовать ряд методов защиты.

Файл по умолчанию .htaccess которые не включены в Apache. Мы также приведем аналоги для Nginx А в приведенных примерах. Для получения дополнительной информации о преобразовании правил перезаписи см Документация по Nginx.

Предотвратить Парсинг изображений с вашего сайта

Когда ваш контент уязвим парсинг для другого сайта, Встроенные ссылки на изображения и другие файлы копируются непосредственно на сайт злоумышленника. Ссылка непосредственно на ваш сайт. Аналогичный процесс сопоставления ресурса, расположенного на вашем сервере, с другим сайтом называется «горячей ссылкой» (горячая ссылка).

ЧИТАТЬ ЕЩЁ:  Просмотр видео за деньги - мифы и реальность

Когда вы отключаете горячие ссылки, изображение, отображаемое на другой странице, не обслуживается вашим сервером. Таким образом, скопированный контент не сможет использовать ресурсы, размещенные на вашем сервере.

В Nginx горячие ссылки можно предотвратить, используя директиву location в соответствующем конфигурационном файле (nginx.conf). Необходимо установить Переписывание URL-адресов и редактировать файл конфигурации веб-сайт.config.

Черный или белый список определенных IP-адресов

Если вы определили IP-адреса, которые используются для скраппинга, вы можете просто заблокировать их с помощью файла .htaccess. Вы также можете выборочно разрешить запросы от определенных IP-адреса, которые находятся в белом списке.

В Nginx можно использовать ngx_http_access_module, на Выборочно разрешать или запрещать запросы с заданного IP-адреса. Аналогично, вы можете ограничить доступ к IP-адреса, Добавление роли в диспетчере серверов.

Запросы по управлению нагрузкой

Альтернативой является ограничение количества запросов до одного IP-адреса. Но это может оказаться неэффективным, если злоумышленник имеет доступ к нескольким IP-адреса. Для аномальных запросов, использующих IP-адреса Вы можете использовать капчу.

Также можно заблокировать доступ к известным IP-адреса облачный хостинг и Услуги по разбору страниц, чтобы убедиться, что злоумышленник не сможет использовать их для скраппинга.

Создавайте «приманки»

«Наживка«— это ссылка на поддельный контент, невидимый для обычного пользователя, но присутствующий на сайте, который появляется, когда программа анализирует страницу. Перенаправляя скреперы на такие приманки, вы можете обнаружить их и заставить тратить ресурсы на страницы, не содержащие данных.

Они часто изменяют структуру DOM

Большинство скребков анализируют HTML-код, которые загружаются с сервера. Чтобы усложнить им доступ к интересующим их данным, можно часто изменять структуру API . В результате для обработки таких сложных страниц злоумышленнику придется неоднократно оценивать структуру сайта, чтобы извлечь интересующие его данные.

ЧИТАТЬ ЕЩЁ:  Использование CloudFlare в WordPress

Совместное использование API

Вы можете выборочно разрешить получение данных с сайта, если вы принимаете определенные правила. Один из способов сделать это &#8212 создать API на основе подписки для мониторинга и предоставления доступа к данным. Интерфейсы также могут быть использованы для контроля и ограничения их использования.

Сообщите о злоумышленнике поисковым системам и интернет-провайдерам

Если все остальное не помогает, вы можете указать поисковой системе «scrape», чтобы исключить скопированный контент из результатов поиска. И отбраковывать интернет-провайдеров, чтобы те блокировали их запросы.

Как же бороться с парсингом сайта?

Любой сайт Защита от разбора страниц может быть побежден кем-то. Однако главное — быть осторожным и обращать внимание на дорожное движение.

Оцените статью