而黑名单在于简单,当你希望屏蔽来自于 Python 代码的恳求或则来自于 Java 代码的恳求时,只须要将其加入黑名单中即可。
通过 Nginx 服务日志来查看恳求头中的 User-Agent
Nginx 是一款轻量级的 Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器。其特性是占有显存少,并发能力强,事实上 Nginx 的并发能力确实在同类型的网页服务器中表现较好,使用 Nginx 企业有:百度、京东、新浪、网易、腾讯、淘宝等。
image
Nginx 的安装与启动
通常可以使用系统本身的安装工具(Centos 的 yum、Debian 系的 apt-get 以及 MacOS 的 brew)安装 Nginx,以 linux 系统为例,在终端中输入:
sudo apt-get install nginx
image
接下来按照提示选择,即可完成 Nginx 的安装。
接着在终端通过命令:
sudo systemctl start nginx
image
即可启动 Nginx 服务。
备注:由于各个系统差异以及版本差别,安装和启动命令略有差异,解决办法自行搜索
Nginx 的日志
Nginx 为用户提供了日志功能,其中记录了每次服务器被恳求的状态和其他信息,包括 User-Agent。 Nginx 的默认日志储存路径为:
/var/log/nginx/
在终端通过命令
cd /var/log/nginx && ls
可以步入到日志储存目录并列出目录下的文件,可以看见其中有两个主要的文件,为 access.log 和 error.log
image
它们分别记录着成功的恳求信息和错误信息。我们通过 Nginx 的访问日志来查看每次恳求的信息。
发起恳求的几种办法浏览器
Nginx 启动后,默认窃听 80 端口,你只须要访问 IP 地址或则域名即可。假设 IP 地址为 127.0.0.1,那么可以在浏览器输入:
http://127.0.0.1
回车后,浏览器都会向服务器发起恳求,和你平常上网是一样的。
Python 代码
这里我们借助 Requests 库来发起网路恳求。在本地新建一个名为 gets.py的文件,其中代码为:
import requests
# 向目标发起请求,并打印返回的 http 状态码
resp = requests.get("http://127.0.0.1")
print(resp.status_code)
image
Postman
Postman是一款功能强悍的网页调试与发送网页HTTP恳求的工具(Postman下载地址),它可以模拟浏览器,访问指定的 Url 并输出返回内容,实际使用如下图所示:
image
Curl
这是一个借助URL句型在命令行下工作的传输工具,它不仅支持 url 地址访问还支持文件上传和下载,所以可以称它为综合传输工具。他也可以模拟浏览器,访问指定的 Url,实际使用如下图所示:
image
Nginx 日志记录结果
上面使用了 4 种方式来向服务器发起恳求,那么我们瞧瞧 Nginx 的日志中,记录了什么样的信息。在终端通过命令:
sudo cat access.log
来查看日志文件。可以看见这几次的恳求记录:
# 请求记录
127.0.0.1 - - [04/Nov/2018:22:19:07 +0800] "GET / HTTP/1.1" 200 396 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
127.0.0.1 - - [04/Nov/2018:22:19:07 +0800] "GET /favicon.ico HTTP/1.1" 404 200 "http://127.0.0.1/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
127.0.0.1 - - [04/Nov/2018:22:20:36 +0800] "GET / HTTP/1.1" 304 0 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
127.0.0.1 - - [04/Nov/2018:22:27:14 +0800] "GET /z_stat.php?id=1256772952&web_id=1256772952 HTTP/1.1" 404 144 "http://appstore.deepin.org/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/538.1 (KHTML, like Gecko) deepin-appstore/4.0.9 Safari/538.1"
127.0.0.1 - - [04/Nov/2018:22:42:10 +0800] "GET / HTTP/1.1" 200 396 "-" "PostmanRuntime/7.3.0"
127.0.0.1 - - [04/Nov/2018:22:42:51 +0800] "GET / HTTP/1.1" 200 612 "-" "curl/7.60.0"
image
无论是 Python 还是 Curl 或者浏览器以及 Postman 的恳求,都被记录在日志文件中,说明 Nginx 可以辨识发起恳求的终端类型。
实现反爬虫
之前的理论和逻辑,在实验中都得到了验证,那么接下来我们就通过黑名单策略将 Python 和 Curl 发起的恳求过滤掉,只容许 Firefox 和 Postman 的恳求通过,并且对被过滤的恳求返回 403 错误提示。
image
反爬虫的过程如上图所示,相当于在服务器和资源之间构建了一道防火墙,在黑名单中的恳求将会被当作垃圾遗弃掉。
配置 Nginx 规则
Nginx 提供了配置文件以及对应的规则,允许我们过滤掉不容许通过的恳求linux 常用命令,本次反爬虫我们使用的就是它。Nginx 的配置文件一般置于/etc/nginx/目录下,名为nginx.conf,我们通过查看配置文件来看一看,站点的配置文件在哪些地方。再通过系统自带的编辑器(笔者所用系统自带 Nano,其他系统可能自带 Vim)来编辑配置文件。在配置文件中找到站点配置文件地址(笔者所用笔记本储存路径为/etc/nginx/sites-enable),再到站点配置文件中找到local级别的配置,并在其中加上一下内容:
if ($http_user_agent ~* (Python|Curl)) {
return 403;
}
这段配置的释义是判定恳求中恳求头字符串中是否包含有 Python或则 Curlredhat linux 9.0安装firefox浏览器详解,如果包含则直接返回 403 错误,否则返回正常的资源。完成配置后保存,再通过命令:
sudo nginx -s reload
image
整个操作过程如上图所示,让 Nginx 服务器重新载入配置文件,使得刚刚的配置生效。
反爬虫疗效测试
重复前面访问的步骤,通过浏览器、Python 代码、Postman 工具和 Curl发起恳求。从返回的结果就可以见到,与刚刚是有所区别的。
image
image
提示:你可以继续更改 Nginx 的配置来进行测试,最终会发觉结果会跟现今的一样:只要在黑名单中,请求都会被过滤掉而且返回 403 错误。
提示:这就是你平常编撰爬虫代码时,需要在恳求头中伪造浏览器的诱因。
绕过 User-Agent 方式的反爬虫
通过前面的学习,我们晓得了 User-Agent 反爬虫这些手段的原理,并且通过 Nginx 来实现了反爬虫,接下来我们一起学习怎么绕开这些反爬虫举措。
Python 绕过反爬虫
在 Requests 库中,允许用户自定义恳求头信息,所以我们可以在恳求头信息上将 User-Agent 的值改为浏览器的恳求头标示,这样才能够误导 Nginx 服务器,达到绕开反爬虫的目的。将之前的 Python 代码改为:
import requests
# 伪造请求头信息 欺骗服务器
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:9527.0) Gecko/20100101 Firefox/9527.0"}
resp = requests.get("http://127.0.0.1", headers=headers)
print(resp.status_code)
代码中我们用到的是 Firefox 浏览器的恳求头信息,而且为了更好的观察疗效,我们可以修改浏览器的版本号(改成9527)以分辨真实浏览器(这不会影响恳求结果)。运行这个文件,看看得到的返回结果:
200
不是 403 了,说明早已绕开了这些类型的反爬虫(你看,这就是网上这些文章所写的,需要更改恳求头信息能够绕开反爬虫,现在你明白是怎么回事了吧)。
练习:使用 Postman 再测试一下
一个测试似乎不确切,你还可以通过 Postman 再来测试一下,还记得如何做吗?
小提示:这个练习假如你自己来做的话linux下socket编程,会更容易理解其中的原理,并且可以加深你的映像。
总结
回顾一下,整篇文章的过程:
image
我们从遇见的反爬虫现象开始入手,接着学习了 User-Agent 这种反爬虫策略的原理,并且通过 Nginx 实现了反爬虫,最后通过 Python 代码示例和 Postman 示例来验证我们的看法,最终清清楚楚、明明白白的了解到其中的原因,待目标改变了它的策略时,我们也可以清楚的晓得可以使用什么方式来绕开。
image
思考:示例中,我仅仅是使用 Python 编写爬虫来演示,那么 Java 写的爬虫呢?PHP 编写的爬虫呢?安卓端发起的恳求呢?
你可以依次测试,结果肯定让你小有收获。
image
如果你是一名爬虫爱好者或则中级爬虫工程师,同时你希望提高自己的水平,我们可以一起交流redhat linux 9.0安装firefox浏览器详解,扫码关注吧!
在微信公众号回复『反爬虫报告』即可获得下边这个反爬虫结果报告文档(PDF)
image
它会让你看起来更专业
报告部份截图:
image
报告的结构如下所示:
image