上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。 这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些傻逼网站,开始封禁我们…. … (干死他们,哥们要是有资源,必须干掉ddos,让你防 ! 当然我也就装装逼,没这个资源)
对于爬虫被封禁 ! 爬虫一般来说只要你的ip够多,是不容易被封的。 一些中小网站要封杀你,他的技术成本也是很高的,因为大多数网站没有vps,他们用的是虚拟空间或者是sae,bae这样的paas云。 其实就算他们不考虑seo搜索优化,用ajax渲染网页数据,我也可以用webkit浏览器组件来搞定ajax之后的数据。
如果某个网站他就是闲的蛋疼,他就是喜欢从log里面,一行行的分析出你的ip,然后统计处频率高的网站, 那这个时候咋办? 其实方法很草比,就是用大量的主机,但是大量的主机是有了,你如果没有那么爬虫的种子量,那属于浪费资源… … 其实一个主机,多个ip是可以的。。。
这个时候是有两种方法可以解决的,第一个是用squid绑定多个ip地址,做正向代理…. 你的程序里面维持一组连接池,就是针对这几个正向proxy做的连接池。
正向代理和反向代理最大的区别就是,反向代理很多时候域名是固定的,而正向代理是通过一个http的代理端口,随意访问,只是在proxy端会修改http协议,去帮你访问
如果是python,其实单纯调用socket bind绑定某个ip就可以了,但是标题的轮训是个什么概念,就是维持不同的socket bind的对象,然后你就轮吧 ! 跟一些业界做专门做爬虫的人聊过,他们用的基本都是这样的技术。
# -*- coding=utf-8 -*-
import socket
import urllib2
import re
true_socket = socket.socket
ipbind='xx.xx.xxx.xx'
def bound_socket(*a, **k):
sock = true_socket(*a, **k)
sock.bind((ipbind, 0))
return sock
socket.socket = bound_socket
response = urllib2.urlopen('http://www.ip.cn')
html = response.read()
ip=re.search(r'code.(.*?)..code',html)
print ip.group(1)
在http://stackoverflow.com/ 上也找到一些个老外给与的解决方法的思路,他是借助于urllib2的HTTPHandler来构造的出口的ip地址。
import functools
import httplib
import urllib2
class BoundHTTPHandler(urllib2.HTTPHandler):
def __init__(self, source_address=None, debuglevel=0):
urllib2.HTTPHandler.__init__(self, debuglevel)
self.http_class = functools.partial(httplib.HTTPConnection,
source_address=source_address)
def http_open(self, req):
return self.do_open(self.http_class, req)
handler = BoundHTTPHandler(source_address=("192.168.1.10", 0))
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
import functools
import httplib
import urllib2
class BoundHTTPHandler(urllib2.HTTPHandler):
def __init__(self, source_address=None, debuglevel=0):
urllib2.HTTPHandler.__init__(self, debuglevel)
self.http_class = functools.partial(httplib.HTTPConnection,
source_address=source_address)
def http_open(self, req):
return self.do_open(self.http_class, req)
handler = BoundHTTPHandler(source_address=("192.168.1.10", 0))
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
那么就有一个现成的模块 netifaces ,其实netifaces模块,就是刚才上面socket绑定ip的功能封装罢了
地址: https://github.com/raphdg/netifaces
import netifaces
netifaces.interfaces()
netifaces.ifaddresses('lo0')
netifaces.AF_LINK
addrs = netifaces.ifaddresses('lo0')
addrs[netifaces.AF_INET]
[{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]
import netifaces
netifaces.interfaces()
netifaces.ifaddresses('lo0')
netifaces.AF_LINK
addrs = netifaces.ifaddresses('lo0')
addrs[netifaces.AF_INET]
[{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
相关教程
-
请问你是黑客的菜吗?有效防范黑客入侵的绝招
在大多数人看来,这也许只是网络世界中一群拥有高超电脑技术的专业人士代名词;或者,很多人印象中的黑客,就如同电影《黑客帝国》中展现的那样出神入化。Palo AltoNetworks日前发布了一项由其赞助的调查结果,这份调查揭露了神秘黑客的收入、攻击花费的时间,通过了解黑…
5/9/2018 10:54:44 PM -
你的账号密码是怎样丢失的?暴力破解攻击的检测和防御
之前我们讲过关于“黑客1小时内破解16位密码”这样可怕的事情,里面提及了很多安全专家反复提醒用户设置账户和密码时要尽可能多样化,以防被破解。要知道,在这个大数据称霸天下的时代,网络安全意味着什么,意味着一切。众所周知,iCloud艳照门其实并…
5/9/2018 10:54:43 PM -
如何逆向破解HawkEye keylogger键盘记录器进入攻击者邮箱
面对恶意邮件攻击,我们就只能默默忍受被他攻击,连自我保护能力都没有谈什么反抗?让人痛快的是,如今有了解决办法,逆向破解键盘记录器,进入攻击者邮箱。这一切要从一次恶意邮件攻击活动开始。下图为我们最近监测到的一个以恶意文件为发送附件的邮件攻击,请注意邮件信…
5/9/2018 10:54:41 PM -
黑客都很厉害吗 厉害的只是一小部分
国家正在修正关于黑客方面的法律法规,有一条震惊黑客圈的“世纪佳缘”起诉白帽黑客事件,深深的伤害了广大黑客们的心,加上扎克伯格和特拉维斯·卡兰尼克账号被盗,于是黑客话题又开始变得火热,黑客真的如你所想神秘又强大?真正技术高超的…
5/9/2018 10:54:33 PM
共有条评论 网友评论