爬虫-爬虫防屏蔽手段之代理服务器-白红宇

爬虫-爬虫防屏蔽手段之代理服务器

阅读量：5351 次

发布时间：2019-06-15

本文共 867 字，大约阅读时间需要 2 分钟。

设置好代理headers = ('User-Agent',‘...’)后，

使用opener = urllib.request.biuld_opener()对象

设置好对象代理服务器：opener.addheader = [headers]

然后必须设置全局代理:urllib.request.install_opener(opener)

最后才能在urllib.request.urlopen(url).read().decode('urf-8','ignore')中使用，否则要报错

什么是代理服务器：

所谓代理服务器，是一个处于我们与互联网中间的服务器，如果使用代理服务器，我们浏览信息的时候，先向代理服务器发出请求，然后由代理服务器向互联网获取信息，再返回给我们。

使用代理服务器进行爬取网页实战：

使用代理服务器进行信息爬取，可以很好的解决IP限制的问题。

免费代理IP地址:www.xicidaili.com

import urllib.request

def use_proxy(url,proxy_addr):

proxy = urllib.request.ProxyHandler({"http":proxy_addr})

opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)

urllib.request.install_opener(opener)

data = urllib.request.urlopen(url).read().decode("utf-8",'ignore')

return data

proxy_addr = ""

112.85.169.100:9999""

url = "http://baidu.com"

data = use_proxy(url,proxy_addr)

print(data)

转载于:https://www.cnblogs.com/zxzx1/p/10902995.html

你可能感兴趣的文章

Intel的X86芯片段式管理历史起源（CS、DS、ES、SS）——避免产品公司的小九九

查看>>

leecode 937 Reorder Log Files （模拟）

查看>>

JavaScript（三、DOM文档对象模型）

查看>>

AngularJS XMLHttpRequest

查看>>

兼容性积累

查看>>

Redux 源码解读--createStore,js

Winform中Checkbox与其他集合列表类型之间进行关联

查看>>

SQL语句整理(一) 数据库查询语言DQL

ASP.NET 3.5 SP1高级编程（第6版）中文高清PDF完整版下载

查看>>

Django中不返回QuerySets的API -- Django从入门到精通系列教程

查看>>

洗衣窍门

查看>>