博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫-爬虫防屏蔽手段之代理服务器
阅读量:5351 次
发布时间:2019-06-15

本文共 867 字,大约阅读时间需要 2 分钟。

设置好代理headers = ('User-Agent',‘...’)后,
使用opener = urllib.request.biuld_opener()对象
设置好对象代理服务器:opener.addheader = [headers]
然后必须设置全局代理:urllib.request.install_opener(opener)
最后才能在urllib.request.urlopen(url).read().decode('urf-8','ignore')中使用,否则要报错
什么是代理服务器:
所谓代理服务器,是一个处于我们与互联网中间的服务器,如果使用代理 服务器,我们浏览信息的时候,先向代理服务器发出请求,然后由代理服务器向互联网获取信息,再返回给我们。
 
使用代理服务器进行爬取网页实战:
使用代理服务器进行信息爬取,可以很好的解决IP限制的问题。
免费代理IP地址:www.xicidaili.com
import urllib.request
def use_proxy(url,proxy_addr):
proxy = urllib.request.ProxyHandler({"http":proxy_addr})
opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
data = urllib.request.urlopen(url).read().decode("utf-8",'ignore')
return data
proxy_addr = ""
112.85.169.100:9999""
url = "http://baidu.com"
data = use_proxy(url,proxy_addr)
print(data)

转载于:https://www.cnblogs.com/zxzx1/p/10902995.html

你可能感兴趣的文章
硬盘格式化后想要数据恢复的详细步骤攻略
查看>>
hibernate操作数据库总结
查看>>
php:修改NetBeans默认字体
查看>>
Intel的X86芯片段式管理历史起源(CS、DS、ES、SS)——避免产品公司的小九九
查看>>
leecode 937 Reorder Log Files (模拟)
查看>>
JavaScript(三、DOM文档对象模型)
查看>>
AngularJS XMLHttpRequest
查看>>
兼容性积累
查看>>
Redux 源码解读--createStore,js
查看>>
循环语句习题 20140819
查看>>
31.SUM() 函数
查看>>
Winform中Checkbox与其他集合列表类型之间进行关联
查看>>
SQL语句整理(一) 数据库查询语言DQL
查看>>
RDD的转换操作
查看>>
js方法实现通过出生日期获取周岁年龄
查看>>
获取Oracle数据库中字段信息
查看>>
计算机基础之进制转换详解
查看>>
ASP.NET 3.5 SP1高级编程(第6版)中文高清PDF完整版下载
查看>>
Django中不返回QuerySets的API -- Django从入门到精通系列教程
查看>>
洗衣窍门
查看>>