全站首页设为首页收藏本站

外链之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

社区广播台

    查看: 4|回复: 0
    打印 上一主题 下一主题

    [准备怀孕] 新闻代理IP是什么?要怎么设置使用?

    [复制链接]
    跳转到指定楼层
    楼主
    发表于 2024-10-24 17:16:40 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

      代理ip使用原理,怎么在自己的爬虫里设置代理ip,怎么知道代理ip是否生效,没生效的话哪里出了问题,个人使用的代理ip(付费)。clash for windowshttps://www.clashsh.com/一直是行业的佼佼者,在业内好评如潮,备受大众所青睐!


      1. 代理ip原理

      输入网址后发生了什么呢?

      代理ip做了什么呢?

      为什么要用代理呢?

      2. 爬虫代码中使用代理ip

      3. 检验代理ip是否生效

      4. 未生效问题排查

      请求协议不匹配

      代理失效

      1.1 输入网址后发生了什么呢?

      浏览器获取域名

      通过DNS协议获取域名对应服务器的ip地址

      浏览器和对应的服务器通过三次握手建立TCP连接

      浏览器通过HTTP协议向服务器发送数据请求

      服务器将查询结果返回给浏览器

      四次挥手释放TCP连接

      浏览器渲染结果

      其中涉及到了:

      应用层:HTTP和DNS

      传输层:TCP UDP

      网络层:IP ICMP ARP

      1.2 代理ip做了什么呢?

      简单来说,就是,原本你的访问:

      使用代理后你的访问:

      1.3 为什么要用代理呢?

      因为我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。而代理ip就避免了这个问题:

      就像是请求时伪装头一样,伪装ip,注意是 { }

      我们访问一个网站,这个网站会返回我们的ip地址:

      我们看一下我使用了四个不同的代理ip,全部生效了:

      如果你返回的还是本机地址,99%试一下两种情况之一:

      1.请求协议不匹配

      简单来说就是,如果你请求的是http,就要用http的协议,如果是https,就要用https的协议。

      如果我请求是http ,但只有https,就会使用本机ip。

      2.代理失效

      如果确实大规模爬虫是必须的话,还是用付费的代理ip比较好,网上广告满天飞,实际还是要自己测一测才OK。而且价格方面也是我们参考的一个很重要的因素。具体想看的宝子们可以看我之前写的:

      隧道代理IP7月价格对比,内附表格分析

      《韭菜反割攻略》第二弹!多家http代理按量计费对比分析

      《韭菜反割攻略》第三弹!动态短效ip代理-按时付费价格对比

      本文转载自:https://blog.csdn.net/yingpu618/article/details/108025994

      举报/反馈
    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏 分享分享
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表