爬虫对网盘文件下载

目录

前因

需求分析

1、网盘目录结构

2、大致分析一下包含的文件类型

3、分析文件如何下载

代码实现

1、伪代码编写

1.1、文件目录递归伪代码

1.2、文件下载伪代码

2、请求参数

2.1、目录获取的请求参数

2.2、文件下载的请求参数

3、代码实现

问题分析


前因

先说一下前因,女朋友刚接了一个尽调项目,客户发给了她一堆尽调材料,结果我一看,好家伙,东西还不少,而且更可气的是,这网盘禁止下载,网页右键都被禁用了,所以另存的路子也行不通。

女朋友问我,有没有办法下载下来?

我当然说有,毕竟...男人不能说自己不行

下面分析一下需求开干!

需求分析

1、网盘目录结构

首先尽调材料包含两个目录

图片1

每级目录向下还有多级目录

图片2

这个时候,如果我们想拿到所有的目录和目录文件,需要用到的最好的方式就是递归了。记下来,重点!!!

2、大致分析一下包含的文件类型

先随便打开几个目录,会看到存在最多的是.docx .xlsx .pdf和图片格式的文件,这基本上为我们写爬虫提供了有限的困难,因为类型越多,可能面临的爬取的困难就越大。

图片3

3、分析文件如何下载

我们首先随便打开一个文件,例如打开图片3第一个pdf,通过浏览器抓包工具分析该文件的实际地址。通过分析,可以看到可能有用的包为以下几个,我们逐个分析

图片4

点开第一个listdir请求,查看返回值,会发现是一个json数据,返回的其实是图片3的目录结构,那第一个请求就PASS

图片5

 接着再分析第二个请求,看到previewoss,基本就有种预感,这个和文件内容有关系。

图片6

该请求同样返回的是一个json,键值包括size和url。那现在大胆猜测一下,这个就是文件真实的调用地址。或者我们可以计算一下size对应的文件大小是 4717682Bytes = 4.49Mb ,和图片3第一个pdf大小一致,进一步确定这里的url是对我们有用的,然后我们复制这个url粘贴到浏览器搜索框,发现下载下来了一个没有后缀名的文件。当我把这个文件添加上.pdf后缀后,可以正常打开,并显示和网页一致。

最低0.47元/天 解锁文章
小古伢
关注 关注
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
爬虫对百度云资源批量拉取
sandichesadan的博客
08-16 2157
本篇文章说明了如何利用爬虫批量拉取百度盘的数据,尝试了两个方法,分别是实时的下载和先拉去再下载。最终实现是基于方法2进行操作。
利用Python爬虫实现百度盘自动化添加资源
热门推荐
人生苦短, 还不用Python?
06-19 1万+
免责申明:文章中的工具等仅供个人测试研究,请在下载后24小时内删除,不得用于商业或非法用途,否则后果自负,文章出现的截图只做样例演示,请勿非法使用 先来看下这个视频站的截图: 不得不说,这是一个正规的站,正规的视频,只是看着标题的我想多了而已。 怀着满满的求知欲,我点开了链接,并在页下方看到了视频资源链接。 里有2种资源,一种是百度盘,另一种是迅雷种子,不得不说这个站还是...
Python爬虫实现爬取下载站数据的几种方法
最新发布
2401_83470102的博客
05-17 2021
使用脚本进行下载的需求很常见,可以是常规文件、web页面、Amazon S3和其他资源。Python 提供了很多模块从 web 下载文件。下面介绍。
【Python爬虫】实现资源自由新手必读
weixin_52580607的博客
04-14 1025
python爬虫:学习如何使用 Python 抓取互联数据
Python批量爬虫下载PDF文件代码实现
阿黎逸阳的博客
08-20 3466
python批量爬虫下载pdf文件
买不到茅台怎么办?Python 爬虫帮你时刻盯着自动下单!| 原力计划
weixin_55154866的博客
02-28 1599
目前也非常难买到正品,许多地方都售完了。并且,淘宝上一些新店茅台库存写着非常少,但不发货,不是骗钱就是采集个人信息,茅台酒的销售额超过了300亿元人民币,销量约为3500,而在京东上,即使有到货通知,但往往还没等到通知就被抢购完了。这时,就轮到我 Python 爬虫出马了!时刻帮我盯着京东是否到货,到货马上邮件通知!接下来,就让我们一起看 Python 爬虫如何帮你时刻盯着到货通知,并最终自动下单。首先,我们先来看几个效果展示:无货展示有货展示修改的地方:主要修改的是以下两个地方,完成后就可以实时监控了。
爬虫系列 Scrap爬虫框架 百度云盘爬虫(盘) .zip
03-01
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
java获取百度盘分享的真实地址并下载
03-09
java获取百度盘真实下载路径,根据请求返回的真实地址,自动下载文件
java获取百度盘真实下载链接的方法
09-03
Java获取百度盘真实下载链接的方法涉及到络编程和解析页数据的技术,主要步骤包括发送HTTP请求、解析HTML页面以及提取所需信息。以下是对这个过程的详细说明: 首先,要获取百度盘的真实下载链接,我们需要...
C#爬虫源码
09-26
爬虫程序源码 这是一款用 C# 编写的爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总...
python爬虫爬取百度云盘资源
12-28
python爬虫爬取百度云盘资源,输入关键字直接在主奥面生成
某通爬虫,selenium案例源代码,ctwp_spider.rar
02-21
# 这是一个某通盘的爬虫 # 可爬取【分享文件夹】中的文件 # 包含 文件文件下载地址 # 有一些自定义部分请看源码说明 # 分享的是源码,里面的文档说明写的很清楚
python爬虫批量下载apk文件
04-21
python爬虫批量下载apk文件,python爬虫批量下载apk文件,python爬虫批量下载apk文件,python爬虫批量下载apk文件,python爬虫批量下载apk文件
最有用爬虫文件
11-12
最有用爬虫文件
python爬虫百度盘_python爬取百度云盘资源
weixin_39952190的博客
11-20 2892
1.[代码][Python]代码import urllibimport urllib.requestimport webbrowserimport redef yunpan_search(key):keyword = keykeyword = keyword.encode('utf-8')keyword = urllib.request.quote(keyword)url = "http://ww...
python爬虫下载文件
小胖_@的博客
07-27 1334
Python下载文件的方法有两种: Python官方的urllib库; Python第三方模块requests。 下载文件 from urllib.request import urlretrieve urlretrieve(url, path_name) # url文件下载地址,path_name文件存储路径 下载文件 导包 import requests 使用requests的ge...
2023最新使用python爬虫爬取全.pdf址并下载需要的pdf文件资源(可设置搜索keyword)!!!
qq_53862860的博客
12-09 2477
先来看看爬取pdf址的结果,如图:爬取pdf的代码如下: 通过使用verify=False避免被https证书阻止,并使用content-disposition获取原始pdf名称,下载代码如下: 最终效果如图:感谢朋友们阅读,下期再见!!!
我的第一个爬虫——简单爬取百度
m0_55205575的博客
07-31 201
爬取代码 >>> import requests >>> r=requests.get("http://www.baidu.com") >>> r.status_code 200 >>> r.encoding='utf-8' >>> r.text 爬取结果
python 爬虫下载文件
12-27
首先,我们需要使用requests库来发起络请求,获取到我们需要下载文件的链接。然后,我们可以使用requests.get()方法来获取文件内容,再使用open()方法创建一个文件,将文件内容写入到这个文件中,最后关闭文件。...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • docxtpl+Oracle实践生成日报 922
  • 爬虫对网盘文件下载 922

最新评论

  • 爬虫对网盘文件下载

    CSDN-Ada助手: Python入门 技能树或许可以帮到你:https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • docxtpl+Oracle实践生成日报
2022年2篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司沙井网站定制大运建设网站平湖SEO按天计费福田百度竞价包年推广松岗如何制作网站木棉湾百姓网标王木棉湾百姓网标王大芬网站定制盐田seo南澳百搜词包宝安网站推广方案荷坳阿里店铺托管大运网站优化软件坂田网站优化民治营销网站大芬网站推广方案惠州阿里店铺运营东莞优秀网站设计坂田品牌网站设计爱联SEO按天收费大芬标王双龙标王民治建站沙井seo优化坪地百搜标王大浪网络广告推广同乐百度标王坂田百度seo丹竹头营销网站南联网站建设歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化