爬虫对网盘文件下载

小古伢

已于 2022-07-19 13:22:49 修改

阅读量922

收藏 5

点赞数 1

文章标签： python 网络爬虫

于 2022-07-19 11:41:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_44626556/article/details/125865671

版权

目录

需求分析

1、网盘目录结构

2、大致分析一下包含的文件类型

3、分析文件如何下载

代码实现

1、伪代码编写

1.1、文件目录递归伪代码

1.2、文件下载伪代码

2、请求参数

2.1、目录获取的请求参数

2.2、文件下载的请求参数

3、代码实现

问题分析

前因

先说一下前因，女朋友刚接了一个尽调项目，客户发给了她一堆尽调材料，结果我一看，好家伙，东西还不少，而且更可气的是，这网盘禁止下载，网页右键都被禁用了，所以另存的路子也行不通。

女朋友问我，有没有办法下载下来？

我当然说有，毕竟...男人不能说自己不行！

下面分析一下需求开干！

需求分析

1、网盘目录结构

首先尽调材料包含两个目录

图片1

每级目录向下还有多级目录

图片2

这个时候，如果我们想拿到所有的目录和目录文件，需要用到的最好的方式就是递归了。记下来，重点！！！

2、大致分析一下包含的文件类型

先随便打开几个目录，会看到存在最多的是.docx .xlsx .pdf和图片格式的文件，这基本上为我们写爬虫提供了有限的困难，因为类型越多，可能面临的爬取的困难就越大。

图片3

3、分析文件如何下载

我们首先随便打开一个文件，例如打开图片3第一个pdf，通过浏览器抓包工具分析该文件的实际地址。通过分析，可以看到可能有用的包为以下几个，我们逐个分析

图片4

点开第一个listdir请求，查看返回值，会发现是一个json数据，返回的其实是图片3的目录结构，那第一个请求就PASS

图片5

接着再分析第二个请求，看到previewoss，基本就有种预感，这个和文件内容有关系。

图片6

该请求同样返回的是一个json，键值包括size和url。那现在大胆猜测一下，这个就是文件真实的调用地址。或者我们可以计算一下size对应的文件大小是 4717682Bytes = 4.49Mb ，和图片3第一个pdf大小一致，进一步确定这里的url是对我们有用的，然后我们复制这个url粘贴到浏览器搜索框，发现下载下来了一个没有后缀名的文件。当我把这个文件添加上.pdf后缀后，可以正常打开，并显示和网页一致。

最低0.47元/天解锁文章

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
爬虫对网盘文件下载

爬虫实现下载网盘文件
复制链接

扫一扫

小古伢 CSDN认证博客专家 CSDN认证企业博客

2: 原创

170万+: 周排名

53万+: 总排名

1843: 访问

: 等级

22: 积分

1: 粉丝

2: 获赞

2: 评论

8: 收藏

写文章

热门文章

docxtpl+Oracle实践生成日报 922
爬虫对网盘文件下载 922

最新评论

爬虫对网盘文件下载
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

最新文章

docxtpl+Oracle实践生成日报

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳SEO优化公司沙井网站定制大运建设网站平湖SEO按天计费福田百度竞价包年推广松岗如何制作网站木棉湾百姓网标王木棉湾百姓网标王大芬网站定制盐田seo 南澳百搜词包宝安网站推广方案荷坳阿里店铺托管大运网站优化软件坂田网站优化民治营销网站大芬网站推广方案惠州阿里店铺运营东莞优秀网站设计坂田品牌网站设计爱联SEO按天收费大芬标王双龙标王民治建站沙井seo优化坪地百搜标王大浪网络广告推广同乐百度标王坂田百度seo 丹竹头营销网站南联网站建设歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化