实现python爬虫爬取视频时实现实时进度条显示_F11

分享到

实现python爬虫爬取视频时实现实时进度条显示

python 来源：互联网作者：秩名发布时间：2022-06-21 18:56:10 人浏览

摘要

在爬取并下载网页上的视频的时候，我们需要实时进度条，这可以帮助我们更直观的看到视频的下载进度。一、全部代码展示 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 from contextlib import closi

在爬取并下载网页上的视频的时候，我们需要实时进度条，这可以帮助我们更直观的看到视频的下载进度。

一、全部代码展示

from contextlib import closing

from requests import get

url = 'https://v26-web.douyinvod.com/57cdd29ee3a718825bf7b1b14d63955b/615d475f/video/tos/cn/tos-cn-ve-15/72c47fb481464cfda3d415b9759aade7/?a=6383&br=2192&bt=2192&cd=0%7C0%7C0&ch=26&cr=0&cs=0&cv=1&dr=0&ds=4&er=&ft=jal9wj--bz7ThWG4S1ct&l=021633499366600fdbddc0200fff0030a92169a000000490f5507&lr=all&mime_type=video_mp4&net=0&pl=0&qs=0&rc=ank7OzU6ZnRkNjMzNGkzM0ApNmY4aGU8MzwzNzo3ZjNpZWdiYXBtcjQwLXNgLS1kLTBzczYtNS0tMmE1Xi82Yy9gLTE6Yw%3D%3D&vl=&vr='

with closing(get(url, stream=True)) as response:

chunk_size = 1024 # 单次请求最大值

# response.headers['content-length']得到的数据类型是str而不是int

content_size = int(response.headers['content-length']) # 文件总大小

data_count = 0 # 当前已传输的大小

with open('文件名.mp4', "wb") as file:

for data in response.iter_content(chunk_size=chunk_size):

file.write(data)

done_block = int((data_count / content_size) * 50)

# 已经下载的文件大小

data_count = data_count + len(data)

# 实时进度条进度

now_jd = (data_count / content_size) * 100

# %% 表示%

print("\r [%s%s] %d%% " % (done_block * '█', ' ' * (50 - 1 - done_block), now_jd), end=" ")

注：上面的url已过期，需要各位自己去找网页上的视频url

二、解释

1.with closing

我们在日常读取文件资源时，经常会用到with open() as f:的句子。

但是使用with语句的时候是需要条件的，任何对象，只要正确实现了上下文管理，就可以使用with语句，实现上下文管理是通过__enter__和__exit__这两个方法实现的。

with用法（没有实现上下文管理）

class Door():

def open(self):

print('Door is opened')

def close(self):

print('Door is closed')

with Door() as d:

d.open()

d.close()

结果报错了：

with用法（实现上下文管理）

用__enter__和__exit__实现了上下文管理

class Door():

def open(self):

print('Door is opened')

def close(self):

print('Door is closed')

with Door() as d:

d.open()

d.close()

结果没报错：

closing用法（完美解决上述问题）

一个对象没有实现上下文，我们就不能把它用于with语句。这个时候，可以用contextlib中的

closing()来把该对象变为上下文对象。

class Door():

def __enter__(self):

print('Begin')

return self

def __exit__(self, exc_type, exc_value, traceback):

if exc_type:

print('Error')

else:

print('End')

def open(self):

print('Door is opened')

def close(self):

print('Door is closed')

with Door() as d:

d.open()

d.close()

例如：用with语句使用requests中的get(url)

也就是本文中的案例，使用with closing（）下载视频(在网页中)

2.文件流stream

想象一下，如果把文件读取比作向池子里抽水，同步会阻塞程序，异步会等待结果，如果池子非常大呢？

因此有了文件流，它就好比你一边抽一边取，不用等池子满了再用，

所以对于一些大型文件（几个G的视频）一般会用到这个参数。（对小型文件也可以使用）

3.response.headers['content-length']

这表示获取文件的总大小，但是它得到的结果的数据类型是str而不是int，因此需要进行数据类型转换。

4.response.iter_content()

该方法一般用于从网上下载文件和网页（需要用到requests.get(url)）

其中chunk_size表示单次请求最大值。

5.\r和%

\r表示回车（回到行首）

%是一种占位符

而对于%%，第一个%起到了转义的作用，使结果输出为百分号%

三、结果展示

四、总结

我之前看了许多的进度条，这些进度条都能动，但是满足不了根据文件内容进行加载（里面的参数要么都定死了，要么就与文件大小无关），不能做到真正的交互功能，这次的进度条就很好的展示了，大家可以去试试！！

您可能感兴趣的文章 :

原文链接 : https://blog.csdn.net/knighthood2001/article/details/120624571

Tag : python(762)爬虫(21)

Python Django教程之实现新闻应用程序

Django是一个用Python编写的高级框架，它允许我们创建服务器端Web应用程序。在本文中，我们将了解如何使用Django创建新闻应用程序。我们将
书写Python代码的一种更优雅方式(推荐!)

一些比较熟悉pandas的读者朋友应该经常会使用query()、eval()、pipe()、assign()等pandas的常用方法，书写可读性很高的「链式」数据分析处理代码
Python灰度变换中伽马变换分析实现

1. 介绍伽马变换主要目的是对比度拉伸，将图像灰度较低的部分进行修正伽马变换针对的是对单个像素点的变换，也就是点对点的映射形
使用OpenCV实现迷宫解密的全过程

一、你能自己走出迷宫吗？如下图所示，可以看到是一张较为复杂的迷宫图，相信也有人尝试过自己一点一点的找出口，但我们肉眼来解谜
Python中的数据精度问题的介绍

一、python运算时精度问题 1.运行时精度问题在Python中（其他语言中也存在这个问题，这是计算机采用二进制导致的），有时候由于二进制和
Python随机值生成的常用方法

一、随机整数 1.包含上下限：[a, b] 1 2 3 4 import random #1、随机整数：包含上下限：[a, b] for i in range(10): print(random.randint(0,5),end= | ) 查看运行结
Python字典高级用法深入分析讲解

一、 collections 中 defaultdict 的使用 1.字典的键映射多个值将下面的列表转成字典 l = [(a,2),(b,3),(a,1),(b,4),(a,3),(a,1),(b,3)] 一个字典就是一个键对
Python浅析多态与鸭子类型使用实例

什么多态：同一事物有多种形态为何要有多态=》多态会带来什么样的特性，多态性多态性指的是可以在不考虑对象具体类型的情况下而直
Python字典高级用法深入分析介绍

一、 collections 中 defaultdict 的使用 1.字典的键映射多个值将下面的列表转成字典 l = [(a,2),(b,3),(a,1),(b,4),(a,3),(a,1),(b,3)] 一个字典就是一个键对
Python淘宝或京东等秒杀抢购脚本实现(秒杀脚本

我们的目标是秒杀淘宝或京东等的订单，这里面有几个关键点，首先需要登录淘宝或京东，其次你需要准备好订单，最后要在指定时间快速