抖音热搜榜 链接:https://tophub.today/n/K7GdaMgdQy 整个热榜共50条数据,本次爬取的内容:排名、热度、标题、链接。 requests 爬取 requests是一种非常简单的方法,由于该页面没有反爬措施,
抖音热搜榜链接:https://tophub.today/n/K7GdaMgdQy 整个热榜共50条数据,本次爬取的内容:排名、热度、标题、链接。 requests 爬取requests 是一种非常简单的方法,由于该页面没有反爬措施,所以直接get 请求页面即可。
可以看到,只需要几行代码,数据就很轻松地获取到了。 selenium 爬取将selenium设置为无头浏览器,打开指定url获取页面数据。
两种爬取方法都能够成功获取到数据,但requests相对简洁,整个代码运行速度也更快,如果页面数据不是动态加载的话,用requests相对方便。 数据解析现在用lxml库解析我们爬取的数据,并保存到excel中。
运行结果 设置定时运行至此,爬取代码已经完成,想要实现每小时自动运行代码,可以使用任务计划程序。 打开任务计划程序,【创建任务】 输入名称,名称随便起就好。 选择【触发器】>>【新建】>>【设置触发时间】 选择【操作】>>【新建】>>【选择程序】 最后确认即可。到时间就会自动运行,或者右键任务手动运行。 |
2019-06-18
2019-07-04
2021-05-23
2021-05-27
2021-05-27