Python爬虫-爬取斗鱼网页selenium+bs-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Python爬虫-爬取斗鱼网页selenium+bs

阅读量：7191 次

发布时间：2019-06-29

本文共 1355 字，大约阅读时间需要 4 分钟。

爬取斗鱼网页（selenium+chromedriver得到网页，用Beasutiful Soup提取信息）

=============================

=================================

=======================================

#self.driver.page_source 得到页面源码用 xml解析 soup = BeautifulSoup(self.driver.page_source, 'xml')

结果示例：

================================

1 '''' 2 任务： 3 爬去斗鱼直播内容 4 https://www.douyu.com/directory/all 5 思路： 6 1. 利用selenium得到页面内容 7 2. 利用xpath或者bs等在页面中进行信息提取 8 ''' 9 10 from selenium import webdriver11 from bs4 import BeautifulSoup12 13 14 class Douyu():15     #初始化方法16     def setUp(self):17         self.driver = webdriver.Chrome()18         self.url = 'https://www.douyu.com/directory/all'19 20 21     def douyu(self):22         self.driver.get(self.url)23 24         while True:25             soup = BeautifulSoup(self.driver.page_source, 'xml')26 27             # 返回当前页面所有放假标题列表和观众人数28             titles = soup.find_all('h3', {
   'class':'ellipsis'})29             nums = soup.find_all('span', {
   'class':'dy-num fr'})30 31             for title, num in zip(titles, nums):32                 print("房间{0} 总共观赏人数{1}".format(title.get_text().strip(), num.get_text().strip()))33 34     def destr(self):35         self.driver.quit()36 37 if __name__ == '__main__':38     douyu = Douyu()39     douyu.setUp()40     douyu.douyu()41     douyu.destr()

转载于:https://www.cnblogs.com/xuxaut-558/p/10088617.html

你可能感兴趣的文章

《王者荣耀》手游产品分析报告：崛起的王者荣耀，胜负就是这么简单！

Jenkins修改端口号（成功率高）

前端开发框架简介:angular和react

进程创建/退出父子关系的调整

Axure多人协作

mysql中TIMESTAMP设置默认时间为当前时间

Android学习笔记进阶16之BitmapShader

ORA-22828 输入样式或替换參数超过了32k限制大小

网络地址转换-NAT

spring MVC配置详解

我的Mac必备软件

angular 事件广播和事件监听

(hdu step 8.1.6)士兵队列训练问题(数据结构，简单模拟——第一次每2个去掉1个,第二次每3个去掉1个.知道队伍中的人数<=3，输出剩下的人 )...

[转]lua元表代码分析

使用find命令查找Linux中的隐藏文件的方法

KNN K~近邻算法笔记

CSS3中的动画效果-------Day72

Codeforces 97B Superset 平面分治

Android studio在ubuntu下安装【转】

adb的那点小事——360电视助手实现研究

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-11 18:03:57 当前IP: 18.118.163.233 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我