博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫-爬取斗鱼网页selenium+bs
阅读量:7191 次
发布时间:2019-06-29

本文共 1355 字,大约阅读时间需要 4 分钟。

爬取斗鱼网页(selenium+chromedriver得到网页,用Beasutiful Soup提取信息)

=============================

=================================

=======================================

#self.driver.page_source 得到页面源码用 xml解析 soup = BeautifulSoup(self.driver.page_source, 'xml')

结果示例:

================================

1 '''' 2 任务: 3 爬去斗鱼直播内容 4 https://www.douyu.com/directory/all 5 思路: 6 1. 利用selenium得到页面内容 7 2. 利用xpath或者bs等在页面中进行信息提取 8 ''' 9 10 from selenium import webdriver11 from bs4 import BeautifulSoup12 13 14 class Douyu():15     #初始化方法16     def setUp(self):17         self.driver = webdriver.Chrome()18         self.url = 'https://www.douyu.com/directory/all'19 20 21     def douyu(self):22         self.driver.get(self.url)23 24         while True:25             soup = BeautifulSoup(self.driver.page_source, 'xml')26 27             # 返回当前页面所有放假标题列表和观众人数28             titles = soup.find_all('h3', {
'class':'ellipsis'})29 nums = soup.find_all('span', {
'class':'dy-num fr'})30 31 for title, num in zip(titles, nums):32 print("房间{0} 总共观赏人数{1}".format(title.get_text().strip(), num.get_text().strip()))33 34 def destr(self):35 self.driver.quit()36 37 if __name__ == '__main__':38 douyu = Douyu()39 douyu.setUp()40 douyu.douyu()41 douyu.destr()

 

转载于:https://www.cnblogs.com/xuxaut-558/p/10088617.html

你可能感兴趣的文章
《王者荣耀》手游产品分析报告:崛起的王者荣耀,胜负就是这么简单!
查看>>
Jenkins修改端口号(成功率高)
查看>>
前端开发框架简介:angular和react
查看>>
进程创建/退出父子关系的调整
查看>>
Axure多人协作
查看>>
mysql中TIMESTAMP设置默认时间为当前时间
查看>>
Android学习笔记进阶16之BitmapShader
查看>>
ORA-22828 输入样式或替换參数超过了32k限制大小
查看>>
网络地址转换-NAT
查看>>
spring MVC配置详解
查看>>
我的Mac必备软件
查看>>
angular 事件广播和事件监听
查看>>
(hdu step 8.1.6)士兵队列训练问题(数据结构,简单模拟——第一次每2个去掉1个,第二次每3个去掉1个.知道队伍中的人数<=3,输出剩下的人 )...
查看>>
[转]lua元表代码分析
查看>>
使用find命令查找Linux中的隐藏文件的方法
查看>>
KNN K~近邻算法笔记
查看>>
CSS3中的动画效果-------Day72
查看>>
Codeforces 97B Superset 平面分治
查看>>
Android studio在ubuntu下安装【转】
查看>>
adb的那点小事——360电视助手实现研究
查看>>