博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
06、豆瓣爬虫
阅读量:6824 次
发布时间:2019-06-26

本文共 2773 字,大约阅读时间需要 9 分钟。

    把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来
 
    URL  
 
1 #6、豆瓣爬虫 2 #    把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来 3 #    URL  https://movie.douban.com/top250?start= 4  5 import requests 6 from bs4 import BeautifulSoup 7  8 for i in range(0,250,25): 9     res = requests.get('https://movie.douban.com/top250?start={}'.format(i))10     html = res.text11     soup = BeautifulSoup(html,'html.parser')12     items = soup.find_all('div',class_='item')13 14     for item in items:15         print(item.find('em').text,end='\t')16         print(item.find('span').text,end='\t')17         print(item.find('span',class_='rating_num').text,end='\t')18         try:19             print(item.find('span',class_='inq').text,end='\t')20         except AttributeError:21             print('',end='\t')22         print(item.find('a')['href'])23 24 '''25 老师的代码26 27 import requests28 # 引用requests模块29 from bs4 import BeautifulSoup30 for x in range(10):31     url = 'https://movie.douban.com/top250?start=' + str(x*25) + '&filter='32     res = requests.get(url)33     bs = BeautifulSoup(res.text, 'html.parser')34     tag_num = bs.find_all('div', class_="item")35     # 查找包含序号,电影名,链接的
标签36 tag_comment = bs.find_all('div', class_='star')37 # 查找包含评分的
标签38 tag_word = bs.find_all('span', class_='inq')39 # 查找推荐语40 41 42 list_all = []43 for x in range(len(tag_num)):44 if tag_num[x].text[2:5] == '223' or tag_num[x].text[2:5] =='244':45 list_movie = [tag_num[x].text[2:5], tag_num[x].find('img')['alt'], tag_comment[x].text[2:5], tag_num[x].find('a')['href'] ]46 else:47 list_movie = [tag_num[x].text[2:5], tag_num[x].find('img')['alt'], tag_comment[x].text[2:5], tag_word[x].text, tag_num[x].find('a')['href']]48 list_all.append(list_movie)49 print(list_all)50 '''
 
items中每个Tag的内容如下
 
1 
2
3
151 4
5 荒蛮故事 7 8
9
10
18
19

20 导演: 达米安·斯兹弗隆 Damián Szifron   主演: 达里奥·葛兰帝内提 Darío...21 22 2014 / 阿根廷 西班牙 / 剧情 喜剧 犯罪23

24
25
26
8.827
28
203246人评价29
30

31 始于荒诞,止于更荒诞。32

33
34
35

 

 
 

转载于:https://www.cnblogs.com/www1707/p/10692350.html

你可能感兴趣的文章
循环引用,看我就对了
查看>>
软件工程——第一周作业
查看>>
ubuntu14.04安装vmware workstation
查看>>
ArcGIS API for Silverlight部署本地地图服务
查看>>
小知识点
查看>>
python mongodb MapReduce
查看>>
python-数据类型
查看>>
Google MapReduce/GFS/BigTable三大技术的论文中译版
查看>>
Linux atop监控工具部署
查看>>
struts2请求过程源码分析
查看>>
效率比较--集合
查看>>
jmeter IF控制器学习--使用实例
查看>>
memory prefix retro,re out 2
查看>>
WebDriver API 实例详解(四)
查看>>
dom01
查看>>
Android实例-如何使用系统剪切板(XE8+小米2)
查看>>
BAT-显示桌面图标
查看>>
PDO vs. MySQLi 选择哪一个?(PDO vs. MySQLi: Which Should You Use?)-转载
查看>>
信息安全系统设计基础第七周总结
查看>>
创建线程的三种方式
查看>>