把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来
URL
1 #6、豆瓣爬虫 2 # 把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来 3 # URL https://movie.douban.com/top250?start= 4 5 import requests 6 from bs4 import BeautifulSoup 7 8 for i in range(0,250,25): 9 res = requests.get('https://movie.douban.com/top250?start={}'.format(i))10 html = res.text11 soup = BeautifulSoup(html,'html.parser')12 items = soup.find_all('div',class_='item')13 14 for item in items:15 print(item.find('em').text,end='\t')16 print(item.find('span').text,end='\t')17 print(item.find('span',class_='rating_num').text,end='\t')18 try:19 print(item.find('span',class_='inq').text,end='\t')20 except AttributeError:21 print('',end='\t')22 print(item.find('a')['href'])23 24 '''25 老师的代码26 27 import requests28 # 引用requests模块29 from bs4 import BeautifulSoup30 for x in range(10):31 url = 'https://movie.douban.com/top250?start=' + str(x*25) + '&filter='32 res = requests.get(url)33 bs = BeautifulSoup(res.text, 'html.parser')34 tag_num = bs.find_all('div', class_="item")35 # 查找包含序号,电影名,链接的标签36 tag_comment = bs.find_all('div', class_='star')37 # 查找包含评分的标签38 tag_word = bs.find_all('span', class_='inq')39 # 查找推荐语40 41 42 list_all = []43 for x in range(len(tag_num)):44 if tag_num[x].text[2:5] == '223' or tag_num[x].text[2:5] =='244':45 list_movie = [tag_num[x].text[2:5], tag_num[x].find('img')['alt'], tag_comment[x].text[2:5], tag_num[x].find('a')['href'] ]46 else:47 list_movie = [tag_num[x].text[2:5], tag_num[x].find('img')['alt'], tag_comment[x].text[2:5], tag_word[x].text, tag_num[x].find('a')['href']]48 list_all.append(list_movie)49 print(list_all)50 '''
items中每个Tag的内容如下
123 151 4 5 7 89103511 12 荒蛮故事13 / Relatos salvajes14 / 蛮荒故事 / 生命中最抓狂的小事(台)15 16 [可播放]1718193420 导演: 达米安·斯兹弗隆 Damián Szifron 主演: 达里奥·葛兰帝内提 Darío...21 22 2014 / 阿根廷 西班牙 / 剧情 喜剧 犯罪23
2425 26 203246人评价2930 27 2831 始于荒诞,止于更荒诞。32
33