首頁 > Python教程 > Python應用 > Python爬蟲案例:如何爬取豆瓣電影信息?附代碼實例

Python爬蟲案例:如何爬取豆瓣電影信息?附代碼實例

時間:2019-09-15    來源:爆炒小青蛙

本文實例講述了Python實現的爬取豆瓣電影信息功能。分享給大家供大家參考,具體如下:

本案例的任務為,爬取豆瓣電影top250的電影信息(包括序號、電影名稱、導演和主演、評分以及經典臺詞),并將信息作為字典形式保存進txt文件。這里只用到requests庫,沒有用到beautifulsoup庫

step1:首先獲取每一頁的源代碼,用requests.get函數獲取,為了防止請求錯誤,使用try...except..

def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2:做每一頁的網址解析,打開原網址https://movie.douban.com/top250?,查看網頁源代碼,可以看到每一個電影的源代碼都是從<li>開始,在</li>處結束,寫好正則表達式以后爬到的列表的每一條item都有五個元素,因此將其寫成字典的形式,這里用到yield函數(關于yield函數的用法,廖老師的有一篇文章比較好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)

對單個網頁的進行解析的代碼如下:

def parsepage(html):
  pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">'
          +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S)
  items=re.findall(pat,html)
  for item in items:
    yield{
      'index':item[0],
      'title':item[1],
      'stars':item[2].strip(),
      'score':item[3],
      'concept':item[4]
    }

下面的代碼是將每一個item寫入文件,這里encoding='utf-8' 和ensure_ascii=False都是使寫入文件時中文能保持不變,json.dumps可以將(字典)對象轉化成字符串(但前面要先import json),with open的第二個參數為a,表示每次寫入時,是往后追加(續接),而不是后一次寫入將之前內容覆蓋,\n是指要每一次寫入一個item之后要換行。

def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()

最后,需要用循環語句將每一頁(共10頁)內容都進行以上操作。這里,第二頁的網址就是在第一頁的url上加上一個start=25, 第三頁是加上start=50,也就是每一頁的start=為25*i。最后一段代碼如下:

def main():
  url="https://movie.douban.com/top250?"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()

當然,這一段代碼還有一種寫法:

def main(start):
  url="https://movie.douban.com/top250?start="+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)

如果想讓你的程序跑的更快,可以用多線程爬蟲(當然這里其實沒有必要):

#在最開始加載Pool包
from multiprocessing import Pool
#最后的執行段改為:
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在循環外寫
  pool.map(main,[i*10 for i in range (10)])

希望本文所述對大家Python程序設計有所幫助。

相關推薦
實戰干貨!用案例讓你一文搞懂python網絡爬蟲
Python教程:代理IP爬蟲的使用方法
Python爬蟲教程:使用beautifulSoup4爬取名言網案例代碼分享
用Python爬取B站5000 條視頻,揭秘為何千萬人為它流淚!
Python教程:如何用xlrd和xlwt庫讀和寫Excel表格?
Python安裝MySQL-python:EnvironmentError的解決辦法
分享:Python2和Python3有那些差異?
Python 的內置對象都藏了哪些小秘密?
Python教程:圖像處理模塊ndimage用法實例分析
Python教程:如何使用scipy模塊實現一維卷積運算示例?
Python:關于內存分配時的那些小秘密分享
python技巧:global關鍵字的用法詳解
Python教程:深入了解python在HDA中的應用
python技巧:SSLerror的requests證書問題解決方法
PyCharm教程:搭建Spark開發環境的幾個步驟
Python開發技巧:openpyxl讀取單元格字體顏色過程解析
Python教程:面向對象之Web靜態服務器
Python教程:如何為終端提供持久性歷史記錄
Python技巧分享:自動登錄淘寶并保存登錄信息的方法
Python數據分析:利用Flask動態展示 Pyecharts 圖表數據方法
python3教程:如何搭建微型的web服務器?
python技巧:xlwt如何設置單元格的自定義背景顏色
如何解決Python字符串和正則表達式中的反斜杠('\')問題?
Python開發技巧:編寫一個簡單登錄功能過程解析
Python編程:postman傳遞當前時間戳實例詳解
python開發:動態遷移solr數據過程分享
python數據分析:用線性回歸預測股票價格的代碼分析
Python教程:數據分析模塊pandas用法詳解
Python3教程:pandas.merge用法詳解

精彩推薦

熱門教程

北京pk10走势图下载 冠通棋牌官方网站 2013长线股票推荐 3福彩计划表 吉林十一选五走势图任选走势图 易发棋牌官方下载 最赚钱的游戏 187 体彩浙江飞鱼开奖 新浪棋牌游戏大厅 pk10牛牛在线计划 今天安徽十一选五开奖号码看一下 摩拜单车怎么找车赚钱 福彩3d组三走势图