0514-86177077
9:00-17:00(工作日)
分布式爬蟲架構并不是一開始就出現(xiàn)的。而是一個逐步演化的過程。
最開始入手寫爬蟲的時候,我們一般在個人計算機上完成爬蟲的入門和開發(fā),而在真實的生產環(huán)境,就不能用個人計算機來運行爬蟲程序了,而是將爬蟲程序部署在服務器上。利用服務器不關機的特性,爬蟲可以不間斷的24小時運行。單機爬蟲的結構如下圖。
然而,由于爬蟲在爬取數(shù)據(jù)時,爬取頻次并不能太快,即使是爬蟲在服務器上不間斷運行,效率可能也無法滿足實際需求。這時候,就需要在多機上部署爬蟲程序,用分布式爬蟲架構,進行數(shù)據(jù)爬取。分布式爬蟲的架構一般如下所示。
采用分布式爬蟲架構后,帶來了如下幾個好處。
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對腳本之家的支持。如果你想了解更多相關內容請查看下面相關鏈接
標簽:揚州 贛州 景德鎮(zhèn) 澳門 廣東 香港 林芝 唐山
上一篇:關于redigo中PubSub的一點小坑分析
下一篇:淺談redis內存數(shù)據(jù)的持久化方式
Copyright ? 1999-2012 誠信 合法 規(guī)范的巨人網(wǎng)絡通訊始建于2005年
蘇ICP備15040257號-8