濮阳杆衣贸易有限公司

主頁(yè) > 知識(shí)庫(kù) > 用Python自動(dòng)下載網(wǎng)站所有文件

用Python自動(dòng)下載網(wǎng)站所有文件

熱門標(biāo)簽:地圖標(biāo)注推廣單頁(yè) 百應(yīng)ai電銷機(jī)器人鄭州 n400電話申請(qǐng)多少錢 長(zhǎng)春人工智能電銷機(jī)器人官網(wǎng) 如何在地圖標(biāo)注文字 女王谷地圖標(biāo)注 廈門crm外呼系統(tǒng)如何 ai地圖標(biāo)注 西藏快速地圖標(biāo)注地點(diǎn)

最近維基 jie mi 徹底公開了網(wǎng)站的全部文件,我就在想如何使用 Python 將其下載到本地永久保存,于是就有了這篇文章,寫爬蟲會(huì)遇到很多坑,借鑒他人經(jīng)驗(yàn),考慮越全面,出錯(cuò)的概率就越小。

假如一個(gè)網(wǎng)站,里面有很多鏈接,有指向文件的,有指向新鏈接的,新的鏈接點(diǎn)擊進(jìn)去后,仍然是有指向文件的,有指向新鏈接的,類似一個(gè)文件夾,里面即有文件,又有目錄,目錄中又有文件和目錄。如何從這樣的網(wǎng)站上下載所有的文件,并按網(wǎng)站的目錄結(jié)構(gòu)來(lái)保存這些文件呢?

關(guān)鍵詞:Python、下載、正則表達(dá)式、遞歸。

按照自頂向下來(lái)設(shè)計(jì)程序,我們整理自己的思路,然后使用 Python 語(yǔ)言來(lái)翻譯下即可。

思路:由于目錄的深度不固定,也不可能窮舉,且每一個(gè)目錄的處理方式和子目錄父目錄的處理流程都是一樣的,因此我們可以使用遞歸來(lái)下載所有文件。

遞歸代碼必須要有退出條件,退出條件要放在前面,本例中的遞歸退出條件就是:如果是文件就下載,下載完遞歸函數(shù)即完成任務(wù)。

總體思路:

1、給定一個(gè) url,判斷是否是文件,如果是文件,下載即可,然后函數(shù)結(jié)束。

2、如果給定 url 不是文件,那么訪問(wèn)該 url,并獲取它下面的所有鏈接。

3、遍歷步驟 2 產(chǎn)生的所有鏈接,遞歸的執(zhí)行步驟 1 和 2,直到程序運(yùn)行結(jié)束。

以上思路,用代碼描述如下:

import urllib.request
import requests
import re, os


def get_file(url):
 '''
 遞歸下載網(wǎng)站的文件
 :param url:
 :return:
 '''
 if isFile(url):
  print(url)
  try:
   download(url)
  except:
   pass
 else:
  urls = get_url(url)
  for u in urls:
   get_file(u)

前面導(dǎo)入的包在接下來(lái)函數(shù)中會(huì)用到,下面就是逐漸層向下,實(shí)現(xiàn)子功能。

判斷鏈接是否指向文件:

這里總結(jié) url 規(guī)律,很容易寫出。

def isFile(url):
 '''
 判斷一個(gè)鏈接是否是文件
 :param url:
 :return:
 '''
 if url.endswith('/'):
  return False
 else:
  return True

下載文件:

下載文件時(shí)要從 url 中獲取文件應(yīng)該存儲(chǔ)的位置,并使用 os.makedirs 來(lái)創(chuàng)建多級(jí)目錄。然后使用 urllib.request.urlretrieve 來(lái)下載文件。

def download(url):
 '''
 :param url:文件鏈接
 :return: 下載文件,自動(dòng)創(chuàng)建目錄
 '''
 full_name = url.split('//')[-1]
 filename = full_name.split('/')[-1]
 dirname = "/".join(full_name.split('/')[:-1])
 if os.path.exists(dirname):
  pass
 else:
  os.makedirs(dirname, exist_ok=True)
 urllib.request.urlretrieve(url, full_name)

獲取 url 下的所有鏈接:

這里要具體網(wǎng)站具體分析,看看如何使用正則表達(dá)式獲取網(wǎng)頁(yè)中的鏈接,這樣的正則表達(dá)式可以說(shuō)是再簡(jiǎn)單不過(guò)了。

def get_url(base_url):
 '''
 :param base_url:給定一個(gè)網(wǎng)址
 :return: 獲取給定網(wǎng)址中的所有鏈接
 '''
 text = ''
 try:
  text = requests.get(base_url).text
 except Exception as e:
  print("error - > ",base_url,e)
  pass
 reg = 'a href="(.*)" rel="external nofollow" >.*/a>'
 urls = [base_url + url for url in re.findall(reg, text) if url != '../']
 return urls

這里有個(gè)小坑,就是網(wǎng)站有個(gè)鏈接是返回上級(jí)頁(yè)面的,url 的后輟是 '../' 這樣的鏈接要去掉,否則遞歸函數(shù)就限入了死循環(huán)。

接下來(lái)就是寫主函數(shù),執(zhí)行任務(wù)了,慢慢等它下載完吧。

if __name__ == '__main__':
 get_file('https://file.wikileaks.org/file/')

其實(shí),還會(huì)存兩個(gè)問(wèn)題:

1、假如網(wǎng)站某頁(yè)有個(gè)鏈接它指向了首頁(yè),那么遞歸程序仍然會(huì)限入一個(gè)死循環(huán),解決方法就是將訪問(wèn)過(guò)的 url 保存在一個(gè)列表里(或者其他數(shù)據(jù)結(jié)構(gòu)),如果接下來(lái)要訪問(wèn)的 url 不在此列表中,那么就訪問(wèn),否則就忽略。

2、如果下載的過(guò)程中程序突然報(bào)錯(cuò)退出了,由于下載文件較慢,為了節(jié)約時(shí)間,那么如何讓程序從報(bào)錯(cuò)處繼續(xù)運(yùn)行呢?這里可采用分層遞歸,一開始時(shí)先獲取網(wǎng)站的所有一級(jí) url 鏈接,順序遍歷這些一級(jí) url 鏈接,執(zhí)行上述的 get_file(url) ,每訪問(wèn)一次一級(jí) url 就將其索引位置加1(索引位置默認(rèn)為0,存儲(chǔ)在文件中或數(shù)據(jù)庫(kù)中),程序中斷后再運(yùn)行時(shí)先讀取索引,然后從索引處開始執(zhí)行即可。另外,每下載成功一個(gè)文件,就把對(duì)應(yīng)的 url 也保存在文件中或數(shù)據(jù)庫(kù)中,如果一級(jí) url 下的鏈接已經(jīng)下載過(guò)文件,那么就不需要重新下載了。

以上就是用Python自動(dòng)下載網(wǎng)站所有文件的詳細(xì)內(nèi)容,更多關(guān)于python 自動(dòng)下載網(wǎng)站文件的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • 詳解Python自動(dòng)化之文件自動(dòng)化處理
  • Python自動(dòng)化之批量處理工作簿和工作表
  • Python自動(dòng)掃描出微信不是好友名單的方法
  • python自動(dòng)化之如何利用allure生成測(cè)試報(bào)告
  • 用python自動(dòng)生成日歷
  • 用Python寫腳本自動(dòng)評(píng)論再也不怕碰到噴子

標(biāo)簽:拉薩 興安盟 綿陽(yáng) 亳州 內(nèi)江 廊坊 渭南 黔東

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《用Python自動(dòng)下載網(wǎng)站所有文件》,本文關(guān)鍵詞  用,Python,自動(dòng),下載網(wǎng)站,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《用Python自動(dòng)下載網(wǎng)站所有文件》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于用Python自動(dòng)下載網(wǎng)站所有文件的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    新竹县| 陵川县| 长沙市| 勃利县| 南川市| 锡林郭勒盟| 新蔡县| 清涧县| 大厂| 松潘县| 平凉市| 四平市| 天等县| 定陶县| 慈利县| 石楼县| 全南县| 康保县| 九龙坡区| 光泽县| 红河县| 托克逊县| 崇仁县| 纳雍县| 河间市| 定南县| 卓尼县| 尤溪县| 博白县| 西盟| 闻喜县| 大埔县| 金川县| 平利县| 武胜县| 怀集县| 根河市| 嘉禾县| 东辽县| 全椒县| 隆安县|