濮阳杆衣贸易有限公司

主頁 > 知識(shí)庫 > asp.net采集頁面上所有圖像圖片資源的具體方法

asp.net采集頁面上所有圖像圖片資源的具體方法

熱門標(biāo)簽:天心智能電銷機(jī)器人 地圖標(biāo)注的公司有哪些 代理接電話機(jī)器人如何取消 濮陽外呼電銷系統(tǒng)怎么樣 塔城代理外呼系統(tǒng) 遂寧市地圖標(biāo)注app 地圖標(biāo)注專業(yè)團(tuán)隊(duì) 地圖定位圖標(biāo)標(biāo)注 400電話辦理哪家性價(jià)比高

有時(shí)我們需要采集一些信息到自己的數(shù)據(jù)庫,本地磁盤,我們經(jīng)常使用的是WebClient,WebRequest等等,今天主要說一下,對(duì)于一個(gè)URI地址,采集這個(gè)頁面上所有的圖像資源,下面是源代碼,供大家參考,學(xué)習(xí)。

/// summary>
  /// 下載指定URL下的所有圖片
  /// /summary>
  public class WebPageImage
  {
    /// summary>
    /// 獲取網(wǎng)頁中全部圖片
    /// /summary>
    /// param name="url">網(wǎng)頁地址/param>
    /// param name="charSet">網(wǎng)頁編碼,為空自動(dòng)判斷/param>
    /// returns>全部圖片顯示代碼/returns>
    public string getImages(string url, string charSet)
    {
      string s = getHtml(url, charSet);
      return getPictures(s, url);
    }

    /// summary>
    /// 獲取網(wǎng)頁中全部圖片
    /// /summary>
    /// param name="url">網(wǎng)址/param>
    /// returns>全部圖片代碼/returns>
    public string getImages(string url)
    {
      return getImages(url, "");
    }

    string doman(string url)
    {
      Uri u = new Uri(url);
      return u.Host;
    }

    /// summary>
    /// 獲取網(wǎng)頁內(nèi)容
    /// /summary>
    /// param name="url">網(wǎng)站地址/param>
    /// param name="charSet">目標(biāo)網(wǎng)頁的編碼,如果傳入的是null或者"",那就自動(dòng)分析網(wǎng)頁的編碼 /param>
    /// returns>/returns>
    string getHtml(string url, string charSet)
    {
      WebClient myWebClient = new WebClient();
      //創(chuàng)建WebClient實(shí)例myWebClient 
      // 需要注意的: 
      //有的網(wǎng)頁可能下不下來,有種種原因比如需要cookie,編碼問題等等 
      //這是就要具體問題具體分析比如在頭部加入cookie 
      // webclient.Headers.Add("Cookie", cookie); 
      //這樣可能需要一些重載方法。根據(jù)需要寫就可以了 

      //獲取或設(shè)置用于對(duì)向 Internet 資源的請(qǐng)求進(jìn)行身份驗(yàn)證的網(wǎng)絡(luò)憑據(jù)。 
      myWebClient.Credentials = CredentialCache.DefaultCredentials;
      //如果服務(wù)器要驗(yàn)證用戶名,密碼 
      //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 
      //myWebClient.Credentials = mycred; 
      //從資源下載數(shù)據(jù)并返回字節(jié)數(shù)組。(加@是因?yàn)榫W(wǎng)址中間有"/"符號(hào)) 
      byte[] myDataBuffer = myWebClient.DownloadData(url);
      string strWebData = Encoding.Default.GetString(myDataBuffer);

      //獲取網(wǎng)頁字符編碼描述信息 
      Match charSetMatch = Regex.Match(strWebData, "meta([^]*)charset=([^]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
      string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
      if (charSet == null || charSet == "")
        charSet = webCharSet;

      if (charSet != null  charSet != ""  Encoding.GetEncoding(charSet) != Encoding.Default)
        strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
      return strWebData;
    }

    string getPictures(string data, string url)
    {
      MatchCollection ps = Regex.Matches(data, @"img\b[^>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?imgUrl>[^\s\t\r\n""'>]*)[^>]*?/?[\s\t\r\n]*>");
      string s = string.Empty;
      for (int i = 0; i  ps.Count; i++)
      {
        pictures p = new pictures(ps[i].Value, url);
        s += p.GetHtml + "br />" + Environment.NewLine;
      }
      return s;
    }

    /// summary>
    /// 圖片實(shí)體
    /// 圖片文件屬性處理類
    /// /summary>
    public class pictures
    {
      public pictures(string strHtml, string baseUrl)
      {
        _html = strHtml;
        Uri u1 = new Uri(baseUrl);
        _doman = u1.Host;
        _baseUrl = u1.Scheme + "://" + _doman;
        setSrc();
      }

      private string _html = string.Empty;
      private string _baseUrl = string.Empty;
      private string _doman = string.Empty;

      public string GetHtml
      {
        get { return _html; }
      }

      public string Alt
      {
        get
        {
          return GetAttribute("alt")[0];
        }
      }

      public string Src
      {
        get
        {
          string s = GetAttribute("src")[0];
          return s;
        }
      }

      /// summary>
      /// 根據(jù)基路徑把相對(duì)路徑轉(zhuǎn)換成絕對(duì)徑
      /// /summary>
      /// param name="baseUrl">基礎(chǔ)路徑/param>
      /// param name="u">待轉(zhuǎn)換的相對(duì)路徑/param>
      /// returns>絕對(duì)路徑/returns>
      public string absUrl(string baseUrl, string u)
      {
        Uri ub = new Uri(baseUrl);
        Uri ua = new Uri(ub, u);
        return ua.AbsoluteUri;
      }

      private void setSrc()
      {
        string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?";
        string src = GetAttribute("src")[0].ToLower();
        if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0)  _baseUrl.Length > 10)
        {
          src = absUrl(_baseUrl, src);
          string s = "src=\"" + src + "\"";
          _html = Regex.Replace(_html, strPattern, s);
        }
      }

      /// summary>
      /// 獲取HTML代碼中標(biāo)簽屬性
      /// /summary>
      /// param name="strHtml">HTML代碼/param>
      /// param name="strAttributeName">屬性名稱/param>
      /// returns>屬性值集合/returns>
      private string[] GetAttribute(string strAttributeName)
      {
        Liststring> lstAttribute = new Liststring>();
        string strPattern = string.Format(
          @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?",
          strAttributeName
          );
        MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
        foreach (Match m in matchs)
        {
          lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", ""));
        }
        if (lstAttribute.Count == 0) lstAttribute.Add("");
        return lstAttribute.ToArray();
      }
    }
  }

調(diào)用:

new WebPageImage().getImages(http://www.sina.com)

結(jié)果:

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助。

您可能感興趣的文章:
  • 利用MSXML2.XmlHttp和Adodb.Stream采集圖片
  • asp.net(c#)做一個(gè)網(wǎng)頁數(shù)據(jù)采集工具
  • asp.net c#采集需要登錄頁面的實(shí)現(xiàn)原理及代碼
  • asp.net采集網(wǎng)頁圖片的具體方法
  • PHP遠(yuǎn)程采集圖片詳細(xì)教程

標(biāo)簽:吉林 婁底 河南 重慶 麗江 本溪 宜春 汕頭

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《asp.net采集頁面上所有圖像圖片資源的具體方法》,本文關(guān)鍵詞  asp.net,采集,頁,面上,所有,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《asp.net采集頁面上所有圖像圖片資源的具體方法》相關(guān)的同類信息!
  • 本頁收集關(guān)于asp.net采集頁面上所有圖像圖片資源的具體方法的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    双城市| 双桥区| 开封县| 安康市| 贵港市| 梅州市| 宜兴市| 惠州市| 通道| 合水县| 体育| 龙门县| 山丹县| 内丘县| 晋江市| 岳西县| 临颍县| 修水县| 乐平市| 五台县| 鸡泽县| 英山县| 民权县| 漳平市| 桓仁| 织金县| 汝城县| 台湾省| 扎赉特旗| 青神县| 清徐县| 夹江县| 红桥区| 民县| 田东县| 东光县| 始兴县| 平昌县| 吉安市| 松滋市| 东明县|