private void btnScrape_Click(object sender, EventArgs e) { string strHttpSource; if (UrlIsValid()) { // 取得一個包含網頁的程式源代碼的字串。請進一步查看 GetHttpStream() // 與 ConvertStreamToString() 這兩個自訂函式。 try { strHttpSource = ConvertStreamToString(GetHttpStream(txtURL.Text)); } catch (Exception exp) { // 將文字設定成 exp.Message 以便顯示於被調用的函數中所設定的自定義錯誤資訊。 MessageBox.Show(exp.Message, this.Text, MessageBoxButtons.OK, MessageBoxIcon.Exclamation); return; } string strRegExPattern; // 將用戶所輸入的網址(URL)賦給一個變數。 strUrlEntered = txtURL.Text.Trim(); // 取得功能變數名稱以便於不同的地方使用之。最好是在 Click 事件處理函數中 // 設定此值,如此一來,顯示於 ListView 控制項當中的專案會固定與正確 // 的網功能變數名稱稱相關聯。如果此值是在其他地方賦值,用戶將能夠更改域 // 名並且接著在 ListView 當中雙擊某個專案,此舉將會導致該項目 // 所提取者是一個無效的 URL。 string[] astrDomain = Regex.Split(strUrlEntered, "/"); // 陣列中的第一個元素[0] 是 "http:" ,第三個元素則是實際的功能變數名稱。 strDomain = astrDomain[0] + "//" + astrDomain[2]; if (optLinks.Checked) { ShowStatusIndicators("正在鏈結到網頁以便擷取出鏈結,請稍待。"); lvwLinks.Items.Clear(); // 此處所使用的規則運算式用來剖析一個 HTML anchor // (例如: Microsoft ), // 說明如下: // // ]+ 任何字元的一或多個比對,除了位於中刮號中者以外。 // ) 定義一個子字串之群組的結尾處。 // ""? 零或多個引號(逸出)。 // > 于 HTML anchor 中緊接著完全相同的文字。 // (.+) 比對任何字元的一個群組:也就是 anchor 文字。 // 與 HTML anchor 之結尾標記完全相同的文字。 // // 請注意:如果您要在 RegEx 測試器中試驗這些規則 // 運算式模式,請確定您沒有逸出雙引號。 strRegExPattern = @"]+)""?>(.+)"; } else { ShowStatusIndicators("正在鏈結到網頁以便擷取出圖像,請稍待。"); htImages = new Hashtable(); lvwImages.Items.Clear(); // 此處用來取出圖片標記的規則運算式,在觀念上與用來取出 HTML anchor // 的規則運算式非常類似。然而,此處的規則運算式卻是複雜許多, // 原因是我們必須擷取出可能會依任何順序出現的四個不同屬性。 // // 為了讓此處所使用的規則運算式在長度與複雜度上都保有其合理性, // 我們對所要處理之網頁上的 HTML 標記做了下列假設: // // 1. 用來指定圖片來源的 src 屬性一定會出現。它是唯一的必要屬性。 // // 2. src 屬性會出現在 width 與 height 屬性之前。如果並非如此的話, // width 與 height 屬性將不會被擷取。 // // 3. 用來指定圖片替代文字的 alt 屬性會出現在 width 與 height 屬性之後。 // 如果並非如此的話,alt 屬性將不會被擷取。 // // 4. width 與 height 屬性可能會在 src 屬性之後以任何順序出現, // 本規則運算式能夠處理此狀況。 // // 上述假設可以確保網頁上的所有圖片標記都會被擷取。然而,它也意味著, // 其他某些屬性可能不會出現。 // // 以下是使用於本規則運算式中的幾個重要模式專案: // // [^>]+ 與 > 以外的任何字元比對。此顯示出您可以移至下一個您所感興趣的屬性。 // // (?: 從一個非擷取的群組開始。它會與一個結束 )? 合用, 以便建立 // 出一個選擇性群組(零或一個比對)。此顯示出您可以讓 src // 以外的所有屬性成為可選擇性的。 // // | 與 width 和 height 使用來成為一個 Or 運算式。 // 請注意在第一個配對中,width 在前而 height 在後,而在第二個 // 配對中,則是 height 在前而 width 在後。 strRegExPattern = @"]+(src)\s*=\s*""?([^ "">]+)""?(?:[^>]+(width|height)\s*=\s*""?([^ "">]+)""?\s+(height|width)\s*=\s*""?([^ "">]+)""?)?(?:[^>]+(alt)\s*=\s*""?([^"">]+)""?)?"; } Regex re = new Regex(strRegExPattern, RegexOptions.IgnoreCase); Match m = re.Match(strHttpSource); // 處理 HTML 程式源代碼。因為源是一個長字串, // 因此我們不使用 Matches 方法,而改用較有效率的 Match(),Match() // 一次只會傳回一個比對。Success 屬性能夠判斷是否存在另外一個比對。 // NextMatch() 則能夠反復此項作業。 while (m.Success) { if (optImages.Checked) { string strWidth, strHeight; // 因為規則運算式模式賦予 width 與 height 屬性選擇性的順序, // 因此必須先確認哪一個屬性是擺在前面,然後指派合適的 Group 專案值。 if (m.Groups[3].Value.ToLower() == "width") { strWidth = m.Groups[4].Value; strHeight = m.Groups[6].Value; } else // height 屬性先出現 { strWidth = m.Groups[6].Value; strHeight = m.Groups[4].Value; } // 調用 AddImage 以便將自定義的 ImageAttributes 物件新增 // 至 Hashtable 中。請參閱 AddImages 的注釋來瞭解為什麼 // 要使用一個 Hashtable。 AddImage(new ImageAttributes(m.Groups[2].Value, m.Groups[8].Value, strHeight, strWidth)); } else { // 建立一個 ListViewItem 物件並設定第一欄("src")的文字。 ListViewItem lvi = new ListViewItem(); lvi.Text = m.Groups[1].Value; lvwLinks.Items.Add(lvi); } // 繼續迴圈至下一個比對。 m = m.NextMatch(); } HideStatusIndicators(); // 將所擷取的每一個影像資訊填入清單檢視控制項中。 if (optImages.Checked) { if (htImages != null) { FillImagesListView(); } else { MessageBox.Show("沒有任何圖像的屬性與正則運算式相符。", this.Text, MessageBoxButtons.OK, MessageBoxIcon.Information); } } else { if (lvwLinks.Items.Count == 0) { MessageBox.Show("沒有任何鏈結的 URL 與正則運算式相符。", this.Text, MessageBoxButtons.OK, MessageBoxIcon.Information); } } } } // 此函式會檢查使用者所輸入的網址是否以 http:// 開頭。 private bool UrlIsValid() { if (txtURL.Text.Substring(0, 7) != "http://") { MessageBox.Show("您所輸入的網址必須以 http:// 開頭。"); return false; } return true; } // 此函式會讀取 HttpWebResponse 物件所傳回的 HTTP 響應資料流程並將它轉換成一個字串以便交給 RegEx 處理之。 private string ConvertStreamToString(Stream stmSource) { if (stmSource != null) { try { using (StreamReader sr = new StreamReader(stmSource)) { // 讀取資料流程並傳回其整個內容。 return sr.ReadToEnd(); } } catch (Exception) { // 不要顯示一個訊息方塊。只需轉寄來自 GetHttpStream() 的自訂錯誤訊息。 throw new Exception(); } finally { // 清除 Stream 與 StreamReader。 wresScrape.Close(); } } else { return ""; } } // 此函式使用衍生自 System.Net.WebRequest 的 .NET 類別來取得一個 HTTP 響應資料流程, // 此 HTTP 回應資料流會成為 RegEx 的剖析來源或是所要顯示的影像(當 // 被 ImageViewer.Show() 呼叫時)。 public Stream GetHttpStream(string url) { // 使用 WebRequestFactory 建立要求。 wreqScrape = (HttpWebRequest)(WebRequest.Create(url)); wreqScrape.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0b; Windows NT 5.1)"; wreqScrape.Method = "GET"; wreqScrape.Timeout = 10000; try { // 傳迴響應資料流程。 wresScrape = (HttpWebResponse)(wreqScrape.GetResponse()); return wresScrape.GetResponseStream(); } catch (Exception) { // 最可能導致發生錯誤的原因是輸入了錯誤的 URL 或是並未連結至 Internet。 // 建立一個自訂的錯誤訊息來轉回給呼叫者函式。 throw new Exception("在提取您所要求的網頁時發生錯誤。" + "請檢查您所輸入的 URL 以及 Internet 聯機,並再次嘗試。"); } }
myAdBanner
2013年11月7日 星期四
獲得當前網頁中的所有鏈結
當在一個文本框中輸入網址單擊按鈕後,把當前這個網頁的所有鏈結保存到文本框中顯示出來!