Semalt :從網頁中提取網址並添加精美湯

Beautiful Soup是一個高級Python軟件包,用於解析XML和HTML文檔。 Beautiful Soup Python庫創建了一個解析樹,該樹用於從超文本標記語言(HTML)中提取有用的信息。該庫可用於Python 2和Python 3版本。

在大多數情況下,您發現目標數據只能被訪問並用作網頁的一部分。在這種情況下,您需要使用網絡抓取技術,可以提取可分析格式的數據。這就是Beautiful Soup庫的所在。

要求

您需要正確的模塊才能使用Beautiful Soup庫。首先,您需要在計算機上安裝Python 2.7編程語言。在這篇文章中,您將學習如何抓取網站並使用“請求和精美的湯4”提取所有URL。HTML解析是一種自行完成任務,尤其是在Beautiful Soup的技術幫助下。

為什麼要使用漂亮的湯?

Beautiful Soup是排名最高的Python程序包,自2004年以來一直用於抓取網站和解析HTML標籤。最近,Beautiful Soup 4取代了Beautiful Soup行業中的3。請注意,BS4在兩個Python版本上都可運行,而BS3僅在Python 2.7上運行。該庫包含以下內置功能:

  • 編碼功能–在計算機上安裝了必要的精美Soup模塊後,您不必擔心編碼。該庫可以自動將輸入轉換為Unicode,將輸出轉換為UTF-8。
  • 導航功能– Beautiful Soup提供了易於使用的方法來搜索,導航和修改解析樹。

如何使用Beautiful Soup庫?

在計算機上安裝Beautiful Soup之後,就可以開始使用該庫了。首先,請在Python代碼的開頭導入bs4庫。將內容或URL傳遞給Beautiful Soup以創建Soup對象。但是,該庫本身不會獲取目標網頁。在這裡,您必須手動完成該任務。您還可以結合使用Python和Beautiful Soup輕鬆獲取首選網頁。

請求庫的角色

要抓取頁面,您需要先下載它。您可以使用請求庫下載網頁。請求庫通過向Web服務器發出“ GET”請求來工作,然後Web服務器將下載首選Web頁面的HTML內容。

從網頁提取URL

現在您有了有關Beautiful Soup庫的詳細信息。 BS4庫和Python的組合將幫助您非常快速地獲取網頁。要從目標網頁中提取所有URL,請使用“查找全部”方法。此方法將為您提供帶有標記的元素的彙編。從bs4導入Beautiful Soup和請求。運行您的代碼,然後輸入網站或網頁以從中提取URL。

mass gmail