分享

爬蟲-下載網頁資訊 實作(5)

html Python urllib 爬蟲 網頁資料下載
不知道大家還記不記得實作(1)講到的HTML的基礎和urllib模組
今天想再針對這兩部分做更詳細的介紹唷
怎麼知道這個網頁可以使用甚麼方法取得資料呢?
html Python urllib 爬蟲 網頁資料下載

Request Method

我們參考天龍書局的網頁,我們右鍵檢視一下網頁HTML元素設計的方式
在Network/img/Headers標籤/General 可以看到以下幾筆資訊
Request URL:請求的URL
Request Method:請求的方法(以上圖為Http的GET方法,得知Python的requests模組的get()取得網頁時就是用GET方法)
Status Code:狀態碼,200正常
Remote Address:IP位置
Referrer Policy:參考策略
html Python urllib 爬蟲 網頁資料下載
今天要實作的就是urllib.request模組
此模組下有一個urlopen(url)方法,可用來獲得網頁HTTPResponse物件
然後用read()讀取HTTPResponse所回傳的網頁
但read()讀出來的中文會以二件位顯示,必須轉成'utf-8'碼
講解完畢後我們就開始時做吧!!
html Python urllib 爬蟲 網頁資料下載

http.client.HTTPResponse物件

從這裡可得知urlopen()回傳的是http.client.HTTPResponse物件
此物件可以用read()方法讀取,中文會以二件位顯示
html Python urllib 爬蟲 網頁資料下載

二件位顯示

此狀況可以用decode('utf-8')方式處理解中文的二進位碼
html Python urllib 爬蟲 網頁資料下載

decode('utf-8')

結果就可以看到二進位改成中文顯示了喔~~~~~成功!!!!
第二次參考書籍和操作,更加認識了urllib~也歡迎大家實際操作唷!
#html  #Python  #urllib  #爬蟲  #網頁資料下載 
分類:學習

如圖!! 短短的頭髮、拍照時愛比YA。目前擔任無憂無慮的學生。報告完畢!此外,若想看閱讀反思類的也歡迎來到【鹿 筆】#閱讀#反思#成長 https://www.timelog.to/user?id=11945612

評論
上一篇
  • 爬蟲-擷取網路新聞 實作(4)
  • 下一篇
  • 爬蟲-URL的轉換、分解與合成 實作(6)
  • 更多文章
    載入中... 沒有更多了