Python的學習筆記DAY6---爬蟲（1）

阿新 • • 發佈：2018-11-08

爬蟲，全稱網路爬蟲，是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。

要寫爬蟲，首先需要寫的程式能連線到網路，Python提供了urllib模組可以用來連線網路，一個簡單的例子如下：

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
print(response.read())

執行結果如下圖所示：

一堆程式碼，表示已經把百度首頁的程式碼打開了，看程式碼前面，編碼應該是UTF-8的，把這些程式碼轉換成UTF-8的再來看看：

程式碼：

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
html = response.read()
html = html.decode('utf-8')
print(html)

雖然也很亂，好歹比剛才好點了。。。。。。。。

每次要看編碼格式很麻煩，Python裡有個三方的模組叫做chardet，是用來識別編碼型別的，非常的好用，安裝三方模組呢，推薦使用pip方法，開啟windows的命令提示符

輸入pip install chardet 即可，如下圖所示：

安裝成功後就可以呼叫了，用法如下：

import urllib.request
import chardet

response = urllib.request.urlopen("http://www.bilibili.com").read()
a = chardet.detect(response)
print(a)
---------------------------------------------------------------------
{'confidence': 0.99, 'encoding': 'utf-8'}

如上所示，返回了編碼是utf-8,可能性是0.99，下面再寫一個使用者輸入url然後返回該地址的編碼的例子：

import urllib.request
import chardet

def main():
    url = input('請輸入網址：')

    response = urllib.request.urlopen(url)
    html = response.read()

    encode = chardet.detect(html)['encoding']
    if encode == 'GB2312':
        encode = 'GBK'

    print('此網頁編碼為：%s' % encode)


main()

--------------------------------------------------------
請輸入網址：http://www.baidu.com
此網頁編碼為：utf-8

請輸入網址：http://www.bilibili.com
此網頁編碼為：utf-8

Python的學習筆記DAY6---爬蟲（1）

爬蟲，全稱網路爬蟲，是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。要寫爬蟲，首先需要寫的程式能連線到網路，Python提供了urllib模組可以用來連線網路，一

Python學習筆記55 爬蟲（隱藏）

1.為了隱藏訪問方式，可以通過兩種方式：方法一：直接設定一個字典，作為引數傳給request，通過修改Request的headers引數修改 head = {} head['User-Agent']

Python機器學習筆記：SVM（1）——SVM概述

前言　　整理SVM（support vector machine）的筆記是一個非常麻煩的事情，一方面這個東西本來就不好理解，要深入學習需要花費大量的時間和精力，另一方面我本身也是個初學者，整理起來難免思路混亂。所以我對SVM的整理會分為四篇（暫定為四篇）學習，不足之處，請多多指導。　　四篇分別為： Pyt

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

1、Zookeeper用於叢集主備切換。 2、YARN讓叢集具備更好的擴充套件性。 3、Spark沒有儲存能力。 4、Spark的Master負責叢集的資源管理，Slave用於執行計算任務。 5、Hadoop從2.x開始，把儲存和計算分離開來，形成兩個相對獨立的子叢集：HDF

splash3.2學習筆記——HTTP API（1）

Splash是一個javascript渲染工具。是一款支援HTTP API的輕量級web瀏覽器，通過Python3的twisted和QT5實現。QT(twisted)反應器通過QT主迴圈充分利用webkit的併發優勢，使渲染服務完全非同步。SPlash的一些主要

JavaWeb學習筆記之XML（1）

文章目錄 XML 表單提交方式 XML的介紹 XML的應用 XML的語法 XML的dtd約束 schema約束相關知識： https://blog.csd

pppython tushare學習筆記API篇（1）基本面資料

基本面類資料提供所有股票的基本面情況，包括股本情況、業績預告和業績報告等。主要包括以下類別：滬深股票列表業績預告業績報告（主表）盈利能力資料營運能力資料成長能力資料償債能力資料現金流量資料本模組資料

Python學習筆記——元組（tuple）

元組（tuple）元組和列表類似，特點：()定界符、不可變、有序、支援下標、逗號分隔、元素可以重複、元素查詢速度非常慢。建立元組：如果只建立一個元素的元組，一定要在後面加一個逗號：元組沒有列表中那麼多方法可以使用，因為不可變，所以安全，速度比列表快。元組可以用做字典的‘鍵’，也可以

STM32學習筆記一一UCOSII（1）

1.簡介 UCOSII 是一個可以基於 ROM 執行的、可裁減的、搶佔式、實時多工核心，具有高度可移植性，特別適合於微處理器和控制

python爬蟲學習筆記——使用requests庫編寫爬蟲（1）

首先感謝http://python.jobbole.com ，我是看了此站的文章之後才有寫此文的想法，本人也是開始學python不久，此文僅僅是記錄一些學習過程中遇到的問題，邊學邊寫，初次寫這樣的博文，差錯在所難免，如有差錯也請指出，感激不盡。

python學習筆記第八節（函數的相關作業）

.com 制作記得 -1 字典不能函數添加對象查看函數內部的註釋導入一個模塊加入一個裝飾器，讓用戶調用函數的時候查看註釋是函數本身的而不是裝飾器的調用加了裝飾器的源代碼功能更改函數的註釋信息作業第四題，登錄一次後面函數無須重復登錄函數內

python爬蟲（1）

log 圖片 resp color 解析url www. blog robots gbk 　　在開始學習爬蟲之前，我花了大概兩周時間來熟悉python3的基本語法。　　相比較於我的啟蒙語言VB，python的優美之處讓我深有體會。人生苦短，我用python！一、關於爬蟲

python學習筆記之socket（第七天）

.cn 七天就是模塊 AR 操作 alt 分享圖片 python學習參考文檔： 1、金角大王博客：http://www.cnblogs.com/alex3714/articles/5227251.html

python—網絡爬蟲（1）

lock max styles 更多 64 bit man nsf 理解網址安裝 request庫1，運行裏面輸入 CMD 直接輸入 pip install requests回車，即可安裝2，直接在終端輸入python進入python自帶的IDLE3,下面命令即爬取百度

20180813視頻筆記深度學習基礎上篇（1）之必備基礎知識點深度學習基礎上篇（2）神經網絡模型視頻筆記：深度學習基礎上篇（3）神經網絡案例實戰和深度學習基礎下篇

計算概念人臉識別大量 png 技巧表現 lex github 深度學習基礎上篇（3）神經網絡案例實戰 https://www.bilibili.com/video/av27935126/?p=1 第一課:開發環境的配置 Anaconda的安裝庫的安裝 Windo

python程式設計：從入門到實踐學習筆記-Django入門（四）

建立其他網頁我們接下來擴充“學習筆記”專案，建立兩個顯示資料的網頁，其中一個列出所有的主題，另一個顯示特定主題的所有條目。模板繼承編寫一個包含通用元素的父模板，並讓每個網頁都繼承這個模板，而不必在每個網頁中重複定義這些通用元素。這樣我們可以專注於開發每個網頁的獨特部分。1.父模板

python程式設計：從入門到實踐學習筆記-Django入門（二）

建立網頁：學習筆記主頁使用django建立網頁通常分三個階段：定義URL、編寫檢視和編寫模板。首先必須定義URL模式，其描述了URL是如何設計的，讓django知道如何將瀏覽器請求與網站URL匹配，以確定返回哪個網頁。每個URL都被對映到特定的檢視——檢視函式獲取並處理網頁所需的資料。檢視函

python程式設計：從入門到實踐學習筆記Django入門（一）

建立應用程式 django專案由一系列應用程式組成，他們協同工作，讓專案稱謂一個整體。首先我們執行命令python manage.py startapp learning_logs。定義模型開啟剛剛我們建立的資料夾，並修改mod

關於python的學習的小題目（1）-----------Triplet標籤資料集設計

直接上題目：照片序號1~5000標示“”a“”類照片序號5001~10000標示“”b“”類 -------（中間省去若干）照片序號45001~50000標示“”g“”類總共10個類對應五萬張影象，現在自己製作一個數據集有五萬組圖片序列每一組分別是一

python資料探勘實戰筆記——文字挖掘（1）：語料庫構建

什麼是文字挖掘？　　文字挖掘是抽取有效、新穎、有用、可理解的、散佈在文字檔案中的有價值知識，並且利用這些知識更好地組織資訊的過程。一、搭建語料庫語料庫：要進行文字分析的所有文件的集合。需要用到的模組：os、os.path、codecs、pandas 程

Python的學習筆記DAY6---爬蟲（1）

相關推薦