抄來的一個Python爬蟲demo,備忘

阿新 • • 發佈：2019-01-06

從知乎上抄過來的demo，作者是在ios下開發的，直接拿到windows平臺上執行有報錯。所以做了修改，下面是修改後的原始碼：

# -*- coding: utf-8 -*-
"""
Created on Wed Apr 11 14:57:23 2018

@author: sw
"""

import requests
from bs4 import BeautifulSoup

# 首先我們寫好抓取網頁的函式


def get_html(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        # 這裡我們知道百度貼吧的編碼是utf-8，所以手動設定的。爬去其他的頁面時建議使用：
        #r.endcodding = r.apparent_endconding()
        r.encoding = 'utf-8'
        return r.text
    except:
        print('獲取網頁資料失敗')
        return " ERROR "


def get_content(url):
    '''
    分析貼吧的網頁檔案，整理資訊，儲存在列表變數中
    '''

    # 初始化一個列表來儲存所有的帖子資訊：
    comments = []
    # 首先，我們把需要爬取資訊的網頁下載到本地
    html = get_html(url)
    
    # 我們來做一鍋湯
    soup = BeautifulSoup(html, 'lxml')

    # 按照之前的分析，我們找到所有具有‘ j_thread_list clearfix’屬性的li標籤。返回一個列表型別。
    liTags = soup.find_all('li', attrs={'class': ' j_thread_list clearfix'})

    # 通過迴圈找到每個帖子裡的我們需要的資訊：
    for li in liTags:
        # 初始化一個字典來儲存文章資訊
        comment = {}
        # 這裡使用一個try except 防止爬蟲找不到資訊從而停止執行
        try:
            # 開始篩選資訊，並儲存到字典中
            comment['title'] = li.find(
                'a', attrs={'class': 'j_th_tit '}).text.strip()
            comment['link'] = "http://tieba.baidu.com/" + \
                li.find('a', attrs={'class': 'j_th_tit '})['href']
            comment['name'] = li.find(
                'span', attrs={'class': 'tb_icon_author '}).text.strip()
            comment['time'] = li.find(
                'span', attrs={'class': 'pull-right is_show_create_time'}).text.strip()
            comment['replyNum'] = li.find(
                'span', attrs={'class': 'threadlist_rep_num center_text'}).text.strip()
            comments.append(comment)
        except:
            print('出了點小問題')

    return comments


def Out2File(dict):
    '''
    將爬取到的檔案寫入到本地
    儲存到當前目錄的 TTBT.txt檔案中。

    '''
    with open('TTBT.txt', 'a+', encoding='utf-8') as f:
        for comment in dict:
            f.write('標題： {} \t 連結：{} \t 發帖人：{} \t 發帖時間：{} \t 回覆數量： {} \n'.format(
                comment['title'], comment['link'], comment['name'], comment['time'], comment['replyNum']))

        print('當前頁面爬取完成')


def main(base_url, deep):
    url_list = []
    # 將所有需要爬去的url存入列表
    for i in range(0, deep):
        url_list.append(base_url + '&pn=' + str(50 * i))
    print('所有的網頁已經下載到本地！ 開始篩選資訊。。。。')

    #迴圈寫入所有的資料
    for url in url_list:
        content = get_content(url)
        Out2File(content)
    print('所有的資訊都已經儲存完畢！')


base_url = 'http://tieba.baidu.com/f?kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8'
# 設定需要爬取的頁碼數量
deep = 3

if __name__ == '__main__':
    main(base_url, deep)

抄來的一個Python爬蟲demo,備忘

從知乎上抄過來的demo，作者是在ios下開發的，直接拿到windows平臺上執行有報錯。所以做了修改，下面是修改後的原始碼：# -*- coding: utf-8 -*- """ Created on Wed Apr 11 14:57:23 2018 @author: s

第一個python爬蟲——保存淘寶mm圖片

gen with open 代號 [] 文件夾暫時觀察 python基礎意義第一次算是成功的爬蟲小代碼，花了挺長時間的。目的：　　獲取淘寶mm圖片現存問題：　　無法獲取動態加載的圖片，只能得到打開網頁後存在的圖片　　雖然更換代理仍禁止訪問收獲：　　　對爬蟲的思路

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

十幾年來總結的最經典的專案，用來作為python爬蟲實踐教學！

一、前言這篇文章之前是給新人培訓時用的，大家覺的挺好理解的，所以就分享出來，與大家一起學習。如果你學過一些python，想用它做些什麼又沒有方向，不妨試試完成下面幾個案例。二、環境準備安裝requests lxml beautifulsoup4 三個庫（下面程式碼

自己整理的一些爬蟲知識. 備忘!

很多文字內容都是通過自己的理解寫的,如果有理解不到位的地方,還望指正. selenium部分是通過看資料整理的,很多東西不是很懂,有待進一步學習. 一. requests 模組基於urllib的模組 , 用法比urllib簡單 1. requests

第一個Python爬蟲-抓取煎蛋網上圖片

背景作為一個計算機基礎薄弱的電氣工程師，廖大的教程看到常用的內建模組時，看的頭大，特別是看到HTMLParser時，已宛如天書了。這時作為一個初學者的劣勢就暴露出來了，我不知道哪部分知識是理解這些模組的前置條件，即使知道是哪部分知識，但不知道該理解到什麼程度才能解決當前的問題。個人建議

python爬蟲demo

#!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import json import sys import time keywor

[CentOS Python系列] 一.阿里雲伺服器安裝部署及第一個Python爬蟲程式碼實現

從2014年開始，作者主要寫了三個Python系列文章，分別是基礎知識、網路爬蟲和資料分析。它們都是基於Windows系統下的Python程式設計，每個系列都從安裝過程、基礎知識到實際應用三個方面進行講

我的第一個Python爬蟲——談心得

2018年3月27日，繼開學以來，開了軟體工程和資訊系統設計，想來想去也沒什麼好的題目，乾脆就想弄一個實用點的，於是產生了做“學生服務系統”想法。相信各大高校應該都有本校APP或超級課程表之類的軟體，在資訊化的時代能快速收集/查詢自己想要的諮詢也是種很重要的能力

一個Python 爬蟲程式

一個簡單的實現煎蛋網妹子圖片爬取的Python指令碼 # -*- coding:utf-8 -*- ''' version:Python 2.6 standard libs: urllib autho

python陣列操作備忘

一、python取陣列某幾行值現有一段陣列signals signals[0:2,:]取值為index=0,1兩行的資料 signals[1:2,:]取值為index=1行的資料 signals[2:2,:]取值將為空結論，m:n，取出的資料為index=m~n-1

Python Import機制備忘-模組搜尋路徑(sys.path)、巢狀Import、package Import

最近在看《Python原始碼剖析》，對Python內部執行機制比以前瞭解的更深入了，感覺自己有機會也可以做個小型的動態指令碼語言了，呵呵，當然是吹牛了。目的當然不是創造一個動態語言，目的只有一個：更好的使用Python。看到模組匯入那塊的時候，終於對模組匯入機制比較瞭解了，以

Python基本知識點備忘

注：本篇博文內容總結自廖雪峰老師的python教程： http://www.liaoxuefeng.com/ 1.如果想直接執行py檔案，應該在文字開頭加入#!/usr/bin/env python3,然後賦予許可權chomod a+x hello.py 2.p

python 列表復制給另一個列表，改值兩個列表均會改變（備忘）

兩種另一個表復制 target tails details 總結拷貝 get http://blog.csdn.net/lc_lc2000/article/details/53135839 本意是使A = B，B為一個列表，結果在後續對A的操作中，導致B中的值也改變了

Python學爬蟲的課程備忘

學習慕課網的北京理工大學的嵩天老師關於爬蟲的授課，講的非常好。為了幫自己整理知識，特意在此備忘。爬取百度的首頁至於版權，那還是算嵩老師的。 #CrawUnivRankingB.py import requests from bs4 import BeautifulSoup im

Python 網路爬蟲 004 (程式設計) 如何編寫一個網路爬蟲，來下載（或叫：爬取）一個站點裡的所有網頁

爬取目標站點裡所有的網頁使用的系統：Windows 10 64位 Python語言版本：Python 3.5.0 V 使用的程式設計Python的整合開發環境：PyCharm 2016 04

Python備忘

class 安裝 ont 備忘 org 開源 ron 自己的 color Python 庫索引中包含了大量開源的庫，你可以在你自己的程序中使用它們。要想了解如何安裝並使用這些庫，你可以使用 pip。Python備忘

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

Python爬蟲從入門到放棄（十一）之 Scrapy框架整體的一個了解

object 定義 roc encoding eth obi pipe pos 等等這裏是通過爬取伯樂在線的全部文章為例子，讓自己先對scrapy進行一個整理的理解該例子中的詳細代碼會放到我的github地址：https://github.com/pythonsite/

python核心編程socket備忘

accep not blog nco break ddr list cps send 服務器端： # Echo server program from socket import * from time import ctime HOST = ‘‘

抄來的一個Python爬蟲demo,備忘

相關推薦