python：爬取貼吧的某個吧的網頁資訊

阿新 • • 發佈：2018-12-04

#-*-coding:utf-8-*-
import urllib      #負責url編碼處理
import urllib2
import sys
import os

if sys.getdefaultencoding() != 'utf-8':
    reload(sys)
    sys.setdefaultencoding('utf-8')
def writeFile(html, filename):
    """
        作用：儲存伺服器響應檔案到本地磁碟檔案裡
        html: 伺服器響應檔案
        filename: 本地磁碟檔名
    """
    print "正在儲存" + "D://lianxi"


    with open("D://lianxi//"+filename.encode("GBK"), 'w') as f:
        f.write(html)
    print "-" * 20


def tiebaSpider(url, beginPage, endPage):
    """filename
        作用：負責處理url，分配每個url去傳送請求
        url：需要處理的第一個url
        beginPage: 爬蟲執行的起始頁面
        endPage: 爬蟲執行的截止頁面
    """


    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50

        filename = "第" + str(page) + "頁.html"
        # 組合為完整的 url，並且pn值每次增加50
        fullurl = url + "&pn=" + str(pn)
        #print fullurl

        # 呼叫loadPage()傳送請求獲取HTML頁面
        html = loadPage(fullurl, filename)
        # 將獲取到的HTML頁面寫入本地磁碟檔案
        writeFile(html, filename)

def loadPage(url, filename):
    '''
        作用：根據url傳送請求，獲取伺服器響應檔案
        url：需要爬取的url地址
        filename: 檔名
    '''
    print "正在下載" + filename

    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    request = urllib2.Request(url, headers = headers)
    response = urllib2.urlopen(request)
    return response.read()

# 模擬 main 函式
if __name__ == "__main__":


        kw  = raw_input("請輸入需要爬取的貼吧:")
        # 輸入起始頁和終止頁，str轉成int型別
        beginPage = int(raw_input("請輸入起始頁："))
        endPage = int(raw_input("請輸入終止頁："))

        url = "http://tieba.baidu.com/f?"
        key = urllib.urlencode({"kw" : kw})

        # 組合後的url示例：http://tieba.baidu.com/f?kw=lol
        url = url + key
        tiebaSpider(url, beginPage, endPage)

執行過程：

執行結果：


 開啟頁面：

python：爬取貼吧的某個吧的網頁資訊

#-*-coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 import sys import os if sys.getdefaultencoding() != 'utf-8': reload(sys)

python爬蟲四：爬取貼吧資料

# -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoup import io import sys #sys.stdout = io.TextIOWrapper(sys

Python實現爬取貼吧圖片

導讀：最近周邊朋友學python的越來越多，毫無意外的是，大家都選擇了爬蟲入門。這不難理解。Python有豐富的庫使用，使得爬蟲的實現容易很多，學習之後，回報明顯，容易獲得成就感。總結起來就是：讓人有繼續學下去的慾望。我偏巧例外，先走了Python web。雖然

python爬蟲：爬取豆瓣讀書某個tag下的書籍並存入excel

#-*- coding: UTF-8 -*- import sys import time import urllib import urllib2 import requests #import numpy as np from bs4 import BeautifulS

python：爬取新浪新聞的內容

import requests import json from bs4 import BeautifulSoup import re import pandas import sqlite3 commenturl='https://comment.sina.com.cn/page/info?

通過Python爬蟲爬取知乎某個問題下的圖片

該爬蟲的完整程式碼我把它放到了GitHub上，因為目前是在一點點的增加功能階段，所以程式碼可能沒有完善好，但是正常執行時沒有問題的，歡迎拍磚，:) 該爬蟲主要是通過requests來實現的，該模組完全可以很好的代替urllib和urllib2，而且功能更強大，詳細可以看這

python：爬取58同城全部二手商品資訊（轉轉網）

python_58ershou python+beautifulsoup多執行緒爬取58同城二手全部商品資訊，並在jupyter上將資料視覺化專案主程式在58_index中：建立mango資料庫表 #連線MongoDB資料庫 client

[8]個人學習python：爬取豆瓣首頁所有圖片

程式碼如下：# -*- coding: utf-8 -* import urllib.request,socket,re,sys,os savepath=r'C:\\Users\\Administrator\\PycharmProjects\\untitled\\venv1\

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

Python爬蟲-爬取騰訊QQ招聘崗位資訊（Beautiful Soup）

爬取騰訊招聘資訊-Beautiful Soup --------------------------------------- ============================================ =================================

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

使用python+selenium爬取同城旅遊網機票資訊

最近使用python+selenium爬取了同城旅遊網機票資訊相關主要程式碼如下，通過模擬人為操作，拿下了這個機票列表的html程式碼，然後就可以使用xpath或者re等方式從中提取需要的欄位資訊了。 from selenium import webdriver

（python）如何利用python深入爬取自己想要的資料資訊

一、問題說明由於老師佈置了一個任務，需要對一個網站的城市做一些統計，並提取出這個網站上的城市的經緯度資訊然後繪製在百度地圖上。如果是一些數量不多的城市那也到好辦，但是如果對於這種存在幾百上千的城市，而且這些城市的經緯度資訊在第三級網站上才能找到，這樣一來，如果人工去完成會非常枯燥而

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

python+BeautifulSoup爬取不老歌的網頁正文

不老歌上有很多小說，想把他們都集中為一個txt放在手機裡看。下面程式碼針對以年份歸檔好的文章。 from bs4 import BeautifulSoup import requests import time import re def getContent(url)

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

Python爬取貼吧帖子內容

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 09:58:09 2018 @author: wangf """ import re import requests import urllib #處理頁面標籤

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

python：爬取貼吧的某個吧的網頁資訊

相關推薦