python爬蟲採集網路資訊

阿新 • • 發佈：2019-02-19

from bs4 import BeautifulSoup
import re
import urllib.parse
import urllib.request
import os
import datetime
import json

# params  CategoryId=808 CategoryType=SiteHome ItemListActionName=PostList PageIndex=3 ParentCategoryId=0 TotalPostCount=4000
def getHtml(url,values):
    user_agent='Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36' 

    headers = {'User-Agent':user_agent}
    data = urllib.parse.urlencode(values)
    response_result = urllib.request.urlopen(url+'?'+data).read()
    html = response_result.decode('utf-8')
    return html

#獲取資料
def requestCnblogs(index):
    print('請求資料')
    url = 'https://www.csdn.net/'
    value= {
         'CategoryId' 
:808,
         'CategoryType' : 'SiteHome',
         'ItemListActionName' :'PostList',
         'PageIndex' : index,
         'ParentCategoryId' : 0,
        'TotalPostCount' : 4000
    }
    result = getHtml(url,value)
    return result

#解析最外層
def blogParser(index):
  cnblogs = requestCnblogs(index)
  soup = BeautifulSoup(cnblogs, 'html.parser' 
)
  all_div = soup.find_all('div', attrs={'class': 'list_con'}, limit=20)
  blogs = []
  #迴圈div獲取詳細資訊
  for item in all_div:
      blog = analyzeBlog(item)
      blogs.append(blog)

  return blogs

#解析每一條資料
def analyzeBlog(item):
    result = {}
    a_title = find_all(item,'div','title')[0].find_all('a')[0]
    if a_title is not None:
        # 部落格標題
        result["title"] = a_title.string.replace("\n","").strip()
        # 部落格連結
        result["href"] = a_title['href']
    p_summary = find_all(item,'div','summary oneline')
    if p_summary is not None:
        # 簡介
        result["summary"] = p_summary[0].text.replace("\n","").replace("\n","").strip()

    footers = find_all(item,'dl','list_userbar')[0]
    author = find_all(footers,'dd','name')[0]
    # 作者
    result["author"] = author.find_all('a')[0].string.replace("\n","").strip()
    # 作者url
    result["author_url"] = author.find_all('a')[0]['href']
    time = find_all(footers,'dd','time')[0].text
    result["create_time"] = time.replace("\n","").strip()

    comment_str = find_all(footers,'dd','read_num')[0].find_all('span')[0].text
    result["comment_num"] = comment_str

    view_str = find_all(footers,'dd','common_num ')[0].find_all('span')[0].string
    result["view_num"] = view_str

    return result

def find_all(item,attr,c):
    return item.find_all(attr,attrs={'class':c},limit=1)

def writeToTxt(list_name,file_path):
    try:
        #這裡直接write item 即可，不要自己給序列化在寫入，會導致json格式不正確的問題
        fp = open(file_path,"w+",encoding='utf-8')
        print(file_path)
        l = len(list_name)
        i = 0
        fp.write('[')
        for item in list_name:
            fp.write(str(item))
            if i<l-1:
                fp.write(',\n')
            i += 1
        fp.write(']')
        fp.close()
    except IOError:
        print("fail to open file")


def saveBlogs():
    for i in range(1,2):
        print('request for '+str(i)+'...')
        blogs = blogParser(1)
        #儲存到檔案
        path = createFile()
        writeToTxt(blogs,path+'/blog_'+ str(i) +'.json')
        print('第'+ str(i) +'頁已經完成')
    return 'success'

def createFile():
    date = datetime.datetime.now().strftime('%Y-%m-%d')
    path = 'F:/Blog/'+date
    if os.path.exists(path):
        return path
    else:
        os.mkdir(path)
        return path

if __name__ == '__main__':
    result = blogParser(1)
    print(result)
    # print("python爬取CSDN：")
    # info = saveBlogs()
    # print(info)

python爬蟲採集網路資訊

from bs4 import BeautifulSoup import re import urllib.parse import urllib.request import os import datetime import json # params

python爬蟲電影頁面資訊 xpath csv寫入圖片儲存到本地

import re import requests from lxml import etree import time import urllib.request import csv import os # 獲取電影詳情 def getMoviesDetail(id,score):

如何讓你的Python爬蟲採集得更快

如何讓Python爬蟲採集的更快，如何處理海量資料的下載是我們一直探索和研究的物件。下面是我們從數學角度給出的一些分析以及我們的一些經驗分享。假設執行緒數為n，執行緒中下載平均用時為td，執行緒中資料處理部分（純計算）用時為tc。由於單個Python程序只能使用單

Python爬蟲獲取樓盤資訊

在一家線上租房的公司已經實習兩週了。作為實習生，所以日常的工作主要是收集和整理全國各小區的資訊，比如小區的建成年代，是否有電梯，小區的門牌數等。因為我不太喜歡用複製貼上這種效率低的工作方式，所以寫了一個簡單的Python程式，相對那些高階爬蟲比較簡單，但是還挺實用。通

python——爬蟲實現網頁資訊抓取

首先實現關於網頁解析、讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re 我們可以嘗試一下用readline方法讀某個網站，比如說百度 def test(): f=urllib.urlopen('http:/

python實戰之網路爬蟲（爬取新聞內文資訊）

（1）前期準備：開啟谷歌瀏覽器，進入新浪新聞網國內新聞頁面，點選進入其中一條新聞，開啟開發者工具介面。獲取當前網頁資料，然後使用BeautifulSoup進行剖析，程式碼： import requests from bs4 import BeautifulSoup res = requests.

python實戰之網路爬蟲（爬取網頁新聞資訊列表）

關於大資料時代的資料探勘（1）為什麼要進行資料探勘：有價值的資料並不在本地儲存，而是分佈在廣大的網路世界，我們需要將網路世界中的有價值資料探勘出來供自己使用（2）非結構化資料：網路中的資料大多是非結構化資料，如網頁中的資料都沒有固定的格式（3）非結構化資料的挖掘--ETL：即三個步

Python 爬蟲基礎學習--網路爬蟲與資訊提取

Python 爬蟲基礎學習 Requests庫的安裝 Win平臺: “以管理員身份執行”cmd，執行 pip install requests Requests庫的7個主要的方法 Requests庫中2個重要的物件：Request和Response Response物件

Python 網路爬蟲筆記4 -- 資訊標記與提取

Python 網路爬蟲筆記4 – 資訊標記與提取 Python 網路爬蟲系列筆記是筆者在學習嵩天老師的《Python網路爬蟲與資訊提取》課程及筆者實踐網路爬蟲的筆記。一、資訊標記 1、XML：

Python爬蟲——2017高校網路資訊保安管理運維挑戰賽：隨機數

如題，網頁是這個樣子的網頁原始碼是這個樣子的：我的python程式碼是這樣的： import time from splinter import Browser import random def splinter(url): br

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

初識python爬蟲 Python網路資料採集1.0 BeautifulSoup安裝測試

*文章說明這個學習資料是Ryan Mitchel的著作<Web Scraping with Python: Collecting Data from the Modern Web>我算是一步一步跟著一起去學習。分享自及遇到的問題。總結*環境說明我使用的是pytho

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

目錄 1.Intro 2.Details 3.Theory 4.Environment and Configuration 5.Automation 6.Conclusion 1.Intro 作為Python的擁蹩，開源支持者，深信Python大

[Python] [爬蟲] 10.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——排程引擎

目錄 1.Intro 2.Source 1.Intro 檔名：scheduleEngine.py 模組名：排程引擎引用庫： random time gc os sys date

[Python] [爬蟲] 9.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——爬蟲日誌

目錄 1.Intro 2.Source 1.Intro 檔名：spiderLog.py 模組名：爬蟲日誌引用庫： logging 功能：日誌寫入到文字，包含普通訊息、警告、錯誤、異常等，可以跟蹤爬蟲執行過程。 &nb

[Python] [爬蟲] 8.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料推送模組

目錄 1.Intro 2.Source (1)dataPusher (2)dataPusher_HTML 1.Intro 檔名：dataPusher.py、dataPusher_HTML.py 模組名：資料推送模組引用庫： smtpl

[Python] [爬蟲] 7.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料處理器

目錄 1.Intro 2.Source 1.Intro 檔名：dataDisposer.py 模組名：資料處理器引用庫： pymongo datetime time sys

python爬蟲採集網路資訊

相關推薦