python爬取入門——爬取中技網技術需求並存儲入mysql資料庫

阿新 • • 發佈：2020-10-28

一、開啟中技網網站

　　右鍵檢查，找到可以進入二級網頁即各個需求詳情的入口，如圖

　　通過觀察發現，這些二級網址包含在class名為con_js的div中，而裡面只有一個a標籤，因而可以用BeautifulSoup中soup.find_all(class_='conjs')獲取這些div，然後遍歷直接獲取a標籤的href屬性，即soup[i].a['href']

二、進入詳情網頁

　　可以發現我們要爬的大部分資訊都在class=ft_886_1這個div中，根據每個標籤的class尋找即可，詳細介紹在第一個class為ft_930_2的標籤中

三、存入資料庫

　　下載MySQLdb模組並安裝，參考https://blog.csdn.net/weixin_42840933/article/details/85274313

　　　　資料庫連線

　　　　db = MySQLdb.connect("localhost", "root", "root", "db_mtest", charset='utf8')
　　　　
　　　　　獲取遊標
　　　　cursor = db.cursor()
　　　　
　　　執行sql
　　　　cursor.execute(sql)

　　　　db.commit()

四、程式碼

import urllib.request
from io import BytesIO
import gzip
from bs4 import BeautifulSoup
import re
import MySQLdb

 
def getHtmls(url):
    headers = {'User-Agent': 'User-Agent:Mozilla/5.0'}
    datal=urllib.request.Request(url,headers=headers)
    response=urllib.request.urlopen(datal)
    print ('state code',response.getcode())
    data=response.read()
    str=data.decode('utf-8')
    soup=BeautifulSoup(str[1:])
     
return soup


def getMessage(soup):
    items=soup.find_all(class_='con_js')
    db = MySQLdb.connect("localhost", "root", "root", "db_mtest", charset='utf8')
    cursor = db.cursor()
    #進入二級網址
    for item in items:
        secsoup=getHtmls('http://www.ctctw.com'+str(item.a['href']))
        #獲取主要資訊
        #標題
        msoup=secsoup.find(class_='r_494')

        #小項
        smsoupitems=msoup.find(class_='t_494_2').find_all(class_='bt')
        print(msoup.find(class_='t_494_1').text)
        sql = 'insert into zjwsj values(null,\'' + str(msoup.find(class_='t_494_1').text) + '\''
        for sit in smsoupitems:
            sql=sql+',\''+str(sit.text).split("：")[1]+'\''
            print(sit.text)


        #詳細介紹
        strs=secsoup.find_all(class_='ft_930_2')[0]
        print((strs.text).strip())
        sql=sql+',\''+(strs.text).strip()+'\')'
        try:
            print(sql)
            cursor.execute(sql)
            db.commit()
        except :
            db.rollback()


if __name__=='__main__':

    for i in range(13):
        try:
            getMessage(getHtmls('http://www.ctctw.com/list.aspx?node=3&f=cn&page='+str(i+1)))
        except:
            getMessage(getHtmls('http://www.ctctw.com/list.aspx?node=3&f=cn&page=' + str(i + 1)))

python爬取入門——爬取中技網技術需求並存儲入mysql資料庫

一、開啟中技網網站　　右鍵檢查，找到可以進入二級網頁即各個需求詳情的入口，如圖

python3 實現爬取TOP500的音樂資訊並存儲到mongoDB資料庫中

爬取TOP500的音樂資訊，包括排名情況、歌曲名、歌曲時間。網頁版酷狗不能手動翻頁進行下一步的瀏覽，仔細觀察第一頁的URL：

Python之旅4：酷狗音樂初次爬蟲音樂播放連線，儲存在MySQL資料庫

導言：初次爬蟲，若有不足之處，多多指正，內容借鑑一位大神爬蟲經歷，我這邊錦上添花，新增獲取音樂播放路徑和連線mysql資料庫等相關內容，

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

Python CSS選擇器爬取京東網商品資訊過程解析

CSS選擇器目前，除了官方文件之外，市面上及網路詳細介紹BeautifulSoup使用的技術書籍和部落格軟文並不多，而在這僅有的資料中介紹CSS選擇器的少之又少。在網路爬蟲的頁面解析中，CCS選擇器實際上是一把效率甚高的利

python使用requests庫爬取拉勾網招聘資訊的實現

按F12開啟開發者工具抓包，可以定位到招聘資訊的介面在請求中可以獲取到介面的url和formdata，表單中pn為請求的頁數，kd為關請求職位的關鍵字

Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

前言今天我們就用scrapy爬一波知網的中國專利資料並做簡單的資料視覺化分析唄。讓我們愉快地開始吧~

Python爬蟲實戰入門六：提高爬蟲效率—併發爬取智聯招聘（轉載）

之前文章中所介紹的爬蟲都是對單個URL進行解析和爬取，url數量少不費時，但是如果我們需要爬取的網頁url有成千上萬或者更多，那怎麼辦？使用for迴圈對所有的url進行遍歷訪問？嗯，想法很好，但是如果url過多，爬取

【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

知識點爬蟲的步驟 requests parsel xpath資料解析爬蟲四個步驟: 1.獲取網頁地址 (目標地址)2.傳送請求3.資料解析4.儲存本地

Python手把手教你爬取噹噹網五星好評書籍，拿走不謝

來啦，老弟 python 我們已經知道怎麼使用 Requests 進行各種請求騷操作也知道了對伺服器返回的資料如何使用

Python使用mongodb儲存爬取豆瓣電影的資料過程解析

建立爬蟲專案douban scrapy startproject douban 設定items.py檔案，儲存要儲存的資料型別和欄位名稱

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

Python如何使用BeautifulSoup爬取網頁資訊

這篇文章主要介紹了Python如何使用BeautifulSoup爬取網頁資訊,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python多執行緒爬取豆瓣影評API介面

爬蟲庫使用簡單的requests庫，這是一個阻塞的庫，速度比較慢。解析使用XPATH表示式

python 爬取古詩文存入mysql資料庫的方法

使用正則提取資料，請求庫requests,看程式碼，在存入資料庫時，報錯ERROR 1054 (42S22): Unknown column ‘title\' in ‘field list\'。原來是我寫sql 有問題，sql = “insert into poem(title,author,content,creat