【python爬蟲】遊俠網部分新聞爬取

阿新 • • 發佈：2021-12-22

最後效果展示

【用網頁表格的形式展示爬取的資料】

用pyinstaller打包成exe了

【python3.6 可執行的環境多一些】

aaaaa出錯了！why什麼？放到win7虛擬機器執行中文解碼錯誤了~~~

程式碼

#遊俠網 新聞news-link-ul  https://www.ali213.net/ li a標籤
import os
from re import I
import time
import requests
from lxml import etree
import pandas as pd
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
import traceback

url_list = []
text_list = []

def get_url(url):
    header = headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}
    response = requests.get(url,verify=False)
    rightcode = response.encoding#得到正確編碼
    s = response.content
    s.decode(rightcode)#對內容進行正確解碼
    return s

for page in range(2,3):
    s = get_url("https://www.ali213.net/")
    selector = etree.HTML(s)#與下面的方法是同一樣的效果
    imgEle = selector.xpath('//ul[@class="news-link-ul"]/li[1]/a[1]')
    imgEleText = selector.xpath('//ul[@class="news-link-ul"]/li[1]/a[1]/text()')
    label = 'tu%s'%page
    for index,i in enumerate(imgEle):
        imgUrl = i.xpath('@href')[0]#連線已得到
        url_list.append(imgUrl)
        text_list.append(imgEleText[index])
        #print(imgUrl)
        #print(imgEleText[index])
def main1():
    j = []
    for k in url_list:
        j.append('http://'+k.split("/",2)[2])#給網頁連結中//去除掉 然後新增 http
    dic1 = {
        "text":[i for i in j],
        "url":[f for f in text_list] # j replace url_list
        #"text":["https://www.ali213.net/"],
        #"url":["遊俠網"]
    }
    #構建字典 利用字典建立表格資料
    df1 = pd.DataFrame(dic1)

    df1['url'] = '<a href=' + df1['text'] + '><div>' + df1['url'] + '</div></a>'
    nowtime =  time.strftime("%d-%m-%Y")
    df1 = df1.to_html(nowtime+'遊俠網新聞.html',escape=False) #escape = False 與上面一條語句 ，可以將df1[text]中變成url連結
    #html_table = df1.to_html('遊俠網新聞.html')
    #print(df1.to_html())  #可以打印出html 字串


if __name__ == '__main__':
    try:
        main1()
    except Exception as e:
        t=traceback.format_exc()
        with open(os.getcwd()+"/error-pa6.txt",'w') as f:
            f.write(t)

【python爬蟲】遊俠網部分新聞爬取

最後效果展示【用網頁表格的形式展示爬取的資料】用pyinstaller打包成exe了【python3.6 可執行的環境多一些】

【Python爬蟲】：爬取（谷歌/百度/搜狗）的搜尋結果

步驟如下：1.首先匯入爬蟲的package：requests 2.使用UA偽裝進行反反爬蟲，將爬蟲偽裝成一個瀏覽器進行上網

【Python爬蟲】爬取websockect

websockect基礎還有原理省略 PS:這裡我說下aiowebsocket這個依賴庫，堪稱垃圾中的戰鬥機，在Mac（Linux沒測試過，但是Mac的核心是Linux，放到centOS我估計也會出這個問題）上一直報錯SSL證書錯誤，在windowes上hand

【Python爬蟲】尺度太大了！爬一個專門看小姐姐的網站，寫一段緊張刺激的程式碼（附原始碼）

前言今天我們通過Python爬取小姐姐圖片網站上的美圖，零基礎學會通用爬蟲，當然我們還可以實現多執行緒爬蟲，加快爬蟲速度

【Python爬蟲】15行程式碼教你爬B站視訊彈幕，詞雲圖展示資料（附原始碼）

知識點爬蟲基本流程正則 requests >>> pip install requests jieba >>> pip install jieba

【Python爬蟲】太刺激了！本來只想爬個視訊的，誰知自己淪陷進去了（附原始碼）

知識點爬蟲基本流程 re正則表示式簡單使用 requests json資料解析方法視訊資料儲存

【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

知識點爬蟲的步驟 requests parsel xpath資料解析爬蟲四個步驟: 1.獲取網頁地址 (目標地址)2.傳送請求3.資料解析4.儲存本地

【Python爬蟲】拉鉤網招聘資訊資料採集

本文要點：爬蟲的基本流程 requests模組的使用儲存csv 視覺化分析展示環境介紹

【Python爬蟲】新發現一個高質量跳舞視訊網站爬一下試試，男生都喜歡

好難受，上次發了做遊戲的居然沒人看，每天為了給你們寫啥，老夫心都操碎了~

【Python爬蟲】一個簡單的網路爬蟲

網頁結構的相似性爬蟲的目的，是從網站中自動化的批量提取資料。首先嚐試完成以下操作:

【Python爬蟲】儲存格式化資料

我們一直使用 print 方法列印爬蟲獲取的資料，接下來你將把這些資料儲存到特定格式檔案中。

【Python爬蟲】如何把抖音漂亮的小姐姐（高清、無水印）儲存到硬盤裡，附原始碼

前言現在自媒體平臺上經常有一些視訊素材需要儲存下來，但是大部分平臺下載下來都帶上了平臺水印，影響視訊美觀。這次我們用爬蟲，可以爬到高清無水印的視訊

【Python爬蟲】採集一個優秀藝術家相互交流的網站——P站（一個正經的網站）

前言總所周知, p站是日本知名的虛擬社群, 聚集了眾多來自日本, 中國, 韓國, 美國等國家的優秀藝術家。他們在p站上相互交流, 分享高清優秀插畫, 是一個正經的網站

【彼岸美圖】二十行程式碼下載上千張高清美圖桌布【python爬蟲】

小白也能看懂的python爬蟲，從零開始爬彼岸圖網桌布美圖你是否有過以下煩惱：

【Python爬蟲】查自己部落格每月發帖量的小程式

【前提：安裝beautifulsoup4和requests】 pip install beautifulsoup4 pip install requests 【程式碼】

Python爬蟲實現的根據分類爬取豆瓣電影資訊功能示例

本文例項講述了Python爬蟲實現的根據分類爬取豆瓣電影資訊功能。分享給大家供大家參考，具體如下：

Python爬蟲，京東商品詳情爬取！

最近因需求需要，需要到京東爬取一些類別的商品資訊。記錄下過程中踩過的坑，最後奉獻上全部程式碼。僅供互相學習，如有錯誤請指正~~

Python爬蟲實戰，QQ音樂爬取全部歌曲

前景介紹最近小夥伴們聽歌的興趣大漲，網抑雲綜合症已經遍佈各地。咱們再來抬高一波QQ音樂的熱度吧。

python爬蟲實戰，超簡單爬取抖音無水印視訊

目錄一、抖音視訊分析二、分析複製的短連結三、分析返回的資料四、下載原始碼

Python爬蟲實戰詳解：爬取圖片之家

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理