Python爬蟲段子網全程式碼

阿新 • • 發佈：2018-12-29

程式碼如下：

import itchat
import requests
from bs4 import BeautifulSoup

itchat.auto_login(enableCmdQR='-1',hotReload=True)

def send(url):
    users=itchat.search_friends(name=u'傳送物件微信名')
    userName=users[0]['UserName']
    start_html = requests.get(url)   
    soup = BeautifulSoup(start_html.text, 'lxml')
    list=soup.find_all(attrs={'class': 'post'})
    url=soup.find(attrs={'class': 'next'}).get('href')
    for i in list:
         content=str(i.find(attrs={'class': 'post-title'}).get_text())+\
                 str(i.find(attrs={'class': 'post-content'}).get_text())
         itchat.send(content, toUserName=userName)
@itchat.msg_register(itchat.content.TEXT)
def print_content(msg):
    y=str(msg['Text']) 
	if y.isdigit():
    	url='http://duanziwang.com/category/%E7%BB%8F%E5%85%B8%E6%AE%B5%E5%AD%90/{}/'
	    url=url.format(y)
    	send(str(url))  
itchat.run()

1、微信登入

 itchat.auto_login(enableCmdQR='-1',hotReload=True)

2、獲取傳送的物件

users=itchat.search_friends(name=u'傳送物件微信名')
userName=users[0]['UserName']

3、獲取要爬蟲的網頁物件


   start_html = requests.get(url)   
   soup = BeautifulSoup(start_html.text, 'lxml')

4、解析網頁內容併發送

 list=soup.find_all(attrs={'class': 'post'})
    url=soup.find(attrs={'class': 'next'}).get('href')
    for i in list:
         content=str(i.find(attrs={'class': 'post-title'}).get_text())+\
                 str(i.find(attrs={'class': 'post-content'}).get_text())
                 itchat.send(content, toUserName=userName)

其中

url=soup.find(attrs={'class': 'next'}).get('href')

是獲取下一頁的連結，本想實現微信輸入下一頁，自動傳送下一頁網頁內容，但是沒能實現。
5、獲取對方微信傳送的內容，根據內容拼接網頁連線，呼叫傳送程式。

@itchat.msg_register(itchat.content.TEXT)
def print_content(msg):
    y=str(msg['Text']) 
    url='http://duanziwang.com/category/%E7%BB%8F%E5%85%B8%E6%AE%B5%E5%AD%90/{}/'
    url=url.format(y)
    send(str(url))

6、由於這個網頁總共40多頁，所以微信輸入的數字要在這之內，輸入其他內容，不會爬取網頁內容。另外，為了方便測試，可以將傳送物件改為檔案傳輸助手，程式碼如下：

import itchat
import requests
from bs4 import BeautifulSoup

itchat.auto_login(enableCmdQR='-1',hotReload=True)

def send(url):
    #users=itchat.search_friends(name=u'filehelper')
    #userName=users[0]['UserName']
    start_html = requests.get(url)   
    soup = BeautifulSoup(start_html.text, 'lxml')
    list=soup.find_all(attrs={'class': 'post'})
    url=soup.find(attrs={'class': 'next'}).get('href')
    for i in list:
         content=str(i.find(attrs={'class': 'post-title'}).get_text())+\
                 str(i.find(attrs={'class': 'post-content'}).get_text())
         itchat.send(content, toUserName='filehelper')
@itchat.msg_register(itchat.content.TEXT)
def print_content(msg):
    y=str(msg['Text']) 
	if y.isdigit():    
		url='http://duanziwang.com/category/%E7%BB%8F%E5%85%B8%E6%AE%B5%E5%AD%90/{}/'
    	url=url.format(y)
    	send(str(url))  
itchat.run()

Python爬蟲段子網全程式碼

程式碼如下： import itchat import requests from bs4 import BeautifulSoup itchat.auto_login(enableCmdQR='-1',hotReload=True) def send(url): users

python爬蟲和網絡營銷等場景下更換本地IP地址的幾種辦法

log 批量操作 lan 去百度 body 小說賬號常用註冊想必大家在使用python爬蟲和在網絡營銷中註冊多個賬號等操作時，都遇到過IP限制的問題。這個IP不是小說動漫娛樂電影等IP，而是計算機的IP。道高一尺，魔高一丈。系統再怎麽牛也是程序員哥哥敲出來的。之前牛

python 爬蟲下載網易歌單歌曲

python 爬蟲下載網易歌單歌曲可以根據歌單 id 來下載歌單中的所有音樂，付費音樂除外可以自己輸入歌單 id 來進行單個歌單下載，也可以結合上一篇文章爬取網易雲音樂所有歌單資訊先取到所有的歌單資訊，在進行所有歌單中的歌曲下載爬

如何讓python idle自動補全程式碼

在安裝目錄下有Lib\idlelib 目錄下面的idle.py ;idle.pyw 就是idle的主要程式（其實最後呼叫的是pyshell.py）要開啟自動完成功能主要步驟是開啟目錄下的config-extensions.def檔案 [AutoComplete

堪稱史上最強的python爬蟲，10行程式碼採集B站全部視訊！

安裝 you-get pip3 install you-get #!/usr/bin/env python -- coding:utf-8 -- import sys import you_get import os ‘’’ -O 檔名 -o 檔案儲存路徑 –debug d

小白都懂的Python爬蟲之網易雲音樂下載

微信又改版了，為了方便第一時間看到我們的推送，請按照下列操作，設定“置頂”：點選上方藍色字型“程

python爬蟲xpath針對json程式碼的分析方法

本文學會使用多程序爬取的map方法，json提取頁面內容方法，xpath解析頁面的方法： http://tieba.baidu.com/p/3522395718?pn=1 頁面程式碼： <div class="l_post j_l_post l_post_bright

python爬蟲三大解析資料方法：xpath 及爬段子網案例

下載 pip install lxml 瀏覽器外掛外掛xpath安裝，XPath Helper 瀏覽器快捷鍵control+shift+x 用於測試自己的xpath是否寫對了注意 etree建立物件時 etree.parse('本地路徑') 或 et

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

零基礎自學Python 3開發網絡爬蟲(二): 用到的數據結構簡介以及爬蟲Ver1.0 alpha

ket org doc link rtu 出隊網站 pytho 支持上一回, 我學會了用偽代碼寫出爬蟲的主要框架; 用Python的urllib.request庫抓取指定url的頁面; 用Python的urllib.parse庫對普通字符串轉符合url的字符串.

大數據實戰課程第一季Python基礎和網絡爬蟲數據分析

網頁爬蟲大數據實戰課程第一季Python基礎和網絡爬蟲數據分析網盤地址：https://pan.baidu.com/s/1qYdWERU 密碼: yegz課程共10章，66小節本課程面向從未接觸過Python的學員，從最基礎的語法開始講起，逐步進入到目前各種流行的應用。整個課程分為基礎和實戰兩個單元。基礎部分

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

Python基礎和網絡爬蟲數據分析

Python Python基礎和網絡爬蟲數據分析分享下載地址——https://pan.baidu.com/s/1c17R2NY密碼: mgbd 內容簡介本課程面向從未接觸過Python的學員，從最基礎的語法開始講起，逐步進入到目前各種流行的應用。整個課程分為基礎和實戰兩

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

python 爬蟲--糗事百科段子

decode imp rst -a paragraph 糗事百科 mozilla ont ner import reimport urllib.requestfrom docx import Documentheader=("User-Agent",‘User-Agent:

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python爬蟲--下載煎蛋網妹子圖到本地

eve 元素 download down find .get fault log arc 1 #coding:utf-8 2 """ 3 下載煎蛋妹子到本地，通過selenium、正則表達式、phantomjs、Beautifulsoup實現 4 """ 5

Python爬蟲段子網全程式碼

相關推薦