使用簡單的python語句編寫爬蟲定時拿取資訊並存入txt

阿新 • • 發佈：2019-01-08

echo2.py

# -*- coding: utf-8 -*-    #解決編碼問題
import urllib
import urllib2
import re
import os
import time

page = 1
url = 'http://www.qiushibaike.com/text/page/4/?s=4970196'     #爬取的目標網站
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    # print response.read() 

    content = response.read().decode('utf-8')  #解決編碼問題
    pattern = re.compile(r'<div.*?class="content".*?<span>(.*?)</span>.*?</div>',re.S)  #第一個引數是匹配要爬取的內容,這裡使用正則去匹配
    items = re.findall(pattern,content)   
    f=open(r'.\article.txt','ab')       #txt檔案路徑
    nowTimes = time.strftime('%Y-%m-%d %H:%M:%S' 
,time.localtime(time.time()))    #獲取當前時間
    f.write('時間:{}\n\n'.format(nowTimes),);   #txt檔案中寫入時間
    for i in items:
        i.encode('utf-8')
        agent_info = u''.join(i).encode('utf-8').strip()
        f.writelines('段子:%s%s\n'%(str(agent_info),os.linesep))   #分行存入
        # f.write('%s'%str(agent_info)) 

    f.close()   

    # print items

except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

* */1 * * * /usr/bin/python /home/dengwen/desktop/echo2.py

執行結果:

執行結果

本篇文章如對您有用請點選關注哦~，謝謝!

使用簡單的python語句編寫爬蟲定時拿取資訊並存入txt

echo2.py # -*- coding: utf-8 -*- #解決編碼問題 import urllib import urllib2 import re import os import

使用簡單的python語句編寫爬蟲定時拿取信息並存入txt

item line 簡單 ror article 5.5 quest win tail # -*- coding: utf-8 -*- #解決編碼問題import urllibimport urllib2import reimport osimport timepag

Python爬蟲系列（四）（簡單）Dota排行榜爬取，並存入Excel表格

在編寫Python程式的時候，有很多庫供我們選擇，如urllib、requests，BeautifulSoup，lxml，正則表示式等等，使得我們在獲取網頁原始碼或者選擇元素的時候

python學習筆記——爬蟲的抓取策略

寬度優先寬度重要 ron image alt 學習 http 技術 1 深度優先算法 2 廣度/寬度優先策略 3 完全二叉樹遍歷結果深度優先遍歷的結果：[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10] 廣度優先遍

Python網絡爬蟲：爬取古詩文中的某個制定詩句來實現搜索

它的參考文獻 lis 實現 word self 適合 odi 級別 python編譯練習，為了將自己學習過的知識用上，自己找了很多資料。所以想做一個簡單的爬蟲，代碼不會超過60行。主要用於爬取的古詩文網站沒有什麽限制而且網頁排布很規律，沒有什麽特別的東西，適合入門級別的

網路爬蟲定時爬取的相關方法

關於python的定時爬取相關方法：雖然time模組的time.sleep()方法使程式休眠來達到定時任務的目的，這樣也可以，但是總覺得不是那麼的專業，所以就使用如下python的定時任務模組APScheduler：首先安裝相關pip：pip install apscheduler

【Python】【爬蟲】爬取網易、騰訊、新浪、搜狐新聞到本地

這個實驗主要爬取新聞網站首頁的新聞內容儲存到本地，爬取內容有標題、時間、來源、評論數和正文。工具：python 3.6 谷歌瀏覽器爬取過程：一、安裝庫：urllib、requests、BeautifulSoup 1、urllib庫：Urlli

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

python 3.3 爬蟲之爬取圖片

今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼，之前用正則也寫了一個，感覺用BeautifulSoup 更簡單了 import urllib import urllib.request as request from bs4 import Bea

【Python】【爬蟲】爬取京東商品使用者評論（分析+視覺化）

----------------------------------------------------------------------------------------------------------------------------- 1：在商品頁面f1

python網絡爬蟲《爬取get請求的頁面數據》

可用 enc 搜索爬蟲程序 pre www __main__ object python網絡一、urllib庫　　urllib是python自帶的一個用於爬蟲的庫，其主要作用就是可以通過代碼模擬瀏覽器發送請求。其常被用到的子模塊在python3中的為urllib.r

Python爬蟲系列：爬取小說並寫入txt檔案

Python爬蟲系列 ——爬取小說並寫入txt檔案文章介紹瞭如何從網站中爬取小說並寫入txt檔案中，實現了單章節寫取，整本寫取，多執行緒多本寫取。爬蟲使用的python版本為python3，有些系統使用python指令執行本指令碼，可能出現錯誤，

linux下使用crontab設定scrapy爬蟲定時抓取資料

1. crontab設定定時執行程式在我們的專案中，需要從入口網站上抓取新聞資料。由於網上的新聞資料更新的速率並不是太快，所以只需要設定每天執行一遍資料抓取即可。這樣也可以利用新聞上面的時間便籤，每次只抓取當天釋出的新聞，這樣就不會出現重複了。首先我們已

Python使用Scrapy爬蟲框架爬取天涯社群小說“大宗師”全文

大宗師是著名網路小說作家蛇從革的系列作品“宜昌鬼事”之一，在天涯論壇具有超級高的訪問量。這個長篇小說於2015年3月17日開篇，並於2016年12月29日大結局，期間每天有7萬多讀者閱讀。如果在天涯社群直接閱讀的話，會被很多讀者留言干擾，如圖於是，我寫了下面的程式碼，從

Beautiful Soup爬蟲——爬取智聯招聘的資訊並存入資料庫

本人目前在校本科萌新…第一次寫有所不足還請見諒前期準備智聯招聘網頁讓我們來搜尋一下python 發現網頁跳轉到這讓我們看一下原始碼發現並沒有我們所需要的資料一開始我不信邪用requests嘗試了一下 import requests header

爬蟲：爬取圖片並儲存在某路徑下

import re import urllib.request def getHtml(url): page=urllib.request.urlopen(url) html=page.read() return html def getImg(html):

爬蟲：爬取圖片並保存在某路徑下

page err space print ont quest erro += .html import re import urllib.request def getHtml(url): page=urllib.request.urlopen(url)

python 爬蟲抓豆瓣電影，並存入資料庫

import urllib.request import json import codecs class info(object): #@classmethod def moviedown(url): #網址 url = "https://m

python嘗試從通聯資料爬取資訊並儲存在mongodb資料庫中

import pandas as pd import numpy as np import pymongo import tushare as ts ts.set_token('XXXXXXX') f

Python學習（從Web抓取資訊）

一、利用webbrowser.open()開啟一個網站： >>> import webbrowser >>> webbrowser.open('http://i.firefoxchina.cn/?from=worldindex') Tr

使用簡單的python語句編寫爬蟲 定時拿取資訊並存入txt

執行結果:

本篇文章如對您有用請點選關注哦~，謝謝!

相關推薦

使用簡單的python語句編寫爬蟲定時拿取資訊並存入txt