使用簡單的python語句編寫爬蟲定時拿取信息並存入txt

阿新 • • 發佈：2018-05-03

item line 簡單 ror article 5.5 quest win tail

# -*- coding: utf-8 -*-    #解決編碼問題
import urllib
import urllib2
import re
import os
import time

page = 1
url = ‘http://www.qiushibaike.com/text/page/4/?s=4970196‘     #爬取的目標網站
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘
headers = { ‘User-Agent‘ : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    # print response.read()
    content = response.read().decode(‘utf-8‘)  #解決編碼問題
    pattern = re.compile(r‘<div.*?class="content".*?<span>(.*?)</span>.*?</div>‘,re.S)  #第一個參數是匹配要爬取的內容,這裏使用正則去匹配
    items = re.findall(pattern,content)   
    f=open(r‘.\article.txt‘,‘ab‘)       #txt文件路徑
    nowTimes = time.strftime(‘%Y-%m-%d %H:%M:%S‘,time.localtime(time.time()))    #獲取當前時間
    f.write(‘時間:{}\n\n‘.format(nowTimes),);   #txt文件中寫入時間
    for i in items:
        i.encode(‘utf-8‘)
        agent_info = u‘‘.join(i).encode(‘utf-8‘).strip()
        f.writelines(‘段子:%s%s\n‘%(str(agent_info),os.linesep))   #分行存入
        # f.write(‘%s‘%str(agent_info))
    f.close()   

    # print items

except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason


布置定時任務使用crontab。 (具體crontab使用方法可見http://blog.csdn.net/daivon_up/article/details/71266814):

item line 簡單 ror article 5.5 quest win tail # -*- coding: utf-8 -*- #解決編碼問題import urllibimport urllib2import reimport osimport timepag

使用簡單的python語句編寫爬蟲定時拿取資訊並存入txt

echo2.py # -*- coding: utf-8 -*- #解決編碼問題 import urllib import urllib2 import re import os import

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

python 爬蟲抓豆瓣電影，並存入資料庫

import urllib.request import json import codecs class info(object): #@classmethod def moviedown(url): #網址 url = "https://m

微信小程序--通過請求網頁獲取信息並顯示

data- png itl nload var faq 進一步 div src 效果描述：按動主頁按鈕跳轉至列表頁，在列表頁顯示請求網頁所獲取的信息，並通過所得信息的id的不同，鏈接到不同的網頁進一步獲取不同信息。觸碰按鈕跳轉至列表頁觸碰表題按鈕跳轉至詳情頁，其中不同的

ajax從服務器獲取信息並拼接顯示在table

姓名 thead nbsp 進行 head 信息準備 script oca 1、頁面代碼 <body> <h1>顯示所有員工信息</h1> <div> <table clas

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

5行python代碼實現簡單的網絡爬蟲

結果 auto itl max nbsp gitbook 代碼實現 roc 分享圖片 1、python代碼如下圖，我們從http://gitbook.cn/這網站中爬取數據。2、運行上圖代碼之前要下載安裝好chardet和requests安裝包，可以在我的博客裏免費下載這兩

使用python request編寫簡單的接口測試

實例化接口 tex .post lse arp quest ini user 使用requests請求獲取返回數據封裝成函數封裝成類一、使用requests請求post返回的數據 import requests import json # data={ #

Python代理IP爬蟲的簡單使用

前言 Python爬蟲要經歷爬蟲、爬蟲被限制、爬蟲反限制的過程。當然後續還要網頁爬蟲限制優化，爬蟲再反限制的一系列道高一尺魔高一丈的過程。爬蟲的初級階段，新增headers和ip代理可以解決很多問題。本人自己在爬取豆瓣讀書的時候,就以為爬取次數過多,直接被封了IP.後來就研究了代理IP的問題. (

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

從今天開始學習爬蟲，展示我的第一個例項（用的是Python3寫的，Python2需要加個編碼方式吧，或許還有其他的不相容的地方吧，我就不知道了），把這分享給大家，希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

python 特別簡單的一個小爬蟲（看著玩吧）

環境：python3.5 bs4 lxml這是需要安裝的使用urllib模組來訪問頁面 bs4解析頁面，存到*.txt檔案中 #-*- coding:utf-8 -*- import urllib.reques

零基礎寫python爬蟲之使用Scrapy框架編寫爬蟲

https://www.jb51.net/article/57183.htm 前面的文章我們介紹了Python爬蟲框架Scrapy的安裝與配置等基本資料，本文我們就來看看如何使用Scrapy框架方便快捷的抓取一個網站的內容，隨便選個小站（dmoz.org）來示例吧網

python 3編寫貼吧圖片下載程式（超簡單）

業餘時間初學者作品，大佬勿噴，程式碼都很簡單。py檔案打包成exe教程：python3.7 打包成exe程式，程式體驗下載地址：先上效果圖啟動後是這樣的：按提示輸入內容執行後是這樣的：上程式碼（基本都是最基本的語法，不多解釋了）： import

python爬蟲定時增量爬取資料

解決要點： 1.定時更新 2.增量爬取以上兩個技術關鍵點均可基於scrapy開源爬蟲框架擴充解決解決 1.定時爬取在linux下使用crontab來執行scrapy定時爬取的需求。 Crontab命令是Unix系統和類Unix系統中，用來設定週期性執行的

python學習之簡單python爬蟲

參考文章來源：基本算是第一次使用python寫程式碼，所以直接參考了已有的部落格的編寫過程。依然遇到了問題：問題一： urllib 和 urllib2的區別有哪些？用urllib2獲取到網頁內容後，不能對內容進行read()操作。但是使用urll

Oracle資料庫:編寫簡單SQL語句-第二章

--查詢所有列 *代表表格中所有的列 select * from emp;select * from dept;--效率不高 select empno,ename,job,mgr,hiredate,sal,comm, deptno from emp;--效率高查詢指定

Effective Python之編寫高質量Python程式碼的59個有效方法 python究竟要不要使用多執行緒網路爬蟲必備知識之concurrent.futures庫 Python之用虛擬環境隔離專案，並重建依賴關係

python 編寫爬蟲常用包下載地址、工具網站以及相關安裝問題集合（持續更新）

轉載請標明出處，謝謝。以下連結出現問題請私戳或留言，我儘快解決。免費代理ip網站: http://www.xicidaili.com/nn/ geckodriver 下載地址: https://github.com/mozilla/geckodrive

Python爬蟲系列（四）（簡單）Dota排行榜爬取，並存入Excel表格

在編寫Python程式的時候，有很多庫供我們選擇，如urllib、requests，BeautifulSoup，lxml，正則表示式等等，使得我們在獲取網頁原始碼或者選擇元素的時候

使用簡單的python語句編寫爬蟲 定時拿取信息並存入txt

相關推薦

使用簡單的python語句編寫爬蟲定時拿取信息並存入txt