第4.3章 request爬取小學3000詞語

阿新 • • 發佈：2018-12-20

爬蟲並不是一定要用scrapy框架，下面介紹的這個就是通過requests直接獲取的，程式碼如下生成田字格的程式碼參考第4.1章給小朋友寫的飛鳥集打亂後組詞的爬蟲

import requests
import os
import re
from pyquery import PyQuery as pq
from word_deal.primary_spelling import to_doc,duplicate_removal

OUT_PATH = 'G:\\dzmfile\\pythonwork\\small_routine\\others\\out\\'

def gen_yuwen_txt 
(xx_name):
    r = requests.get('http://k.sina.com.cn/article_6429307123_17f3770f30010033nv.html?from=baby')
    soup = pq(r.content)
    lines = soup('#artibody p>font')
    paras = []
    for line in lines:
        paras.append(pq(line).text())
    # 過濾包含數字的，因為文章中包含數字的，才是真實有效的數字
    paras = filter(lambda 
 x:re.findall('\d',x),paras)
    file = open(xx_name,'w',encoding='utf-8')
    for para in paras:
    	# 有些錯別字的需要糾正
        para = para.replace('識字','')
        file.writelines(para+'\n')
    file.close()

def get_lines(xx_name):
    lines = []
    file = open(xx_name,encoding='utf-8')
    lines = file 
.readlines()
    file.close()
    return lines

def gen_by_nianji(xx_name):
    lines = get_lines(xx_name)
    # 根據關鍵字獲取索引，才好匹配出對應生字內容
    # 一年級
    up_index_1 = lines.index('一年級上冊生字： 100個\n')
    down_index_1 = lines.index('一年級下冊生字：250個\n')
    # 二年級
    up_index_2 = lines.index('二年級上冊生字：350個\n')
    down_index_2 = lines.index('二年級下冊生字：300個\n')
    # 三年級
    up_index_3 = lines.index('三年級上冊生字300個\n')
    down_index_3 = lines.index('三年級下冊生字300個\n')
    # 四年級
    up_index_4 = lines.index('四年級上冊生字200個\n')
    down_index_4 = lines.index('四年級下冊生字200個\n')
    # 五年級
    up_index_5 = lines.index('五年級上冊生字150個\n')
    down_index_5 = lines.index('五年級下冊生字150個\n')
    # 六年級
    up_index_6 = lines.index('六年級上冊生字80個\n')
    down_index_6 = lines.index('六年級下冊生字80個\n')
    # 逐年生成
    words10 = get_words(lines[up_index_1:down_index_1])
    words11 = get_words(lines[down_index_1:up_index_2])
    words20 = get_words(lines[up_index_2:down_index_2])
    words21 = get_words(lines[down_index_2:up_index_3])
    words30 = get_words(lines[up_index_3:down_index_3])
    words31 = get_words(lines[down_index_3:up_index_4])
    words40 = get_words(lines[up_index_4:down_index_4])
    words41 = get_words(lines[down_index_4:up_index_5])
    words50 = get_words(lines[up_index_5:down_index_5])
    words51 = get_words(lines[down_index_5:up_index_6])
    words60 = get_words(lines[up_index_6:down_index_6])
    words61 = get_words(lines[down_index_6:])
    to_pinyin(words10, '一年級上冊')
    to_pinyin(words11, '一年級下冊')
    to_pinyin(words20, '二年級上冊')
    to_pinyin(words21, '二年級下冊')
    to_pinyin(words30, '三年級上冊')
    to_pinyin(words31, '三年級下冊')
    to_pinyin(words40, '四年級上冊')
    to_pinyin(words41, '四年級下冊')
    to_pinyin(words50, '五年級上冊')
    to_pinyin(words51, '五年級下冊')
    to_pinyin(words60, '六年級上冊')
    to_pinyin(words61, '六年級下冊')

def get_words(lines):
	# 過濾出以數字開頭的內容
    lines = filter(lambda x:re.match(r'^\d',x),lines)
    words = []
    for line in lines:
    	# 通過下面的語句過濾出包含中文字的內容
        m = re.findall(r'[\u4e00-\u9fa5]+',line)
        words.append(str(m))
    return words

def to_pinyin(paragraphs,file_name):
    words = duplicate_removal(paragraphs)
    file_name = file_name+'.docx'
    to_doc(list(words),file_name)

if __name__ == '__main__':
    xx_name = 'G:\\dzmfile\\pythonwork\\small_routine\\others\\in\\xx.txt'
    gen_yuwen_txt(xx_name)
    gen_by_nianji(xx_name)

第4.3章 request爬取小學3000詞語

爬蟲並不是一定要用scrapy框架，下面介紹的這個就是通過requests直接獲取的，程式碼如下生成田字格的程式碼參考第4.1章給小朋友寫的飛鳥集打亂後組詞的爬蟲 import requests import os import re from pyquery

第八篇編寫spider爬取jobbole的所有文章

strip 狀態第一個 lds ont style cnblogs pycha 目標通過scrapy的Request和parse，我們能很容易的爬取所有列表頁的文章信息。 PS:parse.urljoin（response.url，post_url）的方法有個好處,

構建之法第4.17章讀書筆記

4.3 pan 快捷鍵設計規範快捷代碼討論程序不知道第四章：兩人合作問題1：4.2中註釋這一版塊，因為之前有學長跟我強調過代碼規範的問題，所以對這方面比較重視，後來當使用每個IDE的時候，都會去註意代碼縮進的快捷鍵，比如IDEA的Ctrl+Alt+L等等

《構建之法》第4.17章讀書筆記

martin orm 科學說過事件比較筆記虛擬負責人《構建之法》第4.17章讀書筆記第四章原文語句：異常不能跨過DLL或進程的邊界來傳遞信息，所以異常不是萬能的。提出問題： 1.什麽是DLL？DLL是來解決什麽問題的？

Request爬取網站（seo.chinaz.com）百度權重的查詢結果

save 網址 gecko rom 圖片頁面隨機數 user gen 一：腳本需求利用Python3查詢網站權重並自動存儲在本地數據庫（Mysql數據庫）中，同時導出一份網站權重查詢結果的EXCEL表格數據庫類型：MySql 數據庫表單名稱：website_w

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

彙編第4,5章

第4章一個源程式從寫出到執行的過程： 1,。編譯彙編源程式（產生一個儲存源程式的文字檔案） 2.對源程式進行編譯連線（生成可執行檔案包括程式和資料以及相關的描述資訊） 3.執行二。彙編源程式框架： assume cs:codesg codesg segment &

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？ 1. 背景根據scrapy-redis分散式爬蟲的原理，多臺爬蟲主機共享一個爬取佇列。當爬取佇列中存在request時，爬蟲就會取出request進行爬取，如果爬取佇列中不存在request時，爬蟲就會處於等待狀

Tensorflow實戰Google深度學習框架第1-3章總結

Tensorflow實戰Google深度學習框架第1章深度學習簡介深度學習在NLP上的應用： 1.語言模型 2.機器翻譯 3.詞性標註 4.實體識別 5.情感分析 6.廣告推薦 7.搜尋排序語料庫： WordNet, ConceptN

python爬蟲（3）——python爬取大規模資料的的方法和步驟

python爬取大規模資料的的方法和步驟：一、爬取我們所需要的一線連結 channel_extract.py 這裡的一線連結也就是我們所說的大類連結： from bs4 import BeautifulSoup import requests

python 3.3 爬蟲之爬取圖片

今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼，之前用正則也寫了一個，感覺用BeautifulSoup 更簡單了 import urllib import urllib.request as request from bs4 import Bea

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

Python 3.6 爬蟲爬取豆瓣《孤芳不自賞》短評

使用Python 3.6 進行對《孤芳不自賞》這部作品的短評爬取點選這個連線我們可以進入該作品短評頁面這裡還沒有登入豆瓣。登入豆瓣之後，才能爬取更多的頁面。因此我們選擇登入，最快捷省時的辦法，就是在登入時使用F12進行檢視cookies。

學習《JavaScript經典例項》之第1~3章

《JavaScript經典例項》各節中的完整程式碼解決了常見的程式設計問題，並且給出了在任何瀏覽器中構建Web應用程式的技術。只需要將這些程式碼示例複製並貼上到你自己的專案中就行了，可以快速完成工作，並且在此過程中學習JavaScript的很多知識。

反貪風暴4-貓眼影評從爬取到可視化

ffffff 而且 hidden pro 請求 -a nts dcloud ech 我感覺學習python有一個階段就是熟悉它的各種第三方庫的使用，這次我們用jieba分詞，用wordcloud生成詞雲，用pyecharts生成柱狀圖，來看看吧~ 若您有需要，所有文件已上

第十一講：爬取貓眼網站上的前100名電影

本次我們來通過翻頁爬取的方式爬取貓眼電影裡面推薦的前100名電影，並存儲到資料庫。 1、我們登入貓眼，看下我們的資料在哪裡

第十講：Python爬取網頁圖片並儲存到本地，包含次層頁面

上一講我們講到了從暱圖網的首頁下載圖片到本地，但是我們發現首頁上面的大部分連結其實都可以進入到二級頁面。在二級頁面裡面，我們也

Spring 實戰-第四章-4.3 Introductions&@DeclareParents

frame 轉換 ret ger ted integer cati override pub @DeclareParents非常有意思，單獨拿出來，這個可以給實現相同接口的類增加新的共同接口，這樣在不侵入原有代碼的情況下，轉換成其他類型並擁有新的方法。這個功能在Sp

第四章數據更新 4-3 事務

能夠 .com 約束 cit info data 設置完整性此外一、什麽是事務在RDBMS中，事務是對表中數據進行更新的單位。簡單來說，事務就是需要在同一個處理單元中執行的一系列更新處理的集合。二、創建事務事務的開始語言：例子：事務結束的命令

第4章：作為Servlet：請求和響應/4.3 響應

響應內容型別為什麼要設定內容型別？這個瀏覽器要根據這個型別進行相關操作，比如如果是視訊型別，要呼叫視訊播放軟體；如果是位元組流要啟動下載程式；伺服器為什麼不能根據資源型別或者檔案型別自動設定內容型別呢？因為是在servlet中的doGet或者doPost方法中向響應

第4.3章 request爬取小學3000詞語

相關推薦