補交作業

阿新 • • 發佈：2018-05-25

pos tps etc node ports nts info 內容 encoding

詞頻統計預處理
下載一首英文的歌詞或文章
將所有,.？！’:等分隔符全部替換為空格
將所有大寫轉換為小寫
生成單詞列表
生成詞頻統計
排序
排除語法型詞匯，代詞、冠詞、連詞
輸出詞頻最大TOP10

按 Ctrl+C 復制代碼按 Ctrl+C 復制代碼

截圖：

技術分享圖片

中文詞頻統計

下載一長篇中文文章。

從文件讀取待分析文本。

news = open(‘gzccnews.txt‘,‘r‘,encoding = ‘utf-8‘)

安裝與使用jieba進行中文分詞。

pip install jieba

import jieba

list(jieba.lcut(news))

生成詞頻統計

排序

排除語法型詞匯，代詞、冠詞、連詞

輸出詞頻最大TOP20

按 Ctrl+C 復制代碼按 Ctrl+C 復制代碼

技術分享圖片

網絡爬蟲基礎練習

0.可以新建一個用於練習的html文件，在瀏覽器中打開。

1.利用requests.get(url)獲取網頁頁面的html文件

import requests

newsurl=‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘

res = requests.get(newsurl) #返回response對象

res.encoding=‘utf-8‘

2.利用BeautifulSoup的HTML解析器，生成結構樹

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text,‘html.parser‘)

3.找出特定標簽的html元素

soup.p #標簽名，返回第一個

soup.head

soup.p.name #字符串

soup.p. attrs #字典，標簽的所有屬性

soup.p. contents # 列表，所有子標簽

soup.p.text #字符串

soup.p.string

soup.select(‘li‘)

4.取得含有特定CSS屬性的元素

soup.select(‘#p1Node‘)

soup.select(‘.news-list-title‘)

5.練習：

取出h1標簽的文本
取出a標簽的鏈接
取出所有li標簽的所有內容
取出第2個li標簽的a標簽的第3個div標簽的屬性

取出一條新聞的標題、鏈接、發布時間、來源

# -*- coding : UTF-8 -*-
# -*- author : onexiaofeng -*-
import requests
url=‘http://localhost:63342/hello/venv/lz.html?_ijt=l26l1kkfr4kkmba1tsi16auibm‘
res=requests.get(url)
res.encoding=‘utf-8‘
res.text

from bs4 import BeautifulSoup
soup=BeautifulSoup(res.text,‘html.parser‘)
soup

print(soup.h1.text)
print(soup.a[‘href‘])
for i in soup.select(‘li‘):
    print(i)
print(soup.select(‘li‘)[1].a.select(‘div‘)[2].attrs)
print(‘標題：‘+soup.select(‘.news-list-title‘)[0].text)
print(‘鏈接：‘+soup.select(‘a‘)[2][‘href‘])
print(‘發布時間：‘+soup.select(‘.news-list-info‘)[0].span.text)
print(‘來源：‘+soup.select(‘.news-list-info‘)[0].select(‘span‘)[1].text)

截圖：

技術分享圖片

1.取出一個新聞列表頁的全部新聞包裝成函數。

2.獲取總的新聞篇數，算出新聞總頁數。

3.獲取全部新聞列表頁的全部新聞詳情。

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re

#獲得新聞點擊次數
def getclick(link):
    newId = re.search(‘\_(.*).html‘, link).group(1).split(‘/‘)[1]
    click = requests.get(‘http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80‘.format(newId))
    return click.text.split(‘.html‘)[-1].lstrip("(‘").rstrip("‘);")


def getnewsdetail(link):
        resd = requests.get(link)
        resd.encoding = ‘utf-8‘
        soupd = BeautifulSoup(resd.text, ‘html.parser‘)

        content=soupd.select(‘.show-content‘)[0].text
        info=soupd.select(‘.show-info‘)[0].text
        clickcount = getclick(link)
        time=re.search(‘(\d{4}.\d{2}.\d{2}\s\d{2}.\d{2}.\d{2})‘,info).group(1)
        if (info.find(‘作者‘) > 0):
            author = re.search(‘作者：((.{2,4}\s|.{2,4}、|.{2,4}，|\w*\s){1,5})‘, info).group(1)
        else:
            author = ‘none‘
        if (info.find(‘審核‘) > 0):
            auditing = re.search(‘審核：((.{2,4}\s|.{2,4}、|.{2,4}，|\w*\s){1,5})‘, info).group(1)
        else:
            auditingr = ‘none‘
        if (info.find(‘來源：‘) > 0):
            source = re.search(‘來源：(.*)\s*攝|點‘, info).group(1)
        else:
            source = ‘none‘
        dateTime=datetime.strptime(time,‘%Y-%m-%d %H:%M:%S‘)


        print(‘發布時間:{0}\n作者：{1}\n審核：{2}\n來源：{3}\n點擊次數：{4}‘.format(dateTime,author,auditing,source,clickcount))
        print(content)

def getlistpage(listlink):
    res=requests.get(listlink)
    res.encoding=‘utf-8‘
    soup=BeautifulSoup(res.text,‘html.parser‘)

    for news in soup.select(‘li‘):
        if (len(news.select(‘.news-list-title‘)) > 0):
            title = news.select(‘.news-list-title‘)[0].text
            description = news.select(‘.news-list-description‘)[0].text
            link = news.a.attrs[‘href‘]
            print(‘新聞標題：{0}\n新聞描述：{1}\n新聞鏈接：{2}‘.format(title,description,link))
            getnewsdetail(link)
            break

listlink=‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘

from datetime import datetime
getlistpage(listlink)
res=requests.get(listlink)
res.encoding=‘utf-8‘
soup=BeautifulSoup(res.text,‘html.parser‘)
listCount = int(soup.select(‘.a1‘)[0].text.rstrip(‘條‘))//10+1

for i in range(2,listCount):
    listlink=‘http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html‘.format(i)
    getlistpage(listlink)

4.找一個自己感興趣的主題，進行數據爬取，並進行分詞分析。不能與其它同學雷同。

# -*- coding: UTF-8 -*-
# -*- author: yjw -*-
import requests
import re
import jieba
from bs4 import BeautifulSoup
from datetime import datetime

def getnewdetail(link):
    res=requests.get(link)
    res.encoding=‘gb2312‘
    soup=BeautifulSoup(res.text,‘html.parser‘)
    Alltext=len(soup.select(".text"))
    content=‘‘
    for p in range(0,Alltext):
        content+=soup.select(‘.text‘)[p].text+‘\n‘
    if(Alltext>0):
        print(content+"\n詞頻統計：")
        delword={[‘我‘, ‘他‘, ‘你‘, ‘了‘, ‘那‘, ‘又‘, ‘-‘, ‘的‘, ‘我們‘, ‘是‘, ‘但‘, ‘中‘, ‘這‘, ‘在‘, ‘也‘, ‘都‘, ‘而‘,‘你‘,‘ ‘,‘我‘,‘我們‘, ‘他‘, ‘他們‘, ‘我的‘, ‘他的‘, ‘你的‘, ‘呀‘, ‘和‘, ‘是‘,‘，‘,‘。‘,‘：‘,‘“‘,‘”‘,‘的‘,‘啊‘,‘?‘,‘在‘,‘了‘,           ‘說‘,‘去‘,‘與‘,‘不‘,‘是‘,‘、‘,‘也‘,‘又‘,‘！‘,‘著‘,‘兒‘,‘這‘,‘到‘,‘就‘, ‘\n‘,‘(‘,‘)‘,‘那‘,‘有‘,‘上‘,‘便‘,‘和‘,‘只‘,‘要‘,‘小‘,‘罷‘,‘那裏‘,           ‘…‘,‘一個‘,‘？‘,‘人‘,‘把‘,‘被‘,‘她‘,‘都‘,‘道‘,‘好‘,‘還‘,‘’‘,‘‘‘,‘呢‘,‘來‘,‘得‘,‘你們‘,‘才‘,‘們‘
                   ‘\n‘, ‘，‘, ‘。‘, ‘？‘, ‘！‘, ‘“‘, ‘”‘, ‘：‘, ‘；‘, ‘、‘, ‘.‘, ‘‘‘, ‘’‘, ‘（‘, ‘）‘, ‘ ‘, ‘【‘, ‘】‘, ‘…‘]
        }
        word={}
        newscontent=list(jieba.cut(content))
        wordfit=set(newscontent)-set(delword)
        for i in wordfit:
            word[i]=newscontent.count(i)
        text = sorted(text3.items(), key=lambda x: x[1], reverse=True)
        for i in range(20):
            print(text[i])
    else:
        print(‘picture‘)

def getnewlist(link):
    res=requests.get(link)
    res.encoding=‘gb2312‘
    soup=BeautifulSoup(res.text,‘html.parser‘)
    for newlist in soup.select(‘.listInfo‘)[0].select(‘li‘):
        title = newsList.select(‘a‘)[0].text
        time = newsList.select(‘.info‘)[0].select(‘p‘)
        link = newsList.select(‘a‘)[0][‘href‘]
        print(‘\n新聞標題：{0}\n發表時間:{1}\n新聞鏈接:{2}\n‘.format(title, time, link))
        getnewdetail(link)

link=‘http://sports.qq.com/a/20180411/020544.htm‘
getnewlist(link)
for i in range(1,20):
    if(i==1):
        getnewlist(link)
    else:
        link="http://sports.qq.com/a/20180411/020544_{}.htm".format(i)
        getnewslist(link)

補交作業

pos tps etc node ports nts info 內容 encoding 詞頻統計預處理下載一首英文的歌詞或文章將所有,.？！’:等分隔符全部替換為空格將所有大寫轉換為小寫生成單詞列表生成詞頻統計排序排除語法型詞匯，代詞、冠詞、連詞輸出詞頻最

大作業+補交作業

www reverse 單詞 import 總頁數 title text 字符 utf-8 詞頻統計預處理下載一首英文的歌詞或文章將所有,.？！’:等分隔符全部替換為空格將所有大寫轉換為小寫生成單詞列表生成詞頻統計排序排除語法型詞匯，代詞、冠詞、連詞輸出詞

2018.10.24之前補交作業及17章專案

14章 1.根據目錄結構myjava/practice1/Foo.java,寫出Foo類的包名。包名：practice1 2.改寫第12章中簡答題第3題中的計算機類（Calculator）。要求將加減乘除的方法改寫成帶參方法，在定義一個運算方法 ope(),接收使用者的運算和兩個數

10號團隊-團隊任務4：每日立會（2018-11-27）26補交作業

團隊序號：10 開發專案：家庭賬本日期：2018年11月26日撰寫人：楊興凡（專案經理）團隊成員：專案經理：楊興凡產品經理：俞明軒 UI設計師：趙世博軟體開發工程師：楊陽楊本興楊鑫海楊笑團隊彙報（圖片）：進度：現在基本的APP框架已經搭建完成，目前四位

第二周作業補交

原因提問的智慧程序程序崩潰就會技術 code har spa 提問的智慧感想：不懂就問是一種好的學習習慣，但是只是懂得提問而自己不進行思考就會使自己喪失自學的能力。在提問時我們也應該註重以下幾點問題： 1.提問的問題應該經過自己認真的思考而不會的

20165328 課上作業補交

master 保存 pos 等於使用 ref 代碼 post str 一、相關知識點的總結： 1、源文件的編寫和保存 2、cmd的使用 3、編譯與運行 4、碼雲上傳代碼二、課上內容的補做及結果截圖： 1、帶包的代碼編譯運行測試：截圖如下： 2、教材代碼完成測試p

20165118 課後作業補交

打包 cnblogs png bubuko inf blog log 課後作業 alt 上課的時候不會打包，所以沒做出來，後面的題也沒做了。 20165118 課後作業補交

階段作業1：完整的中英文詞頻統計+補交上次作業

#補交作業 cc = ('''Counting stars Lately I've been, I've been losing sleep 　　 Dreaming 'bout the things that we could be 　　 But baby I've been, I've been p

第4次作業類測試代碼+105032014045+楊銘河

rfi color too efi rgs text blog ace val 1、類圖： 2、代碼：（1）計算類： class Arithmetic{　　//邏輯計算類 private int headphoneNum; private int

第4次作業類測試代碼+019+李悅洲

stack app static jlabel field ted temp 函數 private 類圖：代碼： package swingDesign; import java.awt.EventQueue; import javax.swing.JFra

第四次作業測試代碼+018+李濱

double adapt scan 類圖 handle 作業 () || != 一、類圖二、代碼 import java.util.Scanner; public class homeWork01 { public static String triangle(S

Chapter_4_JAVA作業

語言修改屬性暴露復習 pub https ani ++ package 一.類的封裝，繼承與多態 1.課前預習 1.1 舉列現實生活中的封裝，以及簡述在程序中什麽是屬性的封裝？　　1.1.1 將東西捆綁在一起，如集成芯片；高壓電線等等　　1.1.2 封裝就

作業08之《MVC實現用戶權限》

用戶驗證配置配置文件接收登錄頁面模型 mode mvc 驗證 1. 賦給用戶一個userid，在用戶角色表將用戶和角色關聯起來，在角色權限表中將角色和權限對應起來，權限表中存儲的是左邊菜單欄的名稱。 2. 在判斷權限時，通過用戶的userid，獲取其角色id，然後

數據結構與算法第10周作業——二叉樹的創建和遍歷算法

技術分享 truct order traverse eof 結構後序遍歷 lib void 一、二叉樹的創建算法（遞歸方式）二、二叉樹的先序、中序和後序遍歷算法 #include<stdio.h>#include<stdlib.h>typedef

數據結構-第10周作業（二叉樹的創建和遍歷算法）

樹的創建創建 -1 數據結構二叉分享 com jpg 遍歷算法數據結構-第10周作業（二叉樹的創建和遍歷算法）

數據庫第十一周作業

數據 logs alt .com http 第十一周作業 images log 技術數據庫第十一周作業

python第二節作業

python 字符串 1.2.答案：數字+字符串相加會報錯，原因兩者不屬於一個類型，不能相加。需轉換其中一個後可以加或組合；3.序列類型可以相互轉換，要註意字符串str、列表list、元組tuple本文出自 “萬物互聯” 博客，請務必保留此出處http://shujuliu.blog.51cto.co

團隊作業6-展示博客

ble git 目的查錯 odin odi yun 但是技術分享團隊作業6-展示博客 1、團隊成員的簡介和個人博客地址，團隊的源碼倉庫地址徐璨：http://www.cnblogs.com/xucan0110/ 申悅：htt

團隊作業5——測試與發布（Alpha版本）

發布說明實現 http 基礎相差還需導致延遲要求 Alpha版本測試報告一、測試找出的bug （1）練習模式的測試在測試中發現的bug如下： ① 連續兩個運算數當做一個處理（如1和2連續輸入當做12處理） ② 練習模式沒有提示答案 ③

團隊作業6——展示博客（Alpha版本）

版本需求教師培養描述美工設計拷貝 nbsp 平衡團隊成員介紹：蘇上鑫（2014211123081）：吳偉君（2014211123080）：周峰（201421123090）：http://www.cnblogs.com/Mr-zfmmm/周誌強（20142112

補交作業

中文詞頻統計

網絡爬蟲基礎練習

相關推薦