大作業+補交作業

阿新 • • 發佈：2018-05-28

www reverse 單詞 import 總頁數 title text 字符 utf-8

詞頻統計預處理
下載一首英文的歌詞或文章
將所有,.？！’:等分隔符全部替換為空格
將所有大寫轉換為小寫
生成單詞列表
生成詞頻統計
排序
排除語法型詞匯，代詞、冠詞、連詞
輸出詞頻最大TOP10

按 Ctrl+C 復制代碼按 Ctrl+C 復制代碼

截圖：

技術分享圖片

中文詞頻統計

下載一長篇中文文章。

從文件讀取待分析文本。

news = open(‘gzccnews.txt‘,‘r‘,encoding = ‘utf-8‘)

安裝與使用jieba進行中文分詞。

pip install jieba

import jieba

list(jieba.lcut(news))

生成詞頻統計

排序

排除語法型詞匯，代詞、冠詞、連詞

輸出詞頻最大TOP20

按 Ctrl+C 復制代碼按 Ctrl+C 復制代碼

技術分享圖片

網絡爬蟲基礎練習

0.可以新建一個用於練習的html文件，在瀏覽器中打開。

1.利用requests.get(url)獲取網頁頁面的html文件

import requests

newsurl=‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘

res = requests.get(newsurl) #返回response對象

res.encoding=‘utf-8‘

2.利用BeautifulSoup的HTML解析器，生成結構樹

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text,‘html.parser‘)

3.找出特定標簽的html元素

soup.p #標簽名，返回第一個

soup.head

soup.p.name #字符串

soup.p. attrs #字典，標簽的所有屬性

soup.p. contents # 列表，所有子標簽

soup.p.text #字符串

soup.p.string

soup.select(‘li‘)

4.取得含有特定CSS屬性的元素

soup.select(‘#p1Node‘)

soup.select(‘.news-list-title‘)

5.練習：

取出h1標簽的文本
取出a標簽的鏈接
取出所有li標簽的所有內容
取出第2個li標簽的a標簽的第3個div標簽的屬性

取出一條新聞的標題、鏈接、發布時間、來源

# -*- coding : UTF-8 -*-
# -*- author : onexiaofeng -*-
import requests
url=‘http://localhost:63342/hello/venv/lz.html?_ijt=l26l1kkfr4kkmba1tsi16auibm‘
res=requests.get(url)
res.encoding=‘utf-8‘
res.text

from bs4 import BeautifulSoup
soup=BeautifulSoup(res.text,‘html.parser‘)
soup

print(soup.h1.text)
print(soup.a[‘href‘])
for i in soup.select(‘li‘):
    print(i)
print(soup.select(‘li‘)[1].a.select(‘div‘)[2].attrs)
print(‘標題：‘+soup.select(‘.news-list-title‘)[0].text)
print(‘鏈接：‘+soup.select(‘a‘)[2][‘href‘])
print(‘發布時間：‘+soup.select(‘.news-list-info‘)[0].span.text)
print(‘來源：‘+soup.select(‘.news-list-info‘)[0].select(‘span‘)[1].text)

截圖：

技術分享圖片

1.取出一個新聞列表頁的全部新聞包裝成函數。

2.獲取總的新聞篇數，算出新聞總頁數。

3.獲取全部新聞列表頁的全部新聞詳情。

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re

#獲得新聞點擊次數
def getclick(link):
    newId = re.search(‘\_(.*).html‘, link).group(1).split(‘/‘)[1]
    click = requests.get(‘http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80‘.format(newId))
    return click.text.split(‘.html‘)[-1].lstrip("(‘").rstrip("‘);")


def getnewsdetail(link):
        resd = requests.get(link)
        resd.encoding = ‘utf-8‘
        soupd = BeautifulSoup(resd.text, ‘html.parser‘)

        content=soupd.select(‘.show-content‘)[0].text
        info=soupd.select(‘.show-info‘)[0].text
        clickcount = getclick(link)
        time=re.search(‘(\d{4}.\d{2}.\d{2}\s\d{2}.\d{2}.\d{2})‘,info).group(1)
        if (info.find(‘作者‘) > 0):
            author = re.search(‘作者：((.{2,4}\s|.{2,4}、|.{2,4}，|\w*\s){1,5})‘, info).group(1)
        else:
            author = ‘none‘
        if (info.find(‘審核‘) > 0):
            auditing = re.search(‘審核：((.{2,4}\s|.{2,4}、|.{2,4}，|\w*\s){1,5})‘, info).group(1)
        else:
            auditingr = ‘none‘
        if (info.find(‘來源：‘) > 0):
            source = re.search(‘來源：(.*)\s*攝|點‘, info).group(1)
        else:
            source = ‘none‘
        dateTime=datetime.strptime(time,‘%Y-%m-%d %H:%M:%S‘)


        print(‘發布時間:{0}\n作者：{1}\n審核：{2}\n來源：{3}\n點擊次數：{4}‘.format(dateTime,author,auditing,source,clickcount))
        print(content)

def getlistpage(listlink):
    res=requests.get(listlink)
    res.encoding=‘utf-8‘
    soup=BeautifulSoup(res.text,‘html.parser‘)

    for news in soup.select(‘li‘):
        if (len(news.select(‘.news-list-title‘)) > 0):
            title = news.select(‘.news-list-title‘)[0].text
            description = news.select(‘.news-list-description‘)[0].text
            link = news.a.attrs[‘href‘]
            print(‘新聞標題：{0}\n新聞描述：{1}\n新聞鏈接：{2}‘.format(title,description,link))
            getnewsdetail(link)
            break

listlink=‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘

from datetime import datetime
getlistpage(listlink)
res=requests.get(listlink)
res.encoding=‘utf-8‘
soup=BeautifulSoup(res.text,‘html.parser‘)
listCount = int(soup.select(‘.a1‘)[0].text.rstrip(‘條‘))//10+1

for i in range(2,listCount):
    listlink=‘http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html‘.format(i)
    getlistpage(listlink)

4.找一個自己感興趣的主題，進行數據爬取，並進行分詞分析。不能與其它同學雷同。

# -*- coding: UTF-8 -*-
# -*- author: yjw -*-
import requests
import re
import jieba
from bs4 import BeautifulSoup
from datetime import datetime

def getnewdetail(link):
    res=requests.get(link)
    res.encoding=‘gb2312‘
    soup=BeautifulSoup(res.text,‘html.parser‘)
    Alltext=len(soup.select(".text"))
    content=‘‘
    for p in range(0,Alltext):
        content+=soup.select(‘.text‘)[p].text+‘\n‘
    if(Alltext>0):
        print(content+"\n詞頻統計：")
        delword={[‘我‘, ‘他‘, ‘你‘, ‘了‘, ‘那‘, ‘又‘, ‘-‘, ‘的‘, ‘我們‘, ‘是‘, ‘但‘, ‘中‘, ‘這‘, ‘在‘, ‘也‘, ‘都‘, ‘而‘,‘你‘,‘ ‘,‘我‘,‘我們‘, ‘他‘, ‘他們‘, ‘我的‘, ‘他的‘, ‘你的‘, ‘呀‘, ‘和‘, ‘是‘,‘，‘,‘。‘,‘：‘,‘“‘,‘”‘,‘的‘,‘啊‘,‘?‘,‘在‘,‘了‘,           ‘說‘,‘去‘,‘與‘,‘不‘,‘是‘,‘、‘,‘也‘,‘又‘,‘！‘,‘著‘,‘兒‘,‘這‘,‘到‘,‘就‘, ‘\n‘,‘(‘,‘)‘,‘那‘,‘有‘,‘上‘,‘便‘,‘和‘,‘只‘,‘要‘,‘小‘,‘罷‘,‘那裏‘,           ‘…‘,‘一個‘,‘？‘,‘人‘,‘把‘,‘被‘,‘她‘,‘都‘,‘道‘,‘好‘,‘還‘,‘’‘,‘‘‘,‘呢‘,‘來‘,‘得‘,‘你們‘,‘才‘,‘們‘
                   ‘\n‘, ‘，‘, ‘。‘, ‘？‘, ‘！‘, ‘“‘, ‘”‘, ‘：‘, ‘；‘, ‘、‘, ‘.‘, ‘‘‘, ‘’‘, ‘（‘, ‘）‘, ‘ ‘, ‘【‘, ‘】‘, ‘…‘]
        }
        word={}
        newscontent=list(jieba.cut(content))
        wordfit=set(newscontent)-set(delword)
        for i in wordfit:
            word[i]=newscontent.count(i)
        text = sorted(text3.items(), key=lambda x: x[1], reverse=True)
        for i in range(20):
            print(text[i])
    else:
        print(‘picture‘)

def getnewlist(link):
    res=requests.get(link)
    res.encoding=‘gb2312‘
    soup=BeautifulSoup(res.text,‘html.parser‘)
    for newlist in soup.select(‘.listInfo‘)[0].select(‘li‘):
        title = newsList.select(‘a‘)[0].text
        time = newsList.select(‘.info‘)[0].select(‘p‘)
        link = newsList.select(‘a‘)[0][‘href‘]
        print(‘\n新聞標題：{0}\n發表時間:{1}\n新聞鏈接:{2}\n‘.format(title, time, link))
        getnewdetail(link)

link=‘http://sports.qq.com/a/20180411/020544.htm‘
getnewlist(link)
for i in range(1,20):
    if(i==1):
        getnewlist(link)
    else:
        link="http://sports.qq.com/a/20180411/020544_{}.htm".format(i)
        getnewslist(link)

大作業+補交作業

www reverse 單詞 import 總頁數 title text 字符 utf-8 詞頻統計預處理下載一首英文的歌詞或文章將所有,.？！’:等分隔符全部替換為空格將所有大寫轉換為小寫生成單詞列表生成詞頻統計排序排除語法型詞匯，代詞、冠詞、連詞輸出詞

第二周作業補交

原因提問的智慧程序程序崩潰就會技術 code har spa 提問的智慧感想：不懂就問是一種好的學習習慣，但是只是懂得提問而自己不進行思考就會使自己喪失自學的能力。在提問時我們也應該註重以下幾點問題： 1.提問的問題應該經過自己認真的思考而不會的

20165328 課上作業補交

master 保存 pos 等於使用 ref 代碼 post str 一、相關知識點的總結： 1、源文件的編寫和保存 2、cmd的使用 3、編譯與運行 4、碼雲上傳代碼二、課上內容的補做及結果截圖： 1、帶包的代碼編譯運行測試：截圖如下： 2、教材代碼完成測試p

20165118 課後作業補交

打包 cnblogs png bubuko inf blog log 課後作業 alt 上課的時候不會打包，所以沒做出來，後面的題也沒做了。 20165118 課後作業補交

補交作業

pos tps etc node ports nts info 內容 encoding 詞頻統計預處理下載一首英文的歌詞或文章將所有,.？！’:等分隔符全部替換為空格將所有大寫轉換為小寫生成單詞列表生成詞頻統計排序排除語法型詞匯，代詞、冠詞、連詞輸出詞頻最

福大軟工1816 · 第五次作業 - 結對作業2

同名 [] 分享 and rds 規範 fir 分鐘 begin 一、結對同學的博客鏈接、本作業博客的鏈接、Fork的同名倉庫的Github項目地址結對同學的博客鏈接，本作業博客鏈接，github項目地址二、具體分工：基本功能部分：鄭孔宇測試及附加題部分：俞凱欣三

福大軟工1816 · 第五次作業 - 結對作業2_EXE圖片_備用

設置 com src http 界面 bubuko 分享排名搜索功能 1_每日推薦界面.png 2_論文搜索界面.png 2_論文搜索界面_搜索功能.png 3_流行趨勢_十大熱詞排名統計圖.png 4_人物界面.png 5_我的收藏界面.png 6_設置界

福大軟工1816 · 第五次作業 - 結對作業2_map與unordered map的比較測試

release 分享圖片散列 std 圖片 win [] eas argv 測試代碼： #include <iostream> using namespace std; #include <string> #include <windows.

福大軟工1816 · 第五次作業 - 結對作業2_代碼規範

返回值結構開始輸出參數 def 代碼規範復用一行入參 1.排版 1-1：程序塊要采用縮進風格編寫，縮進為一個Tab。說明：對於由開發工具自動生成的代碼可以有不一致。 1-2：相對獨立的程序塊之間、變量說明之後必須加空行。示例：如下例子不符合規範。 if (!

2018.10.24之前補交作業及17章專案

14章 1.根據目錄結構myjava/practice1/Foo.java,寫出Foo類的包名。包名：practice1 2.改寫第12章中簡答題第3題中的計算機類（Calculator）。要求將加減乘除的方法改寫成帶參方法，在定義一個運算方法 ope(),接收使用者的運算和兩個數

大資料概論作業2

作業2 2220172205 10.18 1.開啟R studio 用mydata<-read.csv(file.choose())選擇檔案forclass.csv 2.用myrows<-nrow(mydata) 記錄資料行數，用mycols<-ncol(mydata) 記

10號團隊-團隊任務4：每日立會（2018-11-27）26補交作業

團隊序號：10 開發專案：家庭賬本日期：2018年11月26日撰寫人：楊興凡（專案經理）團隊成員：專案經理：楊興凡產品經理：俞明軒 UI設計師：趙世博軟體開發工程師：楊陽楊本興楊鑫海楊笑團隊彙報（圖片）：進度：現在基本的APP框架已經搭建完成，目前四位

水晶報表中"已達到系統管理員配置的最大報表處理作業數限制"錯誤的處理

錯誤描述：用水晶報表做報表時當多次開啟報表後會經常會出現“已達到系統管理員配置的最大報表處理作業數限制。 ”的錯誤。 1.自身的問題：用完CrystalDecisions.CrystalReports.Engine.ReportDocument物件後沒有關閉釋放它。在

大批量後臺作業/UIF/LREP_LOAD_CONSISTENCY_CHECK

業務場景：某天突然發現自己的賬號下出現了大量的後臺作業：/UIF/LREP_LOAD_CONSISTENCY_CHECK，很奇怪這個後臺作業是怎麼產生的。解決辦法：參照NOTE 2681435 - Preventing the automatic creation of Job

作業呀作業

之前被調用命名規則全局處理順序出錯 assert 無法 1.題目要求本次作業要求兩個人合作完成，駕駛員和導航員角色自定，鼓勵大家在工作期間角色隨時互換，這裏會布置兩個題目，請各組成員根據自己的愛好任選一題。題目1：我們在剛開始上課的時候介紹過一個小學四則運

軟件工程作業團隊作業No.4

網站形式 size ont 說明並且 raw uml 繪制軟件工程第四次團隊作業一、前言上一個階段，我們完成了系統的需求分析，接下來，並且要結合UML技術對系統進行總體設計和詳細設計工作。。二、題目要求參考發到群裏的《軟件設計規格說明書》範本，撰寫本團隊

軟工作業--團隊作業2

公司重要培養審核實用 ppr 價格興趣 ID 本項目是一個淺度極客平臺，在這裏你可以從零開始，無所顧慮的學習，從淺入深的學習過程猶如你在課堂一般的學習。 ———————————————————————————————————————— 一.NABCD模型： 1）N

軟工作業——團隊作業2.2

修改數字停止也不能 tab 作用域地方模塊化設計 tab鍵代碼規範一.命名規範 1.每個變量名都按照所起的作用來命名，不隨意命名。例如，分數就用grade來命名而不是a，b，c之類的 2.根據現在通用的命名規則來進行命名變量，常量，函數之類的，方便閱讀 3.

如何使用git 提交作業收作業

nbsp 需求 oca 存在質量沖突 ast rebase 接下來如何使用git 提交作業收作業今天就來用一個通俗易懂的自然模型來解釋Git的commit,pull和push。不過，我們首先要理解兩個名詞，remote，local。 remote，翻譯成中

第三次作業結對作業

使用設計文檔方維 -a person 試用簡潔合計 standard 壹 - PSP 結對博客 PSP2.1 Personal Software Process Stages 預估耗時（分鐘）實際耗時（分鐘） Planning 計劃 20 20

大作業+補交作業

中文詞頻統計

網絡爬蟲基礎練習

相關推薦