學習筆記CB005:關鍵詞、語料提取

阿新 • • 發佈：2022-05-02

關鍵詞提取。pynlpir庫實現關鍵詞提取。

# coding:utf-8

import sys

import importlib

importlib.reload(sys)

import pynlpir

pynlpir.open()

s = '怎麼才能把電腦裡的垃圾檔案刪除'

key_words = pynlpir.get_key_words(s, weighted=True)

for key_word in key_words:

    print(key_word[0], 't', key_word[1])

pynlpir.close()

百度介面：https://www.baidu.com/s?wd=機器學習資料探勘資訊檢索

安裝scrapy pip install scrapy。建立scrapy工程 scrapy startproject baidu_search。做抓取器，建立baidu_search/baidu_search/spiders/baidu_search.py檔案。

# coding:utf-8

import sys

import importlib

importlib.reload(sys)

import scrapy

class BaiduSearchSpider(scrapy.Spider):

    name = "baidu_search"

    allowed_domains = ["baidu.com"]

    start_urls = [

            "https://www.baidu.com/s?wd=電腦 垃圾 檔案 刪除"

    def parse(self, response):

        filename = "result.html"

        with open(filename, 'wb') as f:

            f.write(response.body)

修改settings.py檔案，ROBOTSTXT_OBEY = False，USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36' ，DOWNLOAD_TIMEOUT = 5 ，

進入baidu_search/baidu_search/目錄，scrapy crawl baidu_search 。生成result.html，正確抓取網頁。

語料提取。搜尋結果只是索引。真正內容需進入連結。分析抓取結果，連結嵌在class=c-container Div h3 a標籤 href屬性。url新增到抓取佇列抓取。提取正文，去掉標籤，儲存摘要。提取url時，提取標題和摘要，scrapy.Request meta傳遞到處理函式parse_url，抓取完成後能接到這兩個值，提取content。完整資料：url、title、abstract、content。

# coding:utf-8

import sys

import importlib

importlib.reload(sys)

import scrapy

from scrapy.utils.markup import remove_tags

class BaiduSearchSpider(scrapy.Spider):

    name = "baidu_search"

    allowed_domains = ["baidu.com"]

    start_urls = [

            "https://www.baidu.com/s?wd=電腦 垃圾 檔案 刪除"

    def parse(self, response):

        # filename = "result.html"

        # with open(filename, 'wb') as f:

        #     f.write(response.body)

        hrefs = response.selector.xpath('//div[contains(@class, "c-container")]/h3/a/@href').extract()

        # for href in hrefs:

        #     print(href)

        #     yield scrapy.Request(href, callback=self.parse_url)

        containers = response.selector.xpath('//div[contains(@class, "c-container")]')

        for container in containers:

            href = container.xpath('h3/a/@href').extract()[0]

            title = remove_tags(container.xpath('h3/a').extract()[0])

            c_abstract = container.xpath('div/div/div[contains(@class, "c-abstract")]').extract()

            abstract = ""

            if len(c_abstract) > 0:

                abstract = remove_tags(c_abstract[0])

            request = scrapy.Request(href, callback=self.parse_url)

            request.meta['title'] = title

            request.meta['abstract'] = abstract

            yield request

    def parse_url(self, response):

        print(len(response.body))

        print("url:", response.url)

        print("title:", response.meta['title'])

        print("abstract:", response.meta['abstract'])

        content = remove_tags(response.selector.xpath('//body').extract()[0])

        print("content_len:", len(content))

參考資料：

《Python 自然語言處理》

http://www.shareditor.com/blogshow/?blogId=43

http://www.shareditor.com/blogshow?blogId=76

歡迎推薦上海機器學習工作機會，我的微信：qingxingfengzi

學習筆記CB005:關鍵詞、語料提取

學習筆記CB005:關鍵詞、語料提取

mongodb資料庫入門學習筆記之下載、安裝、啟動、連線操作解析

ES6學習筆記之字串、陣列、物件、函式新增知識點例項分析

JAVA學習筆記：註釋、變數的宣告和定義操作例項分析

.NetCore學習筆記：六、Swagger API介面文件工具

JavaSE學習筆記 - 數字類、隨機數

JavaSE學習筆記 - Object類、日期類

JVM學習筆記（五、執行時資料區）

JVM學習筆記（七、GC1-基礎知識點）

JavaSE學習筆記02運算子、幫助文件生成與Scanner輸入

Oracle學習筆記：rollup、cube分組函式

《Java EE SSM框架》學習筆記（6、動態SQL）

Nginx學習筆記（二、Nginx配置檔案詳解）

Nginx學習筆記（三、Nginx反向代理與負載均衡）

Nginx學習筆記（五、Nginx快取與限流）

Go 學習筆記 01 | 輸出、變數、常量、命名規則和程式碼風格

【Kafka學習筆記】二、Kafka叢集搭建（基於kafka_2.11-1.0.0）

【Kafka學習筆記】一、Kafka單機搭建（基於kafka_2.11-1.0.0）

Beego 框架學習筆記 02 | Get、Post

Beego 框架學習筆記 03 | Put、Delete

學習筆記CB005:關鍵詞、語料提取

相關推薦