ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr

阿新 • • 發佈：2018-09-17

不同版本 utf-8 系統 pin dev sts one github html

lxml 的安裝（xpath）

pip3 install lxml

可能會缺少以下依賴：

sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

基本用法：

from lxml import etree

import requests

html = requests.get(finalURL).content.decode(‘utf-8‘)

dom_tree = etree.HTML(html)

links = dom_tree.xpath("//div/span[@class=‘info-col‘]/a")

Beautiful Soup的安裝

pip3 install beautifulsoup4

pyquery的安裝

p1p3 install pyquery

tesserocr的安裝

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

接下來再安裝tesserocr和pillow 即可，這裏直接使用pip 安裝：
pip3 install tesserocr pillow

如果想要安裝多國語言，還需要安裝語言包，官方叫作tessdata

（其下載鏈接為：https://github.com/tesseract-ocr/tessdata ）。

利用G it 命令將其下載下來並遷移到相關目錄即可，不同版本的遷移命令如下所示。
在Ubuntu 、Debian 和Deepin 系統下的遷移命令如下： ”
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr

不同版本 utf-8 系統 pin dev sts one github html lxml 的安裝（xpath） pip3 install lxml 可能會缺少以下依賴： sudo apt-get install -y python3-dev build-e ssenti

ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr

lxml 的安裝（xpath）

pyquery的安裝

tesserocr的安裝

ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr

ubuntu下python模組的庫更新

windows下python及其第三方庫安裝方法

Windows環境下python爬蟲常用庫和工具的安裝（UrlLib、Re、Requests、Selenium、lxml、Beautiful Soup、PyQuery 、PyMySQL等等）

Ubuntu下Python安裝測試 & Geany實現Hello World！

ubuntu系統下Python虛擬環境的安裝和使用

ubuntu環境下python虛擬環境的安裝

Ubuntu 下處理excel表格庫xlslib和libxls的下載安裝

Ubuntu下的opencv3.1.0安裝及contrib庫的安裝+eclipse環境配置

Ubuntu 下Python pip3安裝及問題AttributeError: module 'pip.main' has no attribute '_main'

windows下Python的Tkinter庫的安裝

左手用R右手Python系列16——XPath與網頁解析庫

Python 2.7.6 安裝lxml模塊[ubuntu14.04 LTS]

windows下dig 域名解析工具安裝及使用

ubuntu下python+tornado+supervisor+nginx部署

Ubuntu 下如何查看已安裝的軟件

ubuntu virtualenv python 虛擬環境的安裝和配置

Linux系統下Python虛擬環境的安裝和使用

windows下python虛擬環境virtualenv安裝和使用

win10環境下python版libsvm的安裝

ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr

lxml 的安裝（xpath）

pyquery的安裝

tesserocr的安裝

相關推薦