1. 程式人生 > >ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr

ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr

不同版本 utf-8 系統 pin dev sts one github html

lxml 的安裝(xpath)

pip3 install lxml

可能會缺少以下依賴:

sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

基本用法:

from lxml import etree

import requests

html = requests.get(finalURL).content.decode(‘utf-8‘)

dom_tree = etree.HTML(html)

links = dom_tree.xpath("//div/span[@class=‘info-col‘]/a")

Beautiful Soup的安裝

pip3 install beautifulsoup4

pyquery的安裝

p1p3 install pyquery

tesserocr的安裝

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

接下來再安裝tesserocr和pillow 即可,這裏直接使用pip 安裝:
pip3 install tesserocr pillow

如果想要安裝多國語言,還需要安裝語言包,官方叫作tessdata

(其下載鏈接為:https://github.com/tesseract-ocr/tessdata )。

利用G it 命令將其下載下來並遷移到相關目錄即可,不同版本的遷移命令如下所示。
在Ubuntu 、Debian 和Deepin 系統下的遷移命令如下:
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr