有道詞典生詞本和扇貝網生詞本的互動——關於扇貝生詞本的分類管理功能補充
阿新 • • 發佈:2020-12-07
在使用扇貝網背單詞時,發現它的生詞本缺乏分類管理的功能——類似於有道詞典的生詞本的分類管理功能。在觀察了有道詞表的匯出格式以及扇貝網生詞本網頁的結構後,萌生通過自動轉換有道詞表格式和爬取扇貝網生詞表來實現有道和扇貝的同步的想法,目的是方便生詞本的分類整理和回顧。
一、有道詞表的格式轉換
首先實現有道匯出詞表的格式轉換。有道的匯出格式有三種:.txt、.xml、.bin(專有格式),其中.xml格式比較方便單詞提取。
# -*- coding: utf-8 -*- """ Created on Mon Dec 7 14:17:04 2020 @author: L JL """ importxml.dom.minidom #開啟xml文件 dom = xml.dom.minidom.parse('wordlist.xml') #得到文件元素物件 root = dom.documentElement words = dom.getElementsByTagName('word') fs = open('wordlist.txt','w+') for word in words: print(word.firstChild.data) fs.write(word.firstChild.data) fs.write('\n') fs.close() print('Export succeeded!')
(剩下的部分會陸續補充)