1. 程式人生 > >Python split 分割中文

Python split 分割中文

關於 區別 bsp spark pri park decode encode python

str8="中國 和 韓國 的區別"
# a=str8.find("Python")
# print a
b=str8.find("")
print b
word=str8.split(" ")         #Python3 和Spark 這裏可以直接正確分割中文
print word
for i in word:               #python 2.x 需要這樣輸出
    print i

#這是關於編碼的問題
# print "-"*50
# data=str8.decode("utf-8").encode("gb2312")
# print type(data)
# data2=data.decode("gb2312")
# print type(data2)
# print data2.split(u" ")
# data3=data2.encode("utf-8").split(" ")
# print data3
# for i in data3:
# print i

結果:

7

[‘\xe4\xb8\xad\xe5\x9b\xbd‘, ‘\xe5\x92\x8c‘, ‘\xe9\x9f\xa9\xe5\x9b\xbd‘, ‘\xe7\x9a\x84\xe5\x8c\xba\xe5\x88\xab‘]
中國

韓國
的區別
--------------------------------------------------
<type ‘str‘>
<type ‘unicode‘>
[u‘\u4e2d\u56fd‘, u‘\u548c‘, u‘\u97e9\u56fd‘, u‘\u7684\u533a\u522b‘]
[‘\xe4\xb8\xad\xe5\x9b\xbd‘, ‘\xe5\x92\x8c‘, ‘\xe9\x9f\xa9\xe5\x9b\xbd‘, ‘\xe7\x9a\x84\xe5\x8c\xba\xe5\x88\xab‘]
中國

韓國
的區別


Python split 分割中文