PHP用mb_string函式庫處理與windows相關中文字元

阿新 • • 發佈：2018-12-29

昨天想批處理以前下載的一堆檔案，把檔案裡的關鍵內容用正則匹配出來，集中處理。在操作檔案時遇到一個問題，就是windows作業系統中的編碼問題。

我們都知道windows中（當然是中文版），檔名和檔案內容等編碼都是gbk，而我們在開發過程中，IDE裡的編碼則是UTF-8，（這裡不討論為什麼等等問題，

只考慮怎麼把編碼轉變成一樣的）所以導致我寫的UTF-8編碼的正則模式字串中的中文在gbk編碼的檔案中並不能正確匹配。

一開始，我並沒有什麼辦法，試過把PHP指令碼檔案的編碼也改成GBK，也可以用，但是想到這種方法太low了，所以找一找PHP中有沒有函式可以滿足我的需求。

這時，我想到了以前在處理windows中的檔名時用的函式iconv()

,其函式原型如下：

string iconv ( string $in_charset , string $out_charset , string $str )

Performs a character set conversion on the string str from in_charset to out_charset.

我們常使用：

$out_charset='utf-8';

$fileName=iconv($fileName,$out_charset,'gbk');

來處理檔名，將檔名改從gbk改為UTF-8而內容不變。

手冊翻譯附加：

如果你在輸出字串$out_charset後面新增//TRANSLIT即$out_charset='utf-8//TRANSLIT',在遇到不能轉換為UTF-8的字元時，程式會自動替換為一個相似字元的UTF-8字元；

如果你在輸出字串$out_charset後面新增//IGNORE即$out_charset='utf-8//IGNORE',在遇到不能轉換為UTF-8的字元時，程式會自動跳過這個字元。
如果你什麼都沒加，就在遇到不能替換成UTF-8的字元時，替換會被中斷。

但是，我在用這個函式處理時，結果卻是這樣：

意思是iconv()函式能處理的最大字元數只有64，一般的檔名大小，而我的檔案內容很顯然不止64個字元。

沒有辦法，我只好再次各種翻找別的函式。

直到我發現了mb_string函式庫，這個函式庫一般都在PHP環境裡整合，我們可以在phpinfo()裡找到它。

mb_string函式裡有一個mb_convert_encoding()

函式，可以將一個字串的編碼改變，其函式原型如下：

string mb_convert_encoding ( string $str , string $to_encoding [, mixed $from_encoding ] )

Converts the character encoding of string str to to_encoding from optionally from_encoding.

基原型跟iconv()函式差不多，只是它沒有對輸出函式的字尾修飾，它也沒有對字串長度的明確限制。

而且我們看到$from_encoding是可選的，它可以自動識別源編碼。

因為找不到一個確切的無法轉碼的字元，也不知道它遇到無法轉碼的字元會怎麼處理。

通過mb_convert_encoding()函式，將整個檔案處理了一下，於是，問題順利解決。

最後介紹一下mb_string函式庫，它全名叫Multibyte String，它的很多方法都擴充套件自PHP自身的string函式庫，函式名在原函式的前面加了"mb_"，這些函式除了擁有原函式的作用外，還在可選引數的最後加入了一個$encoding的可選引數，這個引數可以規定函式以什麼樣的編碼方式來處理字串。

例如strpos()函式，找到一個字串在另一個字串中的位置。

strpos("歡迎來訪問","問",0)返回的結果是12，因為指令碼是UTF-8編碼，而將字串轉為UTF-8編碼後，每個中文字元會佔用3個位元組。

而在mb_strpos()函式中，mb_strpos("歡迎來訪問","問",0,'utf-8')則會返回4,它會將字串當作已經轉UTF-8的狀態執行。

而mb_strpos("歡迎來訪問","問",0,'gbk')會返回6

當然，它還有更多有特色的地方~

如果您覺得本博文對您有幫助，您可以推薦或關注我，如果您有什麼問題，可以在下方留言討論，謝謝。

PHP用mb_string函式庫處理與windows相關中文字元

昨天想批處理以前下載的一堆檔案，把檔案裡的關鍵內容用正則匹配出來，集中處理。在操作檔案時遇到一個問題，就是windows作業系統中的編碼問題。我們都知道windows中（當然是中文版），檔名和檔案內容等編碼都是gbk，而我們在開發過程中，IDE裡的編碼則是UTF-8，（這裡不討論為什麼等等問題，只考慮

PHP 用fputcsv()生成csv檔案在windows Excel 下開啟亂碼問題解決

參考該文章https://segmentfault.com/a/1190000005366832 生成csv，csv檔案在windows wps和我ubuntu16桌面版下開啟正常。但是使用window

PHP中eval函式的危害與正確禁用方法

php的eval函式並不是系統元件函式，因此我們在php.ini中使用disable_funct

PHP用substr函式擷取字串中的某部分

經常看到有新手問PHP有沒有類似asp的left函式或right函式，實現擷取某字串左邊或右邊開始N個字元的函式。答案當然是有的。PHP中的substr函式就可以做的到，只不過PHP把二個函式合二為一了。現在整理了一下substr函式的用法，做了幾個例子以解新人之惑，高手

PHP使用GD函式庫製作縮圖+儲存本地

<?php // $name="./img/1.jpg"; // $w=300; // $h=300; // $prefix='thumb_111'; //縮略字首，原圖保留，縮圖也要保留 //獲取相關引數，計算比例 function

UTF8-CPP 庫處理x64dbg外掛選單中文亂碼

在編寫x64dbg外掛的過程中，發現外掛選單中文亂碼的問題，後來明白是由於編碼的問題導致的，由於x64dbg好像是Qt開發的介面，使用的是utf-8編碼的，而我使用的vs2017開發的外掛，使用的是Unicode編碼。編碼不一樣導致中文亂碼。先了解一下各種編碼

memcpy() 函式的效率與平臺相關.

先來看看微軟開發工具下的 memcpy() 原始碼(E:\Microsoft Visual Studio 9.0\VC\crt\src): /*** *memcpy.c - contains memcpy routine * * Copyright (c) M

《6.C語言巨集定義與預處理、函式和函式庫》

《6.C語言巨集定義與預處理、函式和函式庫》第一部分、章節目錄 4.6.1.C語言預處理理論 4.6.2.C語言預處理程式碼實戰 4.6.3.巨集定義1 4.6.4.巨集定義2 4.6.5.函式的本質 4.6.6.函式的基本使用 4.6.7.遞迴函式 4.6.8.函式庫 4.6.9.字

常用字元（string函式庫，字元陣列的輸入與處理）

編寫程式，實現求最常用字元。英文字母裡出現頻率最高的是哪個字母呢? 給定一個字串，輸出字串中出現次數最多的字母。輸入要求：輸入一個只含有大小寫字母和空格的字串，長度不超過100，以回車結束。輸出要求：輸出一個小寫字母，表示該字串中出現次數最多的字母。若答案有多個，則只輸出ASCII碼最小的那個。

迴圈與分支語句和字元函式庫cctype 檔案簡單處理

迴圈 for迴圈 while迴圈 do while迴圈通常，入口條件迴圈比出口條件迴圈好，因為迴圈開始前對條件進行檢查 c++11基於範圍的for迴圈對陣列（或容器類，如：vector和array）的每個元素執行相同操作 int a[5]={1，3，4，5，6}； f

《數據庫系統概論》 -- 9 查詢處理與查詢優化

51cto csdn 查詢優化安全性步驟 mysq sql tails 查詢處理步驟查詢分析對查詢語句進行掃描、詞法分析和語法分析。查詢檢查對合法的

用戶解析庫與文件權限

文件權限用戶解析庫一、與用戶和組賬戶相關的文件 1./etc/passwd 用戶的解析庫每一行是一條記錄，記錄一個和用戶相關的內容 root:x:0:0:root:/root:/bin/bash 1 2 3 4 5 6

MySQL創建用戶，常用SQL語句以及數據庫備份與恢復

mysql常用命令恢復與備份一、創建普通用戶並授權 1、創建用戶並授權 [root@zlinux ~]# mysql -uroot -p Enter password: Welcome to the MySQL monitor. Commands end with ; or \g. Your

2.MySQL用戶管理，常用SQL語句，MySQL數據庫備份與恢復

MySQL用戶管理常用MySQL語句 MySQL數據備份與恢復 [toc] MySQL用戶管理，重用SQL語句，MySQL數據庫備份與恢復一、MySQL用戶管理 1.創建一個普通用戶並授權首先啟動mysql，然後進入 [root@xavi ~]# /etc/init.d/mysqld sta

96.創建普通用戶並授權,常用SQL語句,MySQL數據庫備份與恢復

創建普通用戶並授權常用SQL語句 MySQL數據庫備份與恢復一、創建普通用戶並授權 1、創建用戶並授權 [root@sdwaqw ~]# mysql -uroot -pEnter password:Welcome to the MySQL monitor. Commands end with ;

Redis 與數據庫處理數據的兩種模式

保存新的 redis edi 存在緩存如果 png idt Redis 是一個高性能的key-value數據庫。 redis的出現，很大程度補償了memcached這類key-value存儲的不足，在部分場合可以對關系數據庫起到很好的補充作用。它提供了Python，

第十一課 xshell實現linux與windows互文件、用戶與密碼的配置文件、用戶和用戶組的管理

20180403一、Xshell 上實現Linux 與windows互傳1、先用命令 yum install -y lrzsz ;2、向windosw 系統傳文件，sz filename ,向Linux上傳文件,直接輸入rz命令，然在WINDOWS選擇文件即可二、用戶與密碼的配置文件cat /etc/pa

【小程序】用nginx進行反向代理處理（windows）

TP 代理 targe 反向 todo nginx安裝 http cnblogs smi 在通過json-server搭建本地服務器得到 http://localhost:3000/todos 的基礎上，要想將接口改為www.test.com/todos這樣的形式，

無法對數據庫進行刪除，因為它正用在復制——處理辦法

nbsp pub cts .aspx key objects chang subscript 復制對象關於這個錯誤，是因為在服務器上想把數據庫復制到本地，使用了“發布、訂閱”方案，結果後來沒成功，刪除本地數據庫的時候出現了這個錯誤，說“無法對數據庫‘XXX‘執行刪除，因為

MySQL數據庫的用戶管理、數據庫備份與恢復

sql 創建 user 新建目錄數據庫系統指定 username 目前 MySQL 是一個真正的多線程、多用戶的 SQL 數據庫服務，憑借其高性能、高可靠和易於使用的特性，成為服務器領域中最受歡迎的開源數據庫系統。在2008年以前，MySQL 項目由 MySQL AB

PHP用mb_string函式庫處理與windows相關中文字元

相關推薦