strlen()函數(shù)和mb_strlen()函數(shù)
在PHP中,函數(shù)strlen()返回字符串的長度。函數(shù)原型如下:
int strlen(string string_input);
參數(shù)string_input為要處理的字符串。
strlen()函數(shù)返回字符串所占的字節(jié)長度,一個英文字母、數(shù)字、各種符號均占一個字節(jié),它們的長度均為1。一個中午字符占兩個字節(jié),所以一個中午字符的長度是2。例如
<?php
echo strlen("www.sunchis.com");
echo strlen("三知開發(fā)網(wǎng)");
?>
“echo strlen("theartemis.cn");”的運行結(jié)果:13
“echo strlen("三知開發(fā)網(wǎng)");”的運行結(jié)果:15
這里有一個疑問,一個中文字符不是占2個字節(jié)嗎?“三知開發(fā)網(wǎng)”,明明是五個漢字,運行的結(jié)果怎么會是15?
原因出在這里:strlen()計算時,對于一個UTF-8的中文字符,會把它當(dāng)做長度為3來處理。當(dāng)出現(xiàn)中英文混排的情況下,怎么準(zhǔn)確的計算字符串的長度呢?這里,得引入另外一個函數(shù)mb_strlen()。mb_strlen()函數(shù)的用法與strlen()幾乎一摸一樣,只是多了一個指定字符集編碼的參數(shù)。函數(shù)原型為:
int mb_strlen(string string_input, string encode);
PHP內(nèi)置的字符串長度函數(shù)strlen無法正確處理中文字符串,它得到的只是字符串所占的字節(jié)數(shù)。對于GB2312的中文編碼,strlen得到的值是漢字個數(shù)的2倍,而對于UTF-8編碼的中文,就是3倍的差異了(在UTF-8編碼下,一個漢字占3個字節(jié))。 因此,下面的代碼能準(zhǔn)確計算出中文字符串的長度:
<?php
$str = "三知sunchis開發(fā)網(wǎng)";
echo strlen($str)."<br>"; //結(jié)果:22
echo mb_strlen($str,"UTF8")."<br>"; //結(jié)果:12
$strlen = (strlen($str)+mb_strlen($str,"UTF8"))/2;
echo $strlen; //結(jié)果:17
?>
原理分析:
strlen()計算時,對待UTF-8的中文字符長度是3,所以“三知sunchis開發(fā)網(wǎng)”的長度為5×3+7×1=22
在mb_strlen計算時,選定內(nèi)碼為UTF8,則會將一個中文字符當(dāng)作長度1來計算,所以“三知sunchis開發(fā)網(wǎng)”長度為5×1+7×1=12
剩下的就是純數(shù)學(xué)問題了,在此就不啰嗦了……
注意:對于mb_strlen($str,'UTF-8'),如果省略第二個參數(shù),則會使用PHP的內(nèi)部編碼。內(nèi)部編碼可以通過mb_internal_encoding()函數(shù)得到。需要注意的是,mb_strlen并不是PHP核心函數(shù),使用前需要確保在php.ini中加載了php_mbstring.dll,即確保“extension=php_mbstring.dll”這一行存在并且沒有被注釋掉,否則會出現(xiàn)未定義函數(shù)的問題。
php程序中字符串長度判斷,可以使用strlen。
方法一:
$str = ‘aaaaaa';
if(strlen($str) > 6){
echo "字符串大于6";
}
方法二:
以上兩種方法,第二種效率更高些。
在PHP中,所有的變量都是用一個結(jié)構(gòu)-zval來保存的,strlen雖然是直接獲取其中的len,但是仍然有一次函數(shù)調(diào)用,而isset是PHP的語法結(jié)構(gòu),所以更快!所以在判斷字符串是否大于或小于多少個字符時可以使用第二種方法。