MySQL 5.5.3之前的版本utf8最多隻能存儲三個位元組,不能支持emoji表情,需要用MySQL 5.5.3或者以上的版本才可以,字元集用utf8mb4,見http://dev.mysql.com/doc/refman/5.5/en/charset-unicode-upgrading.html
MySQL Connector必須選擇MySQL Connector/J 5.1.13的版本(目前我們用這個)才可以支持字元集utf8mb4
② 關於mysql資料庫字元編碼的問題、中文亂碼!
一、轉碼失敗
在數據寫入到表的過程中轉碼失敗,資料庫端也沒有進行恰當的處理,導致存放在表裡的數據亂碼。
針對這種情況,前幾篇文章介紹過客戶端發送請求到服務端。
其中任意一個編碼不一致,都會導致表裡的數據存入不正確的編碼而產生亂碼。
比如下面簡單一條語句:
set @a = "文本字元串";
insert into t1 values(@a);
1. 變數 @a 的字元編碼是由參數 CHARACTER_SET_CLIENT 決定的,假設此時編碼為 A,也就是變數 @a 的編碼。
2. 寫入語句在發送到 MySQL 服務端之前的編碼由 CHARACTER_SET_CONNECTION 決定,假設此時編碼為 B。
3. 經過 MySQL 一系列詞法,語法解析等處理後,寫入到表 t1,表 t1 的編碼為 C。
那這里編碼 A、編碼 B、編碼 C 如果不兼容,寫入的數據就直接亂碼。
二、客戶端亂碼
表數據正常,但是客戶端展示後出現亂碼。
這一類場景,指的是從 MySQL 表裡拿數據出來返回到客戶端,MySQL 里的數據本身沒有問題。客戶端發送請求到 MySQL,表的編碼為 D,從 MySQL 拿到記錄結果傳輸到客戶端,此時記錄編碼為 E(CHARACTER_SET_RESULTS)。
那以上編碼 E 和 D 如果不兼容,檢索出來的數據就看起來亂碼了。但是由於數據本身沒有被破壞,所以換個兼容的編碼就可以獲取正確的結果。
這一類又分為以下三個不同的小類:
1)欄位編碼和表一致,客戶端是不同的編碼
比如下面例子, 表數據的編碼是 utf8mb4,而 SESSION 1 發起的連接編碼為 gbk。那由於編碼不兼容,檢索出來的數據肯定為亂碼。
2)表編碼和客戶端的編碼一致,但是記錄之間編碼存在不一致的情形
比如表編碼是 utf8mb4,應用端編碼也是 utf8mb4,但是表裡的數據可能一半編碼是 utf8mb4,另外一半是 gbk。那麼此時表的數據也是正常的,不過此時採用哪種編碼都讀不到所有完整的數據。這樣數據產生的原因很多,比如其中一種可能性就是表編碼多次變更而且每次變更不徹底導致(變更不徹底,我之前的篇章里有介紹)。舉個例子,表 t3 的編碼之前是 utf8mb4,現在是 gbk,而且兩次編碼期間都被寫入了正常的數據。
3)每個欄位的編碼不一致,導致亂碼
和第二點一樣的場景。不同的是:非記錄間的編碼不統一,而是每個欄位編碼不統一。舉個例子,表 c1 欄位 a1,a2。a1 編碼 gbk,a2 編碼是 utf8mb4。那每個欄位單獨讀出來數據是完整的,但是所有欄位一起讀出來,數據總會有一部分亂碼。
三、LATIN1
還有一種情形就是以 LATIN1 的編碼存儲數據
估計大家都知道字元集 LATIN1,LATIN1 對所有字元都是單位元組流處理,遇到不能處理的位元組流,保持原樣,那麼在以上兩種存入和檢索的過程中都能保證數據一致,所以 MySQL 長期以來默認的編碼都是 LATIN1。這種情形,看起來也沒啥不對的點,數據也沒亂碼,那為什麼還有選用其他的編碼呢?原因就是對字元存儲的位元組數不一樣,比如 emoji 字元 "❤",如果用 utf8mb4 存儲,佔用 3 個位元組,那 varchar(12) 就能存放 12 個字元,但是換成 LATIN1,只能存 4 個字元。
③ mysql的longtext類型禁止存放哪種特殊字元
編碼改成utf8-general-ci
④ mysql varchar不能存什麼字元
例如:varchar(10):存英文能存十個
如果是漢字就要按照編碼來了
UTF-8編碼的漢字佔用三個位元組
GBK編碼的漢字佔用兩個位元組
自己算下就知道了
如果存儲大數據盡量採用:text
⑤ mysql varchar(32) 的欄位只能存10個漢字,第11個存不下是什麼原因
你的mysql是什麼版本的?如果是4以下,就只能存10個漢字。mysql4.0版本以下,varchar(20),指的是20位元組,如果存放UTF8漢字時,只能存6個(每個漢字3位元組) ;5.0版本以上,varchar(20),指的是20字元,無論存放的是數字、字母還是UTF8漢字(每個漢字3位元組),都可以存放20個,最大大小是65532位元組 ;varchar(20)在Mysql4中最大也不過是20個位元組,但是Mysql5根據編碼不同,存儲大小也不同,具體有以下規則:1、存儲限制varchar 欄位是將實際內容單獨存儲在聚簇索引之外,內容開頭用1到2個位元組表示實際長度(長度超過255時需要2個位元組),因此最大長度不能超過65535。2、編碼長度限制字元類型若為gbk,每個字元最多佔2個位元組,最大長度不能超過32766;字元類型若為utf8,每個字元最多佔3個位元組,最大長度不能超過21845。若定義的時候超過上述限制,則varchar欄位會被強行轉為text類型,並產生warning。⑥ 關於mysql數據表中使用兩個字元集的問題
.在mysq下的my.ini文件,在[mysqld]下添加default-character-set=gbk
在末尾添加
[client]
default-character-set=gbk
⑦ 怎麼在mysql存儲特殊字元
在sql中給所有欄位值加上mysql_real_escape_string函數處理,作用就是給特殊字元進行轉義,具體說明網上找
$sql="update `qqaide_ini` set `鍵值`='" . mysql_real_escape_string($keynamearr[$i+1]) . "' WHERE `PCHash`='" . mysql_real_escape_string($PCHash) . "' and `小節`='" . mysql_real_escape_string($notename) . "' and `鍵名`='" . mysql_real_escape_string($keynamearr[$i]) . "'";