中文亂碼的總結

作者: kzwang  來源: javaEye  發布時間: 2010-09-19 21:56  閱讀: 2367 次  推薦: 1   原文鏈接   [收藏]  

  在開發中,總會碰到各種中文亂碼問題,下面稍作總結。

  1、數據庫的亂碼出現亂碼問題,我們第一反應應該是:是否數據庫字符編碼設置有問題。以mysql為例,裝好mysql后進入安裝目錄,打開my.ini配置文件查看mysql設置的編碼。在my.ini中有兩處設置字符編碼的地方,分別是[mysql]下的default-character-set及[mysqld]下的default-character-set。熟悉linux的朋友都知道以d結尾的表示服務端,如你想那樣,[mysql]設置的字符編碼是客戶端的,[mysqld]設置的字符編碼是mysql服務器端的編碼。我們的數據就是存儲在mysql服務器端的,為了能存下任何字符編碼的數據,我們一般設置[mysqld]下的default-character-set=utf8(注意,不是utf-8)。代表客戶端的[mysql]下的default-character-set應該怎么設置呢,一般朋友可能也設置成utf8,這可能會出問題的。如果這樣設置的話,當我們"運行cmd"打開DOS窗口,通過"mysql -uroot -p123"命令進入mysql的客戶端后,我們是不能插入中文的。道理很簡單,這是因為我們的操作系統的字符編碼是GBK(或GBK兼容),我們在DOS窗口輸入的中文(如:insert into test values('中文'))自然也是GBK的,而我們[mysql]設置的卻是utf8,因為不兼容所以會出錯。當然,如果我們使用相關mysql的GUI客戶端工具,進行相關設置,即使[mysql]設置成utf8也沒問題。但如果通過DOS窗口登陸mysql客戶端時,一般要設置[mysql]下的default-character-set=GBK。

  總結:[mysql]下default-character-set=GBK,[mysqld]下default-character-set=utf8 

  2、使用GET請求的亂碼如果一個請求是GET方式時,比如<a href="url">標簽指定的請求如form表單以GET方式提交,我們可以在瀏覽器地址欄上看到類似http://localhost/proj/a.do?title=%C4%E3%BA%C3 這樣的URL。像這樣2個(%加上2位16進制數)表示一個中文,這是用ISO8859-1(即lantin1)進行的編碼。對于這樣用GET請求的URL中的中文字符,我們是不能通過設置request.setCharacterEncoding("UTF-8")來解決的。

  解決方法有兩種:

  第一種方法是用 title = new String(title.getBytes("ISO8859-1"),"UTF-8");  來對每個有中文的請求參數進行解碼再編碼,這種方法比較繁瑣;

  第二種方法是修改tomcat的server.xml配置文件,把<Connector port="8080"...>修改成<Connector port="8080"... URLEncoding="UTF-8">,即在<Connector>元素中指定其URLEncoding="UTF-8",其默認值為lantin1。這屬性指定了URL的編碼,設置成UTF-8后,地址欄上就不會再出現 a.do?title=%C4%E3%BA%C3 之類的內容了,而是 a.do?title=中文。這種方法的缺點是,其它項目或該項目其它地方可能會因為修改而引入了新的中文編碼問題,比如使用這種方法之后,有些地方使用了第一種方法處理好了的中文將會再次變成亂碼。這種方法不常用,可能牽一發而動全身。 

  3、使用POST請求的亂碼對于form表單以POST提交的請求,可以用request.setCharacterEncoding("UTF-8")來解決。至于為什么這種方法對POST請求有效而對GET請求無效,請參考HTTP協議中GET與POST請求的差別,簡單來講就是GET請求的內容放在請求頭里,POST請求是放在請求體來。一般來講我們可以通過給項目增加一個字符集過濾器來一次性解決POST請求的中文亂碼。過濾器里的內容非常簡單,就是調用request.setCharacterEncoding(encoding),encoding是我們要設置的字符集。過濾器可以自己編寫,也可以使用spring提供的org.springframework.web.filter.CharacterEncodingFilter。  

  綜上所述我們在中文亂碼這個問題上,一般的做法如下: 

  1、編碼集用UTF-8而不是GBK 

  2、給我們的應用加上一個字符集過濾器 

  3、所有的Form表單都以POST進行提交 

  4、用鏈接<a href="a.do?name=中文">進行的提交,最好用new String(title.getBytes("ISO8859-1"),"UTF-8")來解決而不是修改tomcat的配置文件

1
0
 
 
 

文章列表

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()