1. Giriş
Birden çok dil desteği içeren bir ağ (web) servisi oluşturmanın başlıca iki zorluğu vardır: (i) değişik karakter setleri gibi bölgesel ve dile özel unsurları destekleyen uygulamaları geliştirmek ve (ii) veritabanını bu unsurları yönetebilecek şekilde düzenlemek. Temel olarak, bir çok dili kapsayan ağ servisleri uluslarası karakterleri içeren metinleri kabul edip işleyebilmeli ve kullanıcılara sorunsuz gösterebilmelidir.
Genel bir sorun ise uygulama sunucusu ve veritabanı sunucusu gibi araçlarla Java ve SQL gibi teknolojilerin nasıl birlikte bir çok dili ve karakter kodlarını destekleyecek biçimde çalışacaklarının yeterli bir şekilde açıklanıp kullanıcılara sunulmamış olmasıdır. Çalışan bir model üzerine yazılmış olan bu makale, Java uygulamalarının MySQL veritabanları ile nasıl uyum içerisinde kullanılıp birden fazla dil ve karakter setini desteklediğini anlatmaktadır.
Bu makale, hem Türkçe hem de İngilizce arabirim desteğine sahip (menülerin, linklerin v.s. kullanıcının tercih ettiği dilde sunulduğu) bir uygulamadan örnekler içermektedir. Bu uygulama iki dilden de dinamik (veritabanında saklanan) içerik bulundurmaktadır. Bu sebeple bir dilde olup diğerinde olmayan karakterleri kullanabilme özelliğine sahiptir (örneğin x ve ö).
Makale boyunca UTF-8, varsayılan (default) karakter kodlaması olarak kullanılacaktır. Bu, uygulamasında birden fazla dil desteği (özellikle Türkçe veya bir Avrupa dili) bulundurmak isteyenler için önerimdir. UTF-8 açılımı Unicode Transformation Format-8 (Unicode Dönüşüm Formatı-8) olan 8-bit kayıpsız Unicode karakter kodlama formatıdır. Unicode her karakteri işletim sistemi, program ya da dile bağlı olmaksızın, farklı bir değerle tanımlar. Makale boyunca UTF-8 kullanılmasına rağmen verilen kod örnekleri bütün karakter kodlamalarına uygulanabilir. Okurun “UTF-8” geçen kısımlar yerine tercih ettiği bir başka kodlamanın ismini koyması yeterli olacaktır.
2. Uluslarası Karakter Setleri İle Emacs Kullanımı
JSP, MySql ve Tomcat ile uğraşan bir yazılımcının, kaynak dosyalarını (source files) düzenlemek ve yönetmek için emacs metin düzenleyicisini kullanması oldukça muhtemeldir. Makalenin bu bölümü, belirli karakter kodlamalarını desteklemek üzere emacs’in nasıl isteğe göre uyarlanabileceğini anlatmaktadır.
Tüm “.jsp” uzantılı dosyaları UTF-8 kodlama sisteminde okumak ve yazmak için aşağıdaki satırı .emacs dosyanıza ekleyiniz. Bu dosya çoğu zaman kullanıcı ana dizininde (home directory) yer almaktadır. Aynı deyimi (statement) farklı dosya uzantıları (örneğin; .html) ve kodlama sistemleri (örneğin; iso-8859-9) ile tekrar edebilirsiniz.
(modify-coding-system-alist 'file "\\.jsp\\'" 'utf-8)
“.jsp” uzantısını UTF-8 kodlamasına iliştirdikten sonra, Türkçe karakterleri kaynak dosyalarınızda sorunsuzca kullanabilirsiniz.
Emacs’te Türkçe karakterleri girmek için birden fazla yol kullanabilirsiniz. Herhangi bir giriş yönteminin tanımını görmek için “Ctrl-h Shift-i”’ye basın veya M-x’e bastıktan sonra describe-input-method yazın ve dil/giriş yöntemini seçin. Seçenekleri Tab tuşuna basarak görebilirsiniz. Giriş yöntemini değiştirmek için ise “M-x set-input-method” komutunu girin. Yöntemler arası geçiş için ise “Ctrl-\” tuşlarını kısaltma olarak kullanabilirsiniz. Varsayılan dil tercihini belirlemek için aşağıdaki kod alıntısını .emacs başlangıç dosyasına ekleyebilirsiniz.
;; başlangıç dosyası sadece bir adet custom-set-variables deyimi içermelidir.
(custom-set-variables
'(case-fold-search t) ;; isteğe bağlı
'(current-language-environment "Turkish")
'(default-input-method "turkish-postfix")
'(global-font-lock-mode t nil (font-lock)) ;; isteğe bağlı
'(transient-mark-mode t) ;; isteğe bağlı
)
Genellikle standart Emacs kurulumu çoğu karakter kodlamasının desteğini içermektedir. Eğer sizin kopyanız için bu geçerli değil ise ilave karakter setlerini yüklemek için lütfen GNU Emacs Elkitabı'na başvurunuz [1]. Emacs karakter set desteği için yardımcı diğer komutlar da şöyle sıralanabilir:
Not: M-x (meta-eks) komut isteminin (command prompt) kısaltması olup genellikle klavyenin sol Alt tuşu ile x tuşunun birlikte basılmasıyla erişilir.
M-x prefer-coding-system: Bu komut küçük arabellekten (minibuffer) kodlama sisteminin adını girmek ve onu diğerlerine göre daha önce tercih edilmesi için öncelik sırasının başına koymak için kullanılır [1].
M-x set-buffer-file-coding-system: Asıl arabelleği farklı bir kodlama sistemini kullanarak bir dosyaya yazmak istediğinizde bu komuttan faydalanarak işlemi gerçekleştirebilirsiniz [1].
M-x set-keyboard-coding-system: Bu komut ile klavye kodlama sistemini seçerek karakterleri doğrudan girebilirsiniz [1].
3. Uluslararasılaştırma ve Yerelleştirme
Yerel (locale), karakter seti, para birimi ve zaman formatı gibi, uygulamalarda temsil edilen bölgesel ögelerin toplamına verilen addır. Bu bölgesel bağımlılıkların uygulamanın kaynak kodundan ayrılmasına uluslararasılaştırma denir. Yerelleştirme ise bir uygulamayı belirli bir yerele uyarlama işlemidir [2].
Java, belirli bir coğrafi, politik ve kültürel bölgeyi temsil etmek üzere java.util.Locale sınıfını (class) sağlar. Yerele özel nesneleri (locale specific objects) içermek üzere kaynak paketleri (resource bundles) kullanılır (java.util.ResourceBundle). Bu sınıflar üzerine daha fazla bilgi edinmek için, kaynak [3]’e bakınız. Locale ve ResourceBundle sınıflarının JSP de nasıl kullanıldığını gösteren basit bir örnek aşağıda verilmiştir.
// Türkçe kaynak paketine ulaş:
Locale locale = new Locale("tr","TR");
ResourceBundle messages = ResourceBundle.getResource("Message", locale);
// “Hello World” dizgisinin (string) Türkçe karşılığı:
String myString =
messages.getString("messages.hello_world");
out.println(myString);
Yukarıdaki örnekte, hello_world mesajının Türkçe karşılığı, paket (bundle) adı verilen ASCII dosyasında yer almaktadır (örneğin; Message_tr_TR.properties). ResourceBundle sınıfının getString fonksiyonu, istenen mesaja bu dosyadan ulaşır. Seçilen her yerel için böyle bir dosyanın mevcut olması gerekir, yoksa Java varsayılan paketi (herhangi bir ülke veya dil kodu olmayan paket) kullanır. Paketler isimlendirilirken kullanılan ilke şöyledir:
Paketİsmi + "_" + YerelDil + "_" + YerelÜlke + "_" + YerelDeğişiklik
Paketİsmi + "_" + YerelDil + "_" + YerelÜlke
Paketİsmi + "_" + YerelDil
Paketİsmi
Message_en_US.properties isimli bir paketten alınan örnek şöyledir:
movie.title=Title
movie.starring=Starring
movie.director=Director
Yerli karakter kodlamasında yazılmış bir paketin Java’nın ”native2ascii” programı kullanılarak ASCII formatına çevrilmesi gerekir. Program şu dizinde bulunabilir: /<java-sdk-kurulum-dizini>/bin. Bu işlem, uygulama sunucusunun (örneğin Tomcat) yerli karakterleri doğru olarak gösterebilmesi için gereklidir. Bu program için örnek bir kullanım şöyledir:
native2ascii -encoding ISO-8859-9 tr.src Message_tr_TR.properties
Bu örnekte asıl kaynak paketi (örneğin; tr.src) ISO-8859-9 kodlaması ile yazılmıştır. Tomcat kullanıcıları paketlerini şu dizinde bulundurabilirler: /<jakarta-kurulum-dizini>/webapps/<uygulama-ismi>/WEB-INF/classes.
Aşağıda, native2ascii programı kullanılarak dönüştürülmüş Message_tr_TR.properties paketinden bir alıntı verilmiştir. “İ” harfinin \u0130 ve “ö” harfinin \u00f6 olarak değiştiğine dikkat ediniz.
movie.title=\u0130sim
movie.starring=Oyuncular
movie.director=Y\u00f6netmen
3.1. Locale Sınıfının JSP’de Kullanımı
İstemcinin kullanmak istediği yereli, oturumuna bir değişken ekleyerek sabitleyebilirsiniz. Tercihinize bağlı olarak, kullanıcının dil seçimini de çerez olarak tutabilir veya JSP sayfaları arasında istek parametresi / değiştirgesi (request parameter) şeklinde geçirebilirsiniz. Oturum kullanan bir örneği aşağıda bulabilirsiniz.
Locale locale = (Locale) session.getValue("yerelim");
if (session.getValue("yerelim") == null)
{
// Varsayılan Dil Seçimi
locale = new Locale("tr","TR");
session.putValue("yerelim",locale);
}
ResourceBundle sınıfını da JSP kodunuzda şu şekilde kullanabilirsiniz:
<%
ResourceBundle bundle =
ResourceBundle.getBundle("Message",locale);
%>
<select name="searchColumn">
<option value="name">
<%=bundle.getString("movie.title")%></option>
<option value="starring"> <%=bundle.getString("movie.starring")%></option>
<option value="director"> <%=bundle.getString("movie.director")%></option>
</select>
4. JSP Karakter Seti İşleme
Karakter işleme iki gruba ayrılabilir: karakterlerin görüntülenmesi ve kullanıcı tarafından girilen karakterlerin alınması. JSP sayfalarında bu iki grup için kullanılacak karakter setlerinin belirlenmesi farklı yönerge (directive) ve fonksiyonlarla yapılır.
4.1. Uluslararası Karakterlerin Görüntülenmesi
JSP sayfalarında görüntüleme için kullanılacak karakter kodlamasını belirlemek üzere standart “page” yönergesi “contentType” parametresi ile birlikte aşağıdaki gibi kullanılır:
<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" %>
Page (sayfa) yönergesi bir servlet veya JSP sayfasının yapısını kontrol etmek için kullanılır. Bu da sınıflarıiçeri aktararak (import), süper sınıfları isteğe uyarlayarak, içerik (content) türünü belirleyerek ve benzeri yöntemlerle gerçekleştirir.
Aynı zamanda ağ tarayıcısının doğru karakter setlerini yüklemesini sağlamak için aşağıdaki HTML etiketini (tag) kullanmanızı tavsiye ederim:
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
“http-equiv” özniteliği (attribute) taşıyan “Meta” etiketi HTTP sayfa başlığı ile aynı işlevi görür. Genellikle tarayıcı eylemlerini kontrol etmek için kullanılırlar ve bununla birlikte asıl sayfa başlığı tarafından verilen bilgileri değiştirmek görevini de yerine getirebilirler. Yukarıdaki örnekte, HTTP içerik türü karakter setini belirtmek üzere genişletilmiştir.
Aşağıda verilen örnekteki gibi Java dizgi fonksiyonlarını veya yaratıcılarını (constructors) bir dizginin karakter kodlamasını değiştirmek için kullanmaktan kaçınınız. Bu hem verimsiz hem de gereksizdir. Bu makalede anlatılan tüm işlemleri gerçekleştirdikten sonra böyle bir dönüşümü kullanmak ihtiyacı duymayacaksınız.
str = new String(request.getParameter("value").getBytes("ISO-8859-1"), "UTF-8");
4.2. Uluslarası Karakter İçeren Verilere HTML Formlarından Erişilmesi
Kullanıcı tarafından girilen karakterlere doğru olarak erişilebilmesi için JSP istek kodlamasının setCharacterEncoding metodu ile belirtilmesi gerekir. JSP dosyasında bulunması gereken çağrı şöyledir:
<% request.setCharacterEncoding("UTF-8"); %>
JSP isteği için karakter kodlamasının doğru belirlendiğini saptamak üzere aşağıdaki fonksiyon çağrısının sonucunu JSP sayfasında yazdırabilirsiniz.
<% request.getCharacterEncoding(); %>
Bunun sonucu “UTF-8” olmalıdır. Eğer setCharacterEncoding herhangi bir sebeple çalışmazsa kodlamayı direkt olarak HTML form etiketinde de belirleyebilirsiniz. Daha detaylı bilgi için kaynak [6] bölüm 17’ye bakınız.
<FORM action=”...” method=”...” accept-charset="UTF-8"> …form içeriği… </FORM>
5. JSP – MySQL Bağlantı Düzeni
MySQL veritabanına JSP veya servletlerden mysql-connector-java veya MySQL Connector/J sürücüsü (MySQL tarafından sunulan JDBC sürücüleri) ile ulaşırken doğru karakter kodlamasını aktarabilmek için bağlantıyı aşağıda belirtilen şekilde kurunuz.
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;
...
try {
Connection conn = java.sql.DriverManager.getConnection( "jdbc:mysql://localhost/dbName?user=kullanıcıAdı&password=şifre&useUnicode=true&characterEncoding=UTF-8");
// Bağlantıyı Kullanın...
} catch (SQLException ex) {
// var ise hataları kontrol edin:
System.out.println("SQLException: " + ex.getMessage());
System.out.println("SQLState: " + ex.getSQLState());
System.out.println("VendorError: " + ex.getErrorCode());
}
Eğer MySQL’in 4.1 veya daha yüksek bir sürümünü kullanıyorsanız (tavsiye edilir), bağlantı için varsayılan harmanlamayı (collation) aşağıda verilen deyimlerle belirtebilirsiniz. Bu fonksiyon çağrıları MySQL tarafından varsayılan harmanlamayı tanımlamak için kullanılan değişkenleri atarlar. Hangi harmanlamanın kullanılacağını ayrıca SQL deyimlerine de koyabilirsiniz. Harmanlama üzerine daha fazla bilgi için bu makalenin 6. bölümüne ve MySQL el kitabına [8] bakınız.
conn.createStatement().execute("SET character_set_client=utf8");
conn.createStatement().execute("SET character_set_connection=utf8");
conn.createStatement().execute("SET character_set_results=utf8");
conn.createStatement().execute("SET character_set_database=utf8");
conn.createStatement().execute("SET character_set_server=utf8");
conn.createStatement().execute("SET collation_connection=utf8_turkish_ci");
conn.createStatement().execute("SET collation_database=utf8_turkish_ci");
conn.createStatement().execute("SET collation_server=utf8_turkish_ci");
Bu değişkenleri bağlantı için atamak tamamen isteğe bağlıdır. Kullanılacak karakter seti ve harmanlaması SQL sorgularında veya tablo oluşturulması esnasında seçilebilir.
6. MySQL Karakter Setleri ve Harmanlama
İyi bir alışkanlık olarak sıfırdan geliştirmeye başladığınız uygulamalarda UTF-8 karakter kodlamasını tercih ediniz. Bu standart kodlama bir çok uluslararası karakter setini kapsar ve internet tarayıcılarının büyük bir bölümü (örneğin Netscape ve Internet Explorer) tarafından desteklenmektedir. ISO-8859-9 Türkçe karakter kodlaması kulağa çok çekici gelse bile, Türkçe karakterler için MySQL ile birlikte UTF-8 kullanmak daha sorunsuz ve kolaydır. Bununla birlikte uygulamanızı başka dillere de uyarlamak istediğinizde -seçilen dil UTF-8 tarafından desteklendiği sürece- her dil için yeni karakter seti ve harmanlama kullanmak mecburiyetinden de kurtulmuş olursunuz.
Sürüm 4.1’den başlayarak MySQL’de geniş bir harmanlama desteği yer almaktadır. Harmanlama, karakter setlerindeki karakterleri karşılaştırmak üzere kullanılan kurallar kümesine verilen isimdir. Örneğin büyük ve küçük harfe duyarlı olmayan bir sorgulama yaptığınızda, veritabanının küçük harf ile (örneğin; a) büyük harfi (örneğin; A) eşleştirebilmesi gerekir. Gerçek zorluk ise uyuşmayan uluslararası karakterlerde ortaya çıkar. Mesela, Türkçe’de “i” harfinin büyük hali “İ”, “I” harfinin küçük hali de “ı"dır. Türkçe’nin bu özelliğini bilmeyen (yani İngilizce harmanlama tablosu kullanan) bir veritabanı sunucusu, “i", “ı”, “İ” ve “I” karakterlerini içeren bir sorgulama için yanlış sonuç döndürebilecektir. Bu sorun MySQL 4.1 ve sonrası sürümleri için tamamen ortadan kaldırılmıştır. MySQL’de UTF-8 karakter seti, “utf8_turkish_ci” adında küçük ve büyük harfe duyarlı olmayan bir harmanlama içerir. ISO-8859-9 (latin5) karakter seti ise iki harmanlama seçeneğine sahiptir: “latin5_bin” ve “latin5_turkish_ci”.
MySQL veritabanına girilen ve sorgulanan veriler için varsayılan karakter seti ve harmanlama türü beş farklı yerde belirtilebilir: (i) sunucu, (ii) veritabanı, (iii) tablo, (iv) sütun ve (iv) bağlantı. Her biri için detaylı bilgi ve örnek aşağıda verilmiştir.
- Veritabanı sunucu servisini başlatılırken:
mysqld --default-character-set=utf8 \
--default-collation=utf8_turkish_ci
- Veritabanını yaratırken (veya alter deyimiyle değiştirirken):
CREATE DATABASE db_ismi
DEFAULT CHARACTER SET utf8 COLLATE utf8_turkish_ci;
- Tablo yaratırken (veya alter deyimiyle değiştirirken):
CREATE TABLE tablo_ismi (sütun_listesi)
DEFAULT CHARACTER SET utf8 COLLATE utf8_turkish_ci;
- Tablo yaratma sırasında sütunları tanımlarken:
CREATE TABLE tablo_ismi
(
sütun_ismi VARCHAR(5) CHARACTER SET utf8 COLLATE utf8_turkish_ci
);
- Bölüm 5’te tanımlandığı gibi.
Kişisel tercihim karakter seti ve harmanlama seçiminin tablo yaratımı (iii) veya sütun tanımlanması (iv) sırasında yapılmasıdır. Uygulamanızın yapısına ve içeriğine bağlı olarak bunu sunucu veya veritabanı seviyesinde de gerçekleştirebilirsiniz. Örneğin; uygulamanız birden fazla dil desteği içeriyorsa, bazı veriler için her dile ayrı tablo yaratmak isteyebilirsiniz. Böylece her bir tabloyu farklı karakter seti ve harmanlamaya iliştirebilirsiniz.
6.1. SQL Sorgulamalarında Harmanlama Kullanımı
MySQL veritabanı, SQL sorgulamalarında dizgilerin karakter setini, dizgiden önce kullanılan bir tanıtıcı (introducer) deyim ile ayrıştırıcıya (parser) bildirir. Bu tanıtıcı, dönüşüm için değil, sadece karakter setini belirtmek için kullanılır. Örnek olarak şu SQL sorgusuna bakınız:
SELECT uid FROM users WHERE name = _utf8’Ümit’ COLLATE utf8_turkish_ci;
Yukarıdaki örnekte, `Ümit’ dizgisinin önüne eklenen _utf8, ayrıştırıcıya `Ümit’ kelimesinin UTF8 karakter setinde yazıldığını anlatan tanıtıcıdır. Tanıtıcı, MySQL karakter seti isminin önüne alt çizgi konularak yazılır. Eğer karakter seti ve harmanlama, tanıtıcı ve COLLATE yantümcesi (clause) tarafından açıkça belirtilmediyse, MySQL, character_set_connection ve collation_connection sistem değişkenlerince belirlenenleri kullanır. COLLATE yantümcesi, karşılaştırma için kullanılan varsayılan harmanlamayı geçersiz kılar ve SQL sorgusunun çeşitli yerlerinde kullanılabilir. Örnekler için MySQL kaynağına [8] başvurabilirsiniz. (Bu makalenin sürüm tarihi itibariyle, bölüm 10.3.8)
7. Sonuç
Bu makale, JSP uygulamalarının ve MySQL veritabanının özellikle Türkçe'yi içeren birçok dili ve karakter setini desteklemek üzere nasıl geliştirilip hazırlandığını açıklamaya çalıştı. Makale boyunca verilen kod örnekleri, değişik karakter kodlamalarını destekleyen bir ağ servisini içerik açısından hazırlamak için yeterlidir. Daha geniş bilgiye ihtiyaç duyan okurlar kaynaklar bölümündeki referanslara başvurabilirler.
|