Bu yazımda
sizlere Ascii, Unicode ve UTF-8 hakkında kısa bir tanımlama yapacağım.
ASCII
Latin alfabesi üzerine kurulu
7 bitlik bir karakter kümesidir. İlk
kez 1963 yılında ANSI tarafından standart olarak
sunulmuştur.
- ASCII'de 33 tane basılmayan kontrol karakteri ve 95 tane basılan karakter bulunur.
- Kontrol karakterleri metnin akışını kontrol eden, ekranda çıkmayan karakterlerdir. Basılan karakterler ise ekranda görünen, okuduğumuz metni oluşturan karakterlerdir.
Ascii kodu bizim bilgisayarda görsel
olarak girdiğimiz karakter,harf ve rakamların bilgisayar dilindeki temsil
edilme şeklidir diyebiliriz.Yani bilgisayarımızın o karakteri,harfi veya rakamı
belleğinde saklama biçimidir,bilgisayar dilindeki kodlama sistemidir.
Açılımı ASCII (American Standard
Code for Information Interchange) olan bu kodlama sistemi ilk olarak
telgraf kodlarında ticari amaçlı kullanılmıştır ve daha sonraları değişim ve
gelişime uğramıştır.
Bilgisayarların geliştirilmesi ile
birlikte birçok karakter kodlaması geliştirilmiştir. Bu kodlamalardan en çok
kullanılan ASCII kodunda her karakter ve sembol için 7 bit (1 bayt)
kullanılmaktadır.
ASCII kodu ile en fazla 128 farklı
karakter gösterilebilmektedir. Bu 128 koddan 33’ü (ilk 32’si ve 127.) özel
kontrol (Esc, Tab, Enter vb.) kodlarıdır. Genişletilmiş ASCII karakterler ise
8. bitin kullanılması ile 128 ile 255 arasındaki 128 karakteri kapsar.
Bu her ülke için farklı kod sayfası
tanımlanabilmesini ve gösterilebilmesini sağlamıştır. Fakat aynı anda birden
fazla kod sayfası kullanılamadığından sadece bir dil kullanılabilmektedir.
Bir kod sayfası ile yazılmış anlamlı bir
metin başka bir kod sayfası ile gösterildiğinde anlamsız karakterler dizisine
dönüşmektedir. ASCII kodu Çince, Rusça, Arapça gibi diller ve bilimsel
semboller için yetersiz kalmaktadır.
Dünya üzerindeki dillerin ve özel
sembollerin kullanılabilmesi için fazla karakter alabilecek bir kodlamaya
ihtiyaç duyulmaktadır. Bunun için Unicode geliştirilmiştir.
UNICODE
Unicode, Unicode Konsorsiyumu tarafından
geliştirilen birçok firma ve programın desteği bir kodlama standardıdır.
Unicode’da dünya üzerindeki her karakter ve sembole bir karakter numarası
verilir. Verilen karakter numaraları sabittir, değiştirilemez. Unicode sürekli
olarak gelişmektedir.
Unicode’da
karakter numaraları sabit olmasına karşın farklı karakter kodlamaları
kullanılmaktadır. Bunlardan bazıları (Unicode Transformation Format)
UTF-8,UTF-16 ve UTF-32’dir. Bunlar bilgisayarda verimli bir biçimde
saklayabilmektedir.
- En sık kullanılan UTF-8 değişken uzunluğa sahip karakter kodlamasıdır. Uyumluluk için ilk 128 ASCII karakter için 1 bayt (8 bit) kullanılırken diğer karakterler için 6 bayta kadar kullanılmaktadır.
- UTF-16, 65.536 karakteri temsil etmek için iki bayt kullanır. Ancak, UTF-16’da bir milyon kadar ek karakter için 4 bayt desteklenir.
- UTF-32, her karakter için 4 bayt kullanır.
UTF-8
UTF-8, 8-bitlik bir Unicode dönüşüm
formatıdır.Unicode karakterlerini değişken uzunluklu bayt guruplarıyla
kodlamakta kullanılır. Rob Pike ve Ken Thompson tarafından geliştirilmiştir.
UTF-8 kodlaması Unicode
karakterlerini 1-6 byte uzunluğunda diziler olarak kodlar. ASCII kodlaması
içinde 0-127 arasında kalan karakterler aynen kendi kodları ile kullanılır,
diğerleri ise byte dizileri haline gelir.
Evrensel kodlama ile aynı sayfada farklı
lisanları göstermek mümkün olabilmektedir. Ayrıca özel hazırlanmış klavyeler
ile matematiksel ifadeleri yazmak da mümkün. Bütün bu farklı karakterler UTF-8
sayesinde aynı sayfada görüntülenebilmektedir.
UTF kullanarak 1 milyondan fazla karakter kodlanılabilinmektedir.
Sıklıkla kullanılan 65536 karakterin kodlaması bu 1 milyondan fazla kodlamada
ilk sıralarda yer almaktadır.
Türkçe karakterlerin UTF-8 karşılığı:
Hiç yorum yok:
Yorum Gönder