8 Aralık 2015 Salı

ASCII, UNICODE, UTF-8 NEDİR?

Merhaba :)

Bu yazımda sizlere Ascii, Unicode ve UTF-8 hakkında kısa bir tanımlama yapacağım. 

ASCII

Latin alfabesi üzerine kurulu 7 bitlik bir karakter kümesidir. İlk kez 1963 yılında ANSI tarafından standart olarak sunulmuştur.
  • ASCII'de 33 tane basılmayan kontrol karakteri ve 95 tane basılan karakter bulunur.
  • Kontrol karakterleri metnin akışını kontrol eden, ekranda çıkmayan karakterlerdir. Basılan karakterler ise ekranda görünen, okuduğumuz metni oluşturan karakterlerdir. 

Ascii kodu bizim bilgisayarda görsel olarak girdiğimiz karakter,harf ve rakamların bilgisayar dilindeki temsil edilme şeklidir diyebiliriz.Yani bilgisayarımızın o karakteri,harfi veya rakamı belleğinde saklama biçimidir,bilgisayar dilindeki kodlama sistemidir.
Açılımı ASCII (American Standard Code for Information Interchange)  olan bu kodlama sistemi ilk olarak telgraf kodlarında ticari amaçlı kullanılmıştır ve daha sonraları değişim ve gelişime uğramıştır.
Bilgisayarların geliştirilmesi ile birlikte birçok karakter kodlaması geliştirilmiştir. Bu kodlamalardan en çok kullanılan ASCII kodunda her karakter ve sembol için 7 bit (1 bayt) kullanılmaktadır.
ASCII kodu ile en fazla 128 farklı karakter gösterilebilmektedir. Bu 128 koddan 33’ü (ilk 32’si ve 127.) özel kontrol (Esc, Tab, Enter vb.) kodlarıdır. Genişletilmiş ASCII karakterler ise 8. bitin kullanılması ile 128 ile 255 arasındaki 128 karakteri kapsar. 
Bu her ülke için farklı kod sayfası tanımlanabilmesini ve gösterilebilmesini sağlamıştır. Fakat aynı anda birden fazla kod sayfası kullanılamadığından sadece bir dil kullanılabilmektedir.
Bir kod sayfası ile yazılmış anlamlı bir metin başka bir kod sayfası ile gösterildiğinde anlamsız karakterler dizisine dönüşmektedir. ASCII kodu Çince, Rusça, Arapça gibi diller ve bilimsel semboller için yetersiz kalmaktadır.
Dünya üzerindeki dillerin ve özel sembollerin kullanılabilmesi için fazla karakter alabilecek bir kodlamaya ihtiyaç duyulmaktadır. Bunun için Unicode geliştirilmiştir.

UNICODE

Unicode, Unicode Konsorsiyumu tarafından geliştirilen birçok firma ve programın desteği bir kodlama standardıdır. Unicode’da dünya üzerindeki her karakter ve sembole bir karakter numarası verilir. Verilen karakter numaraları sabittir, değiştirilemez. Unicode sürekli olarak gelişmektedir.
Unicode’da karakter numaraları sabit olmasına karşın farklı karakter kodlamaları kullanılmaktadır. Bunlardan bazıları (Unicode Transformation Format) UTF-8,UTF-16 ve UTF-32’dir. Bunlar bilgisayarda verimli bir biçimde saklayabilmektedir.
  • En sık kullanılan UTF-8 değişken uzunluğa sahip karakter kodlamasıdır. Uyumluluk için ilk 128 ASCII karakter için 1 bayt (8 bit) kullanılırken diğer karakterler için 6 bayta kadar kullanılmaktadır.
  • UTF-16, 65.536 karakteri temsil etmek için iki bayt kullanır. Ancak, UTF-16’da bir milyon kadar ek karakter için 4 bayt desteklenir.
  • UTF-32, her karakter için 4 bayt kullanır.

UTF-8

UTF-8, 8-bitlik bir Unicode dönüşüm formatıdır.Unicode karakterlerini değişken uzunluklu bayt guruplarıyla kodlamakta kullanılır. Rob Pike ve Ken Thompson tarafından geliştirilmiştir.
UTF-8 kodlaması Unicode karakterlerini 1-6 byte uzunluğunda diziler olarak kodlar. ASCII kodlaması içinde 0-127 arasında kalan karakterler aynen kendi kodları ile kullanılır, diğerleri ise byte dizileri haline gelir.
Evrensel kodlama ile aynı sayfada farklı lisanları göstermek mümkün olabilmektedir. Ayrıca özel hazırlanmış klavyeler ile matematiksel ifadeleri yazmak da mümkün. Bütün bu farklı karakterler UTF-8 sayesinde aynı sayfada görüntülenebilmektedir.
UTF kullanarak 1 milyondan fazla karakter kodlanılabilinmektedir. Sıklıkla kullanılan 65536 karakterin kodlaması bu 1 milyondan fazla kodlamada ilk sıralarda yer almaktadır.
Türkçe karakterlerin UTF-8 karşılığı:




Hiç yorum yok:

Yorum Gönder