UTF-8 vs. UTF-16
UTF on Unicode Transformation Format. Se on standardiryhmä Unicode-merkistöjen koodaamiseksi vastaavaan binääriarvoon. UTF kehitettiin siten, että käyttäjillä on standardoidut keinot merkistöjen koodaamiseen mahdollisimman vähän tilaa.UTF-8 ja UTF 16 ovat vain kaksi vakiintuneista koodausstandardeista. Ne eroavat vain siinä, kuinka monta tavua he käyttävät kunkin merkin koodaamiseen. Koska molemmat ovat muuttuvan leveyden koodauksia, ne voivat käyttää jopa neljä tavua tietojen koodaamiseen, mutta kun kyse on vähimmäisarvosta, UTF-8 käyttää vain 1 tavua (8 bittiä) ja UTF-16 käyttää 2 tavua (16 bittiä). Tällä on valtava vaikutus koodattujen tiedostojen tulokseen. Kun käytetään vain ASCII-merkkejä, UTF-16-koodattu tiedosto olisi suunnilleen kaksi kertaa niin suuri kuin sama UTF-8-koodattu tiedosto.
UTF-8: n tärkein etu on, että se on taaksepäin yhteensopiva ASCII: n kanssa. ASCII-merkistö on kiinteä leveys ja käyttää vain yhtä tavua. Kun koodataan tiedostoa, joka käyttää vain ASCII-merkkejä UTF-8: lla, tuloksena oleva tiedosto olisi identtinen ASCII: lla koodatun tiedoston kanssa. Tämä ei ole mahdollista käytettäessä UTF-16, koska jokainen merkki olisi kahden tavun pituinen. Vanha ohjelmisto, joka ei ole Unicoden tiedossa, ei pystyisi avaamaan UTF-16-tiedostoa, vaikka siinä olisi vain ASCII-merkkejä.
UTF-8 on tavupohjainen muoto, joten sillä ei ole ongelmia tavupohjaisten verkkojen tai tiedostojen kanssa. UTF-16 ei sitä vastoin ole tavuorientoitunut ja sen on luotava tavujärjestys toimiakseen tavuorientoituneiden verkkojen kanssa. UTF-8 on myös parempi toipuminen virheistä, jotka vioittavat tiedoston tai streamin osia, koska se voi silti purkaa seuraavan vioittumattoman tavun. UTF-16 tekee täsmälleen saman asian, jos jotkut tavut ovat vioittuneet, mutta ongelma on, kun jotkut tavut menetetään. Kadonnut tavu voi sekoittaa seuraavat tavuyhdistelmät ja lopputulos vääristyy.
Yhteenveto:
1. UTF-8 ja UTF-16 käytetään molemmat merkkien koodaamiseen
2. UTF-8 käyttää vähintään tavua merkkien koodaamiseen, kun taas UTF-16 käyttää kahta
3. UTF-8-koodattu tiedosto on yleensä pienempi kuin UTF-16-koodattu tiedosto
4. UTF-8 on yhteensopiva ASCII: n kanssa, kun taas UTF-16 ei ole yhteensopiva ASCII: n kanssa
5. UTF-8 on tavuorientoitunut, kun taas UTF-16 ei ole
6. UTF-8 on parempi palautumaan virheistä kuin UTF-16