Юникод и utf8

Eugene New
Дата: 24.09.2018 16:42:43
Юнико́д активно всем навязывали и наконец практически всем навязали.

Эта штука реально бесит. С какой стати мы должны платить увеличением объема строк в два раза из-за китайцев, у которых ущербная письменность. Тогда как русский алфавит прекрасно умещается в один байт.

А utf8 нарушает представление строки в виде массива символов, на что рассчитаны все алгоритмы с начала эры программирования.

Причем англосаксы то себе неудобств этим utf8 создали намного меньше, чем другим, т. к. их символы в нем записываются в один байт. Вероятно, многие из них даже не учитывают возможную многобайтовость символов и работают с ними как с одиночными байтами.

Зато все другие языки низвели до иероглифов.

Как вы относительсь к юникоду и utf8? По мне что то, что другое - зло.
Dima T
Дата: 24.09.2018 18:01:47
Eugene New
С какой стати мы должны платить увеличением объема строк в два раза ...

А кто собственно заставляет? CP1251 кто запретил?
mayton
Дата: 24.09.2018 20:13:54
Я заметил что Евгений очень часто поднимает проблемы, которые впоследствии оказывается не проблемами.


P.S. ПТ закрылся а штормит ещё...
Изопропил
Дата: 25.09.2018 00:44:13
Eugene New
Как вы относительсь к юникоду и utf8? По мне что то, что другое - зло

Хорошо относимся
Кроме кириллицы есть latin1

Если бесит - попейте успокоительного
miksoft
Дата: 25.09.2018 00:46:01
Eugene New,

Используйте UTF16, пусть англосаксы тоже платят :)
Andy_OLAP
Дата: 25.09.2018 00:57:54
Eugene New
и наконец практически всем навязали.

Да, мы работали над этим, спасибо, что оценили наши усилия. Активно агитирую Вас отказаться раз и навсегда от использования однобайтовых кодировок. Как говорится - "Однобайтовых кодировок больше нет, Вы держитесь здесь, Вам всего доброго, хорошего настроения и здоровья!"
Eugene New
Дата: 25.09.2018 01:40:00
Andy_OLAP,
Активно агитирую Вас отказаться раз и навсегда от использования однобайтовых кодирово

Зачем мне это делать? Есть рациональные причины?

Если бесит - попейте успокоительного

В таких советах не нуждаюсь.
mayton
Дата: 25.09.2018 07:49:31
Eugene New

А utf8 нарушает представление строки в виде массива символов, на что рассчитаны все алгоритмы с начала эры программирования..


Расширю утверждение.

Префиксное кодирование нарушает преставление сжатого потока в виде массива байтов.
Basil A. Sidorov
Дата: 25.09.2018 08:30:52
Ваши страдания не соответствуют реалиям жизни:
           2326241 ГК РФ CP1251.txt
4231334 ГК РФ UTF-8.txt +82%
470063 ГК РФ CP1251.zip
565594 ГК РФ UTF-8.zip +20%
350556 ГК РФ CP1251.7z
384932 ГК РФ UTF-8.7z +10%
Dima T
Дата: 25.09.2018 09:14:25
Basil A. Sidorov
Ваши страдания не соответствуют реалиям жизни:
           2326241 ГК РФ CP1251.txt
4231334 ГК РФ UTF-8.txt +82%
470063 ГК РФ CP1251.zip
565594 ГК РФ UTF-8.zip +20%
350556 ГК РФ CP1251.7z
384932 ГК РФ UTF-8.7z +10%

С жатым понятно почему разница небольшая, но поднят вопрос не только передачи, но и произвольного доступа, т.е. разговор о не сжатом.

+82% потому что кроме букв есть еще пробелы, переводы строк, знаки препинания и т.д., которые однобайтовые в UTF-8.