Иван FXS
Дата: 26.12.2017 17:19:23
Если взять некоторый набор независимых (друг от друга) последовательностей битов длины N, упаковать их все каким нибудь архиватором (например, zip) и посчитать среднее значение (S) длины получившихся архивов и дисперсию (D) длин архивов, то ...
1. каким (по порядку величины хотя бы) будет отношение D/S?
2. у какого из известных архиваторов (наряду с zip) это отношение будет "заметно" бОльшим ( чем у остальных)?
3. Кстати, будет ли само распределение длин таких архивов (для конкретного архиватора) нормальным ... то есть, типа, что там -- Гаус или Пуассон?
Соколинский Борис
Дата: 26.12.2017 17:29:08
Иван FXS,
1. Надо брать не дисперсию, а корень из нее. Его отношение к среднему будет называться коэффициентом вариации и безразмерным.
2. Экспериментальная проверка займет минут 10.
3. Скорее всего, ничего похожего на "правильное" распределение не будет.
softwarer
Дата: 26.12.2017 17:33:27
Иван FXS |
---|
1. каким (по порядку величины хотя бы) будет отношение D/S? |
Это бессмысленный показатель, у числителя и знаменателя разные размерности.
А вообще - вопрос сам по себе тоже бессмысленен. Архивация как процесс опирается на тот факт, что реальные данные обладают внутренней структурой и существенно неслучайны. Попытка проверить что-то на каком-то случайном наборе бит приведёт лишь к ответу на вопрос "какой архиватор дописывает меньше хрени к несжимаемым данным".
exp98
Дата: 26.12.2017 18:34:42
О! Никогда не проверял, давным баловался меотдами сжатия, кажется теоретический предел сжатия ~2/3 (для текстов ~ 1/4). Можно на примере ехе-файла. Избыточность рулит.
а) Предполагаю, что так и будет.
б) Дополню Соколинского. Да, типовая мера = М/СКО, а не на Д. Т.е, скоко СКО умещается в М.
в) Такой широкий рынок архиваторов? В Пуассона/Релея как-то по смыслу больше верится: сильных алгоритмов мало, слабых - больше, а плохие никто не использует. Типа так ожидается. Правда это для чисто сжатия ( не для файла)
г) Следует помнить, что в сжатых архивах некое кол-во идёт на инфу, и даже потом пустой архив может оказаться не нулевым.
А вообще, это всё было о-о-очень давно...
Иван FXS
Дата: 27.12.2017 00:55:04
А если к опискам не цепляться (конечно, корень из D, а не D), а по содержанию что-нибудь сказать попробовать? Не?
______________
softwarer, я разве сказал "случайный набор"?
________________
И да, вопрос мог бы быть сформулирован так:
1. как выглядит статистика коэффициента сжатия (для "типичных" архиваторов)?
2. у каких архиваторов статистика коэффициента сжатия имеет бОльшую (по сравнению с другими "типичными" архиваторами) дисперсию?
mayton
Дата: 27.12.2017 01:03:15
WebSharper
Дата: 27.12.2017 09:01:19
exp98 |
---|
О! Никогда не проверял, давным баловался меотдами сжатия, кажется теоретический предел сжатия ~2/3 |
Мне кажется теоретического предела сжатия нет. Например однотерабайтный файл из одних нулей можно сжать до словосочетания "терабайт нулей".
exp98
Дата: 27.12.2017 09:35:50
WebSharper, ну это тоже из области придирок. Тогда уж и тексты можно сжимать до одной ссылки на глобальный корпус текстов. Говорят о статистическом теоретическом пределе в общем случае. Жипег взять - он не сожмётся, потому как там уже Хафман порылся. А возьми равномернорасределённую послед-сть ... А ещё помню, что английский сжимается больше русского, т.к. там язык для "лиц с ограниченными способностями". Наверняка есть сжималки, специализированные под конкретику.
И вопрос ТС я интерпретировал именно как для случайных выборок.
WebSharper
Дата: 27.12.2017 10:59:54
exp98 |
---|
WebSharper, ну это тоже из области придирок. Тогда уж и тексты можно сжимать до одной ссылки на глобальный корпус текстов.
|
Именно так.
|
---|
Говорят о статистическом теоретическом пределе в общем случае.
|
Не могли бы вы дать определение этого?
|
---|
т.к. там язык для "лиц с ограниченными способностями".
|
Задорнов жив!
|
---|
И вопрос ТС я интерпретировал именно как для случайных выборок. |
Случайные выборки их чего?
exp98
Дата: 27.12.2017 11:40:22
WebSharper |
---|
Случайные выборки их чего? |
их мн-ва {0;1} согласно ТСу
Сейчас посмотрел ехешки - раньше и ехешки были другими, менее сжимаемыми.
Кто такой этот ваш Задорнов? Я сам придумал!! Могу ещё: вставьте пипюру в пипюроприёмник
Об остальном - ну его нафиr ...