Об информационной энтропии

Аноним Вск 20 Апр 2014 02:36:30 #1 №195179

Информационная энтропия по Шэннону определяется как взвешенное среднее отрицательного информационного содержания, где "вес" - это вероятность результата.

Формально: для случайной величины X со значениями x_1, ..., x_n где каждое значение принимается с вероятностью p_1, ..., p_n соответственно, функция энтропии: H(X) = Sum_{k = 1 to n}(p(x_k)log_2(p(x_k)))

Наибольший интерес в определении представляет понятие "информационное содержание". Что это? Представим монетку, которая всё время падает на "орла". Результат "орёл" не несёт никакой информации, т.к. монетка и так на орла падает всё время. Таким образом информационное содержание результата "орёл" - ноль. Никакой информации этот результат не добавляет.

В отличие от монетки которая с вероятностью 50% падает на "орла" и с вероятностью 50% падает на "решку". Здесь результат "орёл" внёс информацию. Сколько бит (единица измерения информации) потребовалось для сообщения того, что результат "орёл"? 1 бит минимум. Таким образом нам не хватало ровно одного бита, чтобы знать о результате. Таким образом информационное содержание результа "орёл" - 1 бит. И нам его не хватает. В похожем примере с с четырехгранной костью: её энтропия равна 2 бита.

Как можно расчитать информационное содержание результата в общем случае?
Опять-таки по Шэннону информационное содержание определяется как двоичный логарифм от вероятности результата: log_2(p(v_k)). Почему? Здесь можно руководствоваться следующим интуитивным соображением: "чем реже результат - тем он больше несёт информации - тем больше бит требуется для его сообщения". Действительно частота выпадения "орла" или "решки" 50% на 50%, и значит для сообщения об "орле" или "решке" не хватает только одного бита, 0 - "орёл", 1 - "решка". Проверим: log_2(p(орёл)) = log_2(0.5) = -1.

Возьмём пример посложнее: возьмём двоичную последовательность 000, 001, ..., 111. Вероятность результата 101 равна 1/8. И действительно необходимо (не хватает) 3 бита, чтобы сообщить о 101. 1-й бит который равен 1, отсекает все последовательности начинающиеся на 0, 2-й бит который равен 0 отсекает все последовательности у которых 2-й член равен 1, 3-й бит который равен 1 отсекает все последовательности у которых 3-й член равен 0. Остаётся ровно один результат 101. Проверим: log_2(p(101)) = log_2(2^-3) = -3

Если бы у нас была последовательность 101, 101, ..., 101 (фактически эквивалентно монетке падающей всё время на орла), то вероятность выпадения 101 равна 1, значит нам необходимо 0 бит. Проверим: log_2(p(101)) = log_2(1) = 0. То есть информационное содержание в данном случае у 101 - нулевое.

Таким образом посчитав двоичный логарифм от вероятности результата - получим его информационное содержание.

После этого осталось рассмотреть все возможные результаты системы, посчитать их информационное содержание, и домножить на вероятность такого результата. Получим некое "усреднённое" число бит, которое не хватает для выражения всех результатов системы.
Приходим к H(X) = Sum_{k = 1 to n}(p(x_k)log_2(p(x_k)))

Пример: энтропия монеты в 99% падающей на орла, в 1% на решку: -0.08 бит (видим, что близко к нулю).

Аноним Вск 20 Апр 2014 02:55:33 #2 №195182

>>195179
Как там твоя зарплата, пидор? Не повысили?

Аноним Вск 20 Апр 2014 02:56:44 #3 №195183

>>195182
В чём дело?

Аноним Вск 20 Апр 2014 04:37:22 #4 №195189

>>195182
Ну, теоретически, не любой пост с отсечением пробелами - переводческий. Тем более странно, что это ОП-пост, а ОП не предлагал нассать в рот "эйнштейнопетухам", что опять же не характерно.
>>195179
Нахуя ты все это написал?

Аноним Вск 20 Апр 2014 05:00:39 #5 №195191

>>195189
>Нахуя ты все это написал?
1. Проверить своё понимание
2. В (относительно) доступной форме рассказать о понятии энтропии.

Дальше планировалось обсудить понятие термодинамической энтропии и информационной и тесную связь между ними.

Аноним Вск 20 Апр 2014 05:25:02 #6 №195192

>>195189
Отбивка пробелами, болд, Шеннон, информация, энтропия. Кукарекает про связь энтропии в термодинамике с информационной энтропией. Утверждает, что он это не он. Где же я все это видел?

Аноним Вск 20 Апр 2014 05:28:00 #7 №195193

>>195192
>Отбивка пробелами
Логическое разбиение текста на абзацы.

>Шеннон, информация, энтропия.
Что-то не так?

>связь энтропии в термодинамике с информационной энтропией.
Ты утверждаешь, что её нет?

Аноним Вск 20 Апр 2014 05:31:56 #8 №195194

>>195193
> Что-то не так?
Всё так, няша. Всё уже года полтора именно так. Ничего в тебе не изменилось - как был деревенский петух, так и остался.

Аноним Вск 20 Апр 2014 05:34:10 #9 №195195

>>195194
Угу. Аргументы будут?

Аноним Вск 20 Апр 2014 05:52:43 #10 №195196

А, дошло.
Если что - я не Переводчик и тем более не сторонник теории эфира. Более того на мои вопросы о преемственности гипотезы эфира со всеми остальными положениями в физике и о том что именно она способна объяснить - ответа не было получено. Вместо этого было невнятное "не стоит так строго блюсти принцип преемственности" или что-то в этом роде.

Надеюсь, этим я доказываю, что я не являюсь тем кем меня пытаются считать.

Если я в своём описании и попытке объяснения допустил какие-то неточности - готов выслушать критику.

На строгость в своём описании не претендую.

Аноним Вск 20 Апр 2014 11:50:53 #11 №195215

>>195179
Как возможно нецелое число бит?

Аноним Вск 20 Апр 2014 11:59:08 #12 №195216

>>195193
>Ты утверждаешь, что её нет?
Ты самостоятельно подумай, мне тебя так жаль, что не хочется посылать нахуй.

Аноним Вск 20 Апр 2014 12:42:06 #13 №195223

>>195216
конструктивный ответ в стиле /сци. В рамочку и на стенку

Аноним Вск 20 Апр 2014 13:32:58 #14 №195230

>>195194
Хуйню ты порешь.

Мимо

Аноним Вск 20 Апр 2014 15:28:22 #15 №195257

>>195179
> H(X) = Sum_{k = 1 to n}(p(x_k)log_2(p(x_k)))
А разве не H(X) = - Sum_{k = 1 to n}(p(x_k)log_2(p(x_k))) ?

Аноним Вск 20 Апр 2014 15:43:05 #16 №195262

>>195257
Верно, ведь логарифм дроби отрицательный. Спасибо.

>>195215
Точно также как возможно нецелое число сантиметров, секунд, грамм, ... Бит - единица измерения информации и "не-информации" (энтропии).

>>195216
Этим ответом ты меня фактически послал нахуй, т.к. информации в нем мало. Есть что сказать - скажи, нет - не вмешивайся в разговор.

Аноним Пнд 21 Апр 2014 00:50:56 #17 №195303

>Точно также как возможно нецелое число сантиметров, секунд, грамм, ... Бит - единица измерения информации и "не-информации" (энтропии).
Нет нет, сантиметр - это произвольно выбранная величина. А бит - это как квант, минимальный размер информации, 0 или 1. Половина бита - это всё равно что половина электрона, не может такого быть.

Аноним Пнд 21 Апр 2014 01:00:53 #18 №195304

>>195303
В теории информации понятие "бит" обобщено. Фактически 0 или 1 у нас получается, когда шансы для двух значений 50% на 50%. Это ограничение, которое вполне может быть снято.

>сантиметр - это произвольно выбранная величина
В таком случае бит - это тоже "произвольно выбранная величина", которая измеряет энтропию в случае двух равновероятных исходов.

Аноним Пнд 21 Апр 2014 01:48:23 #19 №195313

>>195304
>бит - это тоже "произвольно выбранная величина",
Вернее единица измерения величины.

>сантиметр - это произвольно выбранная величина
Это не величина, а единица измерения величины.

Аноним Пнд 21 Апр 2014 07:03:12 #20 №195324

>>195304
Ну это только в теории, на практике же, нецелых битов не бывает.

Аноним Пнд 21 Апр 2014 08:21:49 #21 №195327

>>195324
Вообще то измерение энтропии и ее уменьшение (добавление информации) один из возможных критериев построения дерева обучения (learning decision tree) на заданной тренировочной группе примеров. Один из методов машинного обучения.

Аноним Пнд 21 Апр 2014 14:06:41 #22 №195338

1398074801740.jpg

>>195324
Еще как бывает. Допустим тебе надо закодировать два числа (X и Y), каждое в диапазоне 0-180. Ты можешь потратить на каждое число 8 бит (ты же не можешь потратить 7,5 верно?) Итого на оба числа уйдет 16 бит. Но, также, ты можешь закодировать N = X*181+Y. N получается в диапазоне 0 - 32760, что можно закодировать 15-ю битами. Итого на каждое из исходных по 7.5 бит.

Аноним Пнд 21 Апр 2014 15:58:12 #23 №195348

>>195338
Ну это на рассчётах получается 7.5 бит на число, а на деле же ты располагаешь 15-ю битами, которые кодируют два числа. Полбита в чистом виде получено не было. То есть, как я и сказал, нецелые биты только в теории, но не на практике.

Аноним Пнд 21 Апр 2014 19:04:52 #24 №195359

>>195348
Скажи пожалуйста, что ты называешь "практикой"?
Тебе показали решение в которой сокращается число бит на передачу X, Y в отличие от решения в котором если X, Y передаются отдельно - то мы тратим больше бит.

Тебе показали ситуацию в которой измерение числа бит влияет на процесс поиска оптимального дерева решений.

По-моему достаточно практичные примеры.

Аноним Пнд 21 Апр 2014 19:08:35 #25 №195360

>>195359
>решение в которой
в котором
fix

Аноним Пнд 21 Апр 2014 21:23:35 #26 №195389

>>195359
Практикой я называю фактические нули и единицы, которыми мы кодируем что-либо, очевидно, в таком определении нецелых бит быть не может. Сокращение числа бит для записи той же информации - это здорово, не спорю.

Аноним Срд 23 Апр 2014 16:33:57 #27 №195652

>>195179
>Как можно расчитать информационное содержание результата в общем случае?

Без контекста - никак. Падающая монетка не несет никакой информации, в отличие от белого флага над осажденной крепостью.

Аноним Срд 23 Апр 2014 19:53:54 #28 №195682

>>195652
Во-первых падающая монетка несет информацию о том что она падает. Так как вероятность падения существует, потому что монетка может находиться в разных состояниях (лежать, стоять на ребре, падать). Раз имеется вероятность падения следовательно по Шеннону имеется информационное содержание события "монетка падает".

Во-вторых естественно необходим контекст (как минимум вероятность события) чтобы установить его информационное содержание.

Аноним Срд 23 Апр 2014 20:53:19 #29 №195690

>>195682
>Во-первых падающая монетка несет информацию о том что она падает.

Только в твоем уютном мирке.

Аноним Чтв 24 Апр 2014 01:08:31 #30 №195714

>>195690
Почему?

Аноним Птн 25 Апр 2014 13:54:58 #31 №195881

>>195714
>Почему?

Потому что для получения информации о координатах частицы ты пользуешься ПРИБОРАМИ, которые специально ПРОГРАДУИРОВАНЫ в особых ЕДИНИЦАХ ИЗМЕРЕНИЯ.

Сама по себе элементарная частица никакой информации НЕ НЕСЕТ.

Вся эта ересь, которую образованцы несут насчет информации в электронах и морском песке, обнажает их умственную немочь и отсутствие навыков абстрактного мышления.

Аноним Птн 25 Апр 2014 15:43:34 #32 №195888

>>195881
>Сама по себе элементарная частица никакой информации НЕ НЕСЕТ.
Но монетка не элементарная частица.

Аноним Птн 25 Апр 2014 19:25:06 #33 №195901

>>195881
...информации о координатах
Речь не шла о координатах и тем более о единицах их измерения. Это уже способы представления события. Речь шла только о его вероятности. Коль скоро существует вероятность события, и она не равна 1 - существует его информационное содержание.

Аноним Птн 25 Апр 2014 20:01:43 #34 №195906

1398441703770.gif

Фас!
Куда форсер подевался? Может, случилось что? Отпишись, няша, я волнуюсь

Аноним Суб 26 Апр 2014 12:57:47 #35 №195952

>>195906
да идите вы со своей маней нахуй в б и в пизду
вниманиебляди не нужны