Талион и Эволюционная Стратегия 2.0

«выведи злословившего вон из стана, и все слышавшие пусть положат руки свои на голову его, и все общество побьет его камнями;
и сынам Израилевым скажи: кто будет злословить Бога своего, тот понесет грех свой;
и хулитель имени Господня должен умереть, камнями побьет его все общество: пришлец ли, туземец ли станет хулить имя [Господне], предан будет смерти.
Кто убьет какого-либо человека, тот предан будет смерти.
Кто убьет скотину, должен заплатить за нее, скотину за скотину.
Кто сделает повреждение на теле ближнего своего, тому должно сделать то же, что он сделал:
перелом за перелом, око за око, зуб за зуб; как он сделал повреждение на теле человека, так и ему должно сделать.
Кто убьет скотину, должен заплатить за нее; а кто убьет человека, того должно предать смерти.
Один суд должен быть у вас, как для пришельца, так и для туземца; ибо Я Господь, Бог ваш.»
©, Ветхий Завет, книга Левит

чисто куски копипасты, «Эгоистичный ген», Доккинз.

правила

Имеется «банкомет», который судит игру и выплачивает выигрыши двум игрокам. Допустим, что я играю против вас (хотя, как мы увидим, «против» — это как раз то, чего нам не следует делать). На руках у каждого игрока только по две карты с надписями Кооперируюсь и Отказываюсь. Каждый из нас выбирает одну из двух своих карт и кладет ее на стол рубашкой вверх, с тем чтобы ни один из игроков не знал, как пошел другой; собственно говоря, оба они ходят одновременно. Далее игроки напряженно ожидают, пока банкомет перевернет карты. Напряженность связана с тем, что выигрыш зависит не только от собственного хода (каждый игрок знает, какую карту положил он сам), но и от хода противника (что остается неизвестным, пока банкомет не перевернет карты).
Поскольку в игре участвуют 2х2 карты, то имеется четыре возможных исхода (из уважения к северо-американскому происхождению игры выигрыши приводятся в долларах):
Исход I. Мы оба сыграли КООПЕРИРУЮСЬ. Банкомет выплачивает каждому из нас по 300. Эта почтенная сумма называется «Награда за взаимное кооперирование».
Исход II. Мы оба сыгралиОТКАЗЫВАЮСЬ. Банкомет штрафует каждого из нас на 10. Это называется «Наказание за взаимный отказ».
Исход III. Вы сыграли КООПЕРИРУЮСЬ, а я ОТКАЗЫВАЮСЬ. Банкомет выплачивает мне 500 (Плата за риск) и штрафует вас (Простака) на 100.
Исход IV. Вы сыграли ОТКАЗЫВАЮСЬ, а я КООПЕРИРУЮСЬ. Банкомет выплачивает вам за риск 500 и штрафует меня (Простака) на 100.
 
обоснование за первую стратегию


путем безупречных логических рассуждений я установил, что независимо от ваших действий, я должен отказаться. С помощью столь же безупречной логики придете к точно такому же выводу и вы. Таким образом, когда встречаются два разумных игрока, они оба будут отказываться и оба в конечном счете либо заплатят штраф, либо получат небольшую выплату. При этом каждый из них прекрасно знает, что если бы только они оба играли Кооперируюсь, то каждый получил бы довольно высокую Награду за взаимное кооперирование (в нашем случае 300). Поэтому-то игра и называется Парадоксом, причем она так парадоксальна, что может довести до исступления, и поэтому раздавались голоса за то, чтобы издать закон о ее запрещении…



разрешение парадокса


Можно ли разрешить этот парадокс? Оба игрока знают, что, независимо от действий оппонента, лучшее, что они могут делать сами, это отказываться; но при этом оба знают также, что если бы только они оба кооперировались, то каждый из них оказался бы в более выгодном положении. Если бы только… если бы только… если бы только существовала какая-то возможность достигнуть соглашения, какой-то способ убедить каждого из игроков, что другому можно верить, что он не пойдет на то, чтобы эгоистично сорвать банк, если бы имелся какой-то способ проконтролировать соглашение.
После десяти партий я теоретически мог бы выиграть 5000, но только в том случае, если вы необыкновенно глупы (или праведны) и всякий раз играли Кооперируюсь, несмотря на то, что я все время ходил Отказываюсь. Более реально допустить, что каждый из нас получит по 3 тысячи за счет банкомета, если мы оба все 10 раз сыграли Кооперируюсь. Для этого нам не надо быть особенно праведными, так как мы оба можем убедиться на основании предшествующей игры противника, что ему можно доверять. Мы можем, в сущности, регулировать поведение друг друга. Вполне вероятен также и другой оборот: ни один из нас не вериг другому и мы оба играем Отказываюсь все десять раз, а банкомет получает от каждого из нас по 100 в виде штрафов. Скорее всего мы частично доверимся друг другу, каждый будет играть вперемешку то Кооперируюсь, то Отказываюсь, и в результате получит некую промежуточную сумму денег.



моделирование


В простом варианте возможны лишь две стратегии: Кооперируюсь и Отказываюсь. Итерация, однако, допускает множество стратегий, и какая из них лучше всех — отнюдь не очевидно. Приведем в качестве примера одну из тысяч: «играй Кооперируюсь по большей части, но в выбранных случайным образом 10% партий играй Отказываюсь». Другие стратегии могут зависеть от того, как протекала игра перед этим. Примером служит мой «Справедливый»: у него хорошая память на лица, и хотя в основном он склонен кооперироваться, он отказывается, если другой игрок отказывался когда-либо в прошлом.
Число стратегий, возможных в итеративной игре, ограничено, очевидно, лишь нашей изобретательностью. Можно ли установить, какая из них лучше всех? Эту задачу поставил перед собой Аксельрод. У него возникла увлекательная идея провести конкурс и он пригласил специалистов по теории игр представить свои стратегии. В данном случае стратегии — это заранее составленные программы действия, и соответственно соперники представили свои заявки на языке программирования. Было предложено четырнадцать стратегий. Аксельрод добавил к ним пятнадцатую, назвав ее Случайной, которая просто без всякой системы играла то Кооперируюсь, то Отказываюсь и служила своего рода базовой <анти-стратегией>: стратегию, дававшую худшие результаты, чем Случайная, следовало признать очень плохой.
Аксельрод описал все 15 стратегий на одном общем языке программирования. Каждая стратегия сравнивалась по эффективности поочередно с каждой из остальных (в том числе и с собственной копией) в игре Итерированный Парадокс заключенных. Поскольку стратегий было 15, то компьютер сыграл 15 х 15, или 225, отдельных игр. После того, как каждая пара сделала по 200 ходов, все выигрыши были суммированы и был объявлен победитель.
Нас здесь не интересует, какая именно стратегия вышла победителем в игре против каждого отдельного противника. Нам важно установить, какая стратегия выиграла больше всего «денег» за все свои 15 вариантов. «Деньги» — это просто «очки», присуждаемые по следующей схеме: взаимное Кооперирование — 3 очка; Риск — 5 очков; Наказание за взаимный отказ — 1 очко (эквивалент небольшого штрафа в игре, описанной ранее); Штраф Простаку — 0 очков (эквивалент большого штрафа в игре, описанной ранее).

Максимально возможный выигрыш, который могла бы получить та или иная стратегия, составляет 15000 очков (200 партий по 5 очков за партию с каждым из 15 противников). Минимальный результат составляет 0. Излишне говорить, что ни один из этих крайних результатов на самом деле не наблюдался. Наибольший выигрыш, на который может реально надеяться данная стратегия в среднем из своих 15 турниров, не может сколько-нибудь значительно превысить 600 очков. Это все, что мог бы получить каждый из двух игроков, если бы они оба все время играли Кооперируюсь, зарабатывая по 3 очка за каждую из 200 сыгранных партий. Если бы один из них поддался искушению отказаться, то число его очков, вероятно, оказалось бы меньше 600, так как другой игрок отплатил бы ему тем же (в большей части представленных стратегий было заложено в той или иной форме стремление к ответному удару). Мы можем использовать число 600 в качестве своего рода точки отсчета для данной игры и выражать результаты в процентах от этого числа. По такой шкале оценок теоретически можно довести выигрыш до 166% (1000 очков), но практически ни одна стратегия не заработала в среднем больше 600 очков.
Не забывайте, что «игроками» в турнире были не люди, а программы, точнее — запрограммированные стратегии. Их авторы, т. е. люди, выступали в той же роли, что и гены, программирующие тела (вспомните гл. 4 — компьютер, играющий в шахматы, и компьютер, созданный по инструкциям с Андромеды). Стратегии, о которых идет речь, можно рассматривать как доверенных лиц их авторов. На самом деле кто-то из авторов мог бы представить не одну, а несколько программ (хотя было бы жульничеством — которого Аксельрод, вероятно, не допустил бы, — если бы тот или другой автор «забил» весь турнир своими стратегиями, и одна из них воспользовалась бы плодами жертвенного кооперирования со стороны других).
Было предложено несколько очень хитроумных стратегий, хотя они были, конечно, далеко не столь хитроумными, как их авторы. Интересно, что победившая стратегия была проще всех других и на первый взгляд наименее хитроумной. Она называлась «Око за око» и была представлена проф. Анатолем Рапопортом (Anatol Rapoport), известным психологом и специалистом по теории игр из Торонто. По этой стратегии первым ходом должно быть Кооперируюсь, а в дальнейшем следует просто повторять предыдущий ход другого игрока.

23 комментария

avatar
Описание стратегии Око за Око

Допустим, что Око за око играет против стратегии, названной Наивный испытатель. На самом деле Наивный испытатель не участвовал в конкурсе Аксельрода, но тем не менее этот пример поучителен. Наивный испытатель в основном идентичен программе Око за око, с той разницей, что время от времени, скажем один раз за десять ходов, причем без всякой закономерности, он совершенно беспричинно играет Отказываюсь и требует 5 очков, причитающиеся ему за риск. До тех пор, пока Наивный испытатель не предпримет один из своих зондирующих отказов, оба игрока ведут себя в соответствии со стратегией Око за око. Однако внезапно, без предупреждения, скажем на восьмом ходу. Наивный испытатель отказывается. Око за око, разумеется, сыграла в этот раз Кооперируюсь, а поэтому получила 0 очков, как это положено Простаку. Наивный испытатель, казалось бы, добился успеха, заработав за этот ход 5 очков. Но своим следующим ходом Око за око «мстит». Она играет Отказываюсь, просто следуя заложенному в нее правилу копировать предыдущий ход противника. Тем временем стратегия Наивный испытатель, следуя правилу копировать противника, заложенному в нее самое, повторила ее ход — Кооперируюсь. В результате ей достается Штраф Простаку, т.е. 0 очков, тогда как Око за око получает высшую плату — 5 очков. Своим следующим ходом Наивный испытатель — довольно несправедливо, как можно подумать, — «мстит» за отказ стратегии Око за око. И такое чередование продолжается. При этом оба игрока получают в среднем по 2,5 очка за ход (среднее между 5 и 0). Это меньше, чем те верные 3 очка за ход, которые получают игроки, если они оба играют Кооперируюсь (кстати, это и есть причина введения того «дополнительного условия», которому не было дано объяснения на с. 188). Итак, когда Наивный испытатель играет против стратегии Око за око, оба выигрывают меньше, чем в игре Око за око против Ока за око. Если же игра идет между двумя Наивными испытателями, дела обоих обстоят еще хуже, так как серии взаимных отказов начинаются раньше.
Рассмотрим теперь еще одну стратегию, получившую название Раскаивающийся испытатель. Раскаивающийся испытатель сходен с Наивным испытателем, отличаясь от него лишь тем, что для запуска серии поочередных возмездии необходимо предпринимать активные шаги. Для этого ему нужна несколько более долгая «память», чем у стратегий Око за око или Наивный испытатель. Раскаивающийся испытатель запоминает, был ли его отказ спонтанным и привело ли это к быстрому возмездию. В этом случае он, «полный раскаяния», предоставляет своему противнику право на «один бесплатный удар», за которым не следует возмездия. Это означает, что серии взаимных возмездии пресекаются и самом зачатке. Если теперь продолжить воображаемую игру между стратегиями Раскаивающийся испытатель и Око за око, то обнаружится, что серии мнимых взаимных возмездии быстро прерываются. На протяжении большей части игры противники взаимно кооперируются, что обеспечивает им обоим большой выигрыш. Раскаивающийся испытатель играет более успешно против стратегии Око за око, чем Наивный испытатель, хотя и не так успешно, как Око за око против самой себя.
Некоторые из стратегий, участвовавших в турнире Аксельрода, были гораздо более хитроумными, чем Раскаивающийся испытатель или Наивный испытатель, однако они также набирали в среднем меньше очков, чем простая стратегия Око за око. В сущности наименее успешной из всех стратегий (если исключить Случайную) оказалась самая сложная, тщательно разработанная стратегия. Она была представлена под девизом «Автор пожелал остаться неизвестным», что послужило поводом для веселых гипотез. Кто автор? Какой-то серый кардинал в Пентагоне? Глава ЦРУ? Генри Киссинджер? Сам Аксельрод? Я думаю, что этого мы никогда не узнаем.
 
Выводы Аксельрода:
1.

Подробно разбирать отдельные стратегии не так уж интересно. В задачи этой книги не входит обсуждение изобретательности программистов. Гораздо интереснее распределить имеющиеся стратегии по определенным категориям и изучать эффективность этих более крупных подразделений. Самая важная из различаемых Аксельродом категорий названа «добропорядочной». Добропорядочная стратегия определяется как такая стратегия, которая никогда не отказывается первой. Примером служит Око за око. Она способна отказаться, но делает это только в порядке возмездия. Как Наивный, так и Раскаивающийся испытатели — недобропорядочные стратегии, потому что они иногда, хотя и редко, отказываются без всякого к тому повода. Из 15 стратегий, участвовавших в турнире, 8 были добропорядочными. Показательно, что эти же 8 стратегий набрали наибольшее число очков, а 7 недобропорядочных остались далеко позади. Стратегия Око за око набрала в среднем 504,5 очка, что составляет 84% от нашей точки отсчета (600 очков) и может считаться хорошим результатом. Другие добропорядочные стратегии набрали лишь немного меньше очков — от 83,4 до 78,6%, оставив далеко позади самую успешную из всех непорядочных стратегий — Грааскамп, набравшую 66,8% очков.
___________________________________


цитаты закончились.

кратко,

внешние условия: беспредел
первый вывод: добропорядочный рулит


что во всем этом меня сподвигло на совершение неких действий?

 
эмпирические (?) данные, положенные в религиозные книги в части заветов  шибко совпадают с расчитанными теоретически (завтра будет часть про Новый Завет, там тоже совпадает).

вопросы
1. это накопленная и формализованная в текст эмпирика, или результат моделирования?
2. можно ли, с определенными допущениями конечно, рассматривать эпиграф как алгоритм продвижения Эволюционно Стабильной Стратегии (далее, ЭСС) в массы

первое действие — уничтожение вируса, стремящегося уничтожить сам алгоритм. уничтожение вируса не подпадает под действие остальной части алгоритма.
второе действие — описание выигрышной, в условиях беспредела, стратегии «Око за око».
третье действие — описание попадающих под действие стратегии.


 позже продолжим, если интересно.
avatar
Ничего не писал сюда до сих пор — с души чото воротило, но не мог понять, в чём причина. Теперь понял: все эти стратегии — эгоистические по сути, и ковыряться в них нет никакого желания.
Щас же забрезжили конструктивные мысли на тему, посему поспешу их выложить.

1. Альтруистическое сообщество (АС) имеет огромное преимущество перед эгоистическим. КПД АС  всегда выше единицы за счёт синергии, результат всегда превосходит сумму вложенного. Пример — создание и накопление знания. В эгоистической структуре знание строго охраняется его владельцами, и используется ими монопольно насколько возможно долго. В альтруистической структуре новое знание сразу распространяется между всеми, и его результаты также, поэтому скорость создания нового знания в такой структуре на порядки выше. Основной фактор для АС — взаимное доверие.

2. Альтруизм всегда проигрывает в непосредственном столкновении с эгоизмом, поскольку кидание об колено доверчивого лоха никто не отменял.

3. Эгоистическое сообщество, дабы скомпенсировать свои недостатки, вынужденно вводит альтруистические компоненты, ибо на чисто эгоистических принципах оно очень плохо работает, но это — ложный альтрутизм, он рассчитан на то, что рано или поздно наступит удобный момент для кидалова. Взаимное доверие культивируется искусственно, но и разрушается регулярно, путём реализации наиболее активными эгоистами таких удобных моментов.

4. Для достижения максимальной эффективности альтруизм должен быть а) истинным, б) ограниченным. Что значит «ограниченным»? Во-первых, исключение из альтруистического сообщества особей, уличённых в эгоизме, поражение их в правах и в доступе к новому знанию. Во-вторых, демонстрация преимуществ жизни в альтруистическом режиме, оно должно сработать за пару поколений как новый поведенческий паттерн: полное доверие — к заслужившему его, и полный остракизм — для злоупотребившего.

Такая вот стратегия. 
avatar
Ничего не писал сюда до сих пор — с души чото воротило, но не мог понять, в чём причина. Теперь понял: все эти стратегии — эгоистические по сути, и ковыряться в них нет никакого желания.
а ты эстет ))

1. Альтруистическое сообщество (АС) имеет огромное преимущество перед эгоистическим. КПД АС  всегда выше единицы за счёт синергии, результат всегда превосходит сумму вложенного. Пример — создание и накопление знания. В эгоистической структуре знание строго охраняется его владельцами, и используется ими монопольно насколько возможно долго. В альтруистической структуре новое знание сразу распространяется между всеми, и его результаты также, поэтому скорость создания нового знания в такой структуре на порядки выше. Основной фактор для АС — взаимное доверие.
именно так, далее будут цифры 3.0, 4.0 и возможно, 5.0.

здесь мне потребуется помощь, надеюсь.


2. Альтруизм всегда проигрывает в непосредственном столкновении с эгоизмом, поскольку кидание об колено доверчивого лоха никто не отменял.
я использую термины «краткосрочный»  и «долгосрочный» периоды.
«непосредственность» не влияет при внимательном рассмотрении.

3. Эгоистическое сообщество, дабы скомпенсировать свои недостатки, вынужденно вводит альтруистические компоненты, ибо на чисто эгоистических принципах оно очень плохо работает, но это — ложный альтрутизм, он рассчитан на то, что рано или поздно наступит удобный момент для кидалова. Взаимное доверие культивируется искусственно, но и разрушается регулярно, путём реализации наиболее активными эгоистами таких удобных моментов.
да, называется «манипулирование».
метценгер уделяетт много внимания этому.

4. Для достижения максимальной эффективности альтруизм должен быть а) истинным, б) ограниченным. Что значит «ограниченным»? Во-первых, исключение из альтруистического сообщества особей, уличённых в эгоизме, поражение их в правах и в доступе к новому знанию. Во-вторых, демонстрация преимуществ жизни в альтруистическом режиме, оно должно сработать за пару поколений как новый поведенческий паттерн: полное доверие — к заслужившему его, и полный остракизм — для злоупотребившего.
а. — корректно
б. — корректно не всегда
Эта стратегия описана в тексте 1.0
она проигрывает более альтруистичным стратегиям.

соберусь, обосную.


avatar
а ты эстет ))
А просто ничего интересного здесь для меня нет. Кинуть сразу и жосско, кидать через раз, кидать редко, но по крупному, в остальное время прикидываясь душкой — не бином невтона, чистый градиент пропорций. Кинул пацана — по *балу на! © :)


 
avatar
Есть ещё один момент: все эти модели — для атомизированной среды, поэтому неадекватны в принципе. Отсутствие возможности кооперации не позволяет рассмотреть многие реальные явления, например — возможность коллективного репрессирования кидалы с непомерным для него проигрышем.
avatar
будет, будет все, потерпи )))
avatar
Альтруизм — «пойло для лохов». Всегда будут проблемы по кидкам пораженных альтруизмом. Альтруизм снабжен заведомо корявой прошивкой.  Только при последовательном ответе на вопрос самому себе «Зачем?», причем многократном, индивидуум будет способен прийти к решению о самопожертвовании и то если сочтет необходимым в данный момент времени.
Есть такое понятие как «Волшебная пиzдюля», часто не хочется приходить к подобному решению, а надо — тоже альтруизм?)))) 
avatar
не так

альтруизм есть проявление высшей формы эгоизма
avatar
Нет. Альтруизм есть увлечение.
avatar
альтруистическая муравьиха-добытчица кормит самку-королеву.
что она с этого наживает?
avatar
Действительно, а что наживает?
Или есть людики прожившие в шкуре муравьихи, да в муравейнике?
Кто ответит? Английские ученые? Или НАШИ?
В человейнике, глядя со стороны, оплату труда  деньгами можно не учитывать, потому как не соизмеримо со вредом, который наносит себе гномик в процессе — тоже альтруист?
Свежий пример у хлопцев скачащих.
avatar
она (муравьиха) наживает успешность муравейника.
ее эгоизм проявляется в успешности всех.
кооператив
совокупное владение

как только принимаем тезис «общество есть субъект (чему сопротивляется либерализм в истинном его понимании)», все становится очевидным.
avatar
можно, конечно же, шутить про британских ученых, уводя разговор за корягу.
avatar
Полюбому — общество субъект. Тот ещё...
Так хлопцы альтруисты?
К вопросу о субъекте —  в курсе чё добивается ЗОГ вааще? 
avatar
нет, не в курсе
avatar
Вооо, а он(суслик) есть!!! 
avatar
теперь что, убиццо что ли?
avatar
как вариант, для пришедших к такому выводу, но,  думаю, тебе рано, у тебя идея хорошая, трудится для огранки тебе надоть.
Про хлопцев молчишь

avatar
От тутачки подпишусь.
avatar
интересно — сознательно или подсознательно муравьиха «наживает» успешность муравейника?
avatar
А это неважно: королева — общак. Впрочем, есть мнения, что муравейник — не сообщество, а распределённый организм, и если оно так, то вопрос о сознательности (а также о «личном наживании») теряет смысл.
avatar
Тада и о твоёй сознательной деятельности можно забыть), несмотря на «сознательные» ответы.
Общак идея не плохая и важно думание о свободном доступе к общаку и даже примеры!!!!!!! 
Как в кино. Или каждому по потребности. 
avatar
Тада и о твоёй сознательной деятельности можно забыть
Не получится, по независящим от меня причинам.
 
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.