时间:2022-11-19 16:47:33 浏览:76
GTO扑克的“GTO”部分代表“最优博弈论”。在扑克中,这个术语被用来表示一些不同的概念。
GTO指的是关于对手建模的想法,并根据范围和概率来思考扑克情况,而不是严格以结果为导向。
有时,这些想法会简化为年轻的职业玩家在扑克室大喊大叫,讨论给定的打法是“GTO”——还是“GTO的对立面”,正如我最近所说在讨论帖中看到。
但GTO扑克的真正含义是什么?它适用于您的游戏吗?
寻求无法利用的策略
游戏的博弈论最优解具有精确的数学定义。
考虑一下这对扑克玩家意味着什么,以及这个概念如何成为研究理想扑克策略的主导框架是很有趣的。
由于这些天我的大部分时间都花在构建玩强力扑克的计算机AI上,所以我经常思考计算机如何看待GTO扑克策略来玩无法开发的扑克。
GTO——尤其是在现代扑克游戏的背景下——很大程度上是关于追求一种让你不可能被推来推去的策略。
想想《杀死比尔》中的乌玛瑟曼。或任何布鲁斯·威利斯电影中的布鲁斯·威利斯。
在扑克之外,GTO通常被引入“囚徒困境”。
GTO扑克与囚徒困境囚徒困境(来源:宾夕法尼亚州立大学)
在这种假设情况下,我们两人因共同犯罪而被捕。
如果我们谁都不说话,我们都会说些轻松的话。然而,如果我们中的一个人向另一个人告密,告密者将不会受到任何惩罚,而不说话的人将受到严厉的惩罚。
如果我们都告密,我们都会受到严厉的判决,因为每个人的证词都可以用来对付另一个人。
尽管我们最好选择第一种情况(没人说话),但每个人都最好不要与当局合作,无论对方做什么(如果我不告密,你应该告密以免费离开,并且如果我告密,你也一定要告密)。
在玩家因互相利用而获得奖励的环境中,可能不值得合作行动,即使这样做对各方都有利。
“泡沫困境”
博弈论最优解与扑克:对GTO扑克101的几点思考另一个困境:锦标赛泡沫
相当于扑克牌的是两名玩家在锦标赛的泡沫中一决高下。
除了可以在没有破灭风险的情况下筹码进入泡沫的超深筹码外,其余玩家将从任何导致淘汰的对抗中受益。
因此,手牌中的两名玩家试图互相淘汰,只是在伤害自己。然而,他们不可能合作达成互惠互利的解决方案。
对一个有思想的扑克玩家来说,对对手试图碾压你的企图做出反应是很自然的,用GTO扑克来构建它似乎几乎是多余的。
你的对手当然有策略。你对不同牌手的策略有一些了解,你的工作是在执行你自己的策略时考虑到这一点。
换句话说,玩播放器。这就是GTO扑克的意义所在。
“解决”德州扑克(和其他游戏)的探索
当你根据对手的策略调整你的策略时,他或她也会根据你的策略进行调整,依此类推。
对于单挑限注德州扑克,阿尔伯塔大学的团队将这一过程得出了合乎逻辑的结论,并于今年早些时候在《科学》杂志上发表了他们的结果。
使用计算机网络,他们设置了两种松散的策略,反复调整以适应彼此的游戏。
最终,他们达到了这样一种状态,即在任何特定情况下,双方都无法获得哪怕是1%的优势。
这听起来很复杂,我正在稍微简化他们所做的事情。但从本质上讲,他们达成了一种对手无法利用的策略——或者至少无法利用超过1%的优势——使用任何其他可能的策略。
有点令人困惑的是,阿尔伯塔大学的团队声称他们已经“解决”了单挑限注德州扑克,而且他们只找到了单挑限注德州扑克的一个GTO均衡,并且可能还有其他均衡游戏,有待发现。
博弈论最优解与扑克:对GTO扑克102的几点思考阿尔伯塔大学团队(来自TheVerge)
根据这篇论文,他们的“近乎完美”的单挑限注德州扑克机器人在庄家位置加注了90%以上的手牌,但当它几乎从大盲位置3bet时根本不进行4bet,即使是{一个-}{一个-}.
这似乎暗示{一个-}{一个-}在按钮位4bet是错误的,或者至少不如通过平跟3bet来掩饰底牌有利可图。
我第一次阅读他们的论文时,我当然认为他们就是这个意思。
然而,Alberta的人很快指出,{一个-}{一个-}只有在他们发现的GTO均衡中,100%的时间用按钮跟注3bet才是最优的。
考虑到他们的其他策略,用口袋A4bet会更糟。您可能可以用A进行4bet,但随后策略的其余部分将需要调整。
至少,你也需要用其他牌4bet,以免泄露你有A。如果他们固定{一个-}{一个-}为4bet并运行剩余的过程直到它稳定下来,它会达到不同的GTO平衡吗?那将是一个有趣的实验。
在实践中,如果你知道你的对手会用一对牌跟注,而不是像他知道你非常紧的4bet范围那样做出反应,那么你只是错过了一个下注。
在TheThinkingPokerPodcast的一集中,AndrewBrokos和NateMeyvis很好地解释了这一点。
博弈论使用了最佳游戏的严格定义,你应该将你用任何一手牌做出的每一次游戏都视为均衡的一部分。
然而,在实际情况中,考虑到您可能玩的牌的范围以及您对手的牌可能是什么,其中95%是针对您在这种情况下会做的事情进行优化。
在节目中讨论的一手牌中,限注德州扑克游戏的一名听众在{k-}{k-}A高牌翻牌圈处于不利位置。
单挑,这仍然是一手加EV的牌,但没有太大的下注价值。你不会得到一张A来弃牌,通过过牌,你会从诈唬中获得更多价值,以及从中对的价值下注中获得更多价值。
让我们把这种情况想象成计算机人工智能。
假设您正在玩$100/$200限注德州扑克。底池是400美元,你在翻牌前加注{k-}{k-}。
此时您手牌的价值可能约为+$700(包括赢得底池的几率和未来下注的价值)。现在A翻牌,你的价值下降到+$300左右。
更重要的是,check-call的价值下降幅度可能小于下注价值的下降幅度。
估计你手牌的价值,假设两位玩家都玩得很好,甚至从长远来看,这只是另一种近似GTO的方法。
当每个人都知道其他人在做什么时
严格来说,一旦你进入三人(或更多)游戏,就没有博弈论最优解。
这是因为没有稳定的平衡(或者平衡太多而无法计算,具体取决于您问的是谁)。
通过BillChen和JerrodAnkenman在他们2006年出版的TheMathematicsofPoker一书中称之为“隐式串通”的过程,玩家总是可以相互适应,或者利用试图执行GTO扑克策略而不适应他们的玩家.
因此,不存在不可利用的策略。
博弈论最优解与扑克:对GTO扑克103的几点思考“扑克数学”(2006年)
让我们深入研究一下。
在单挑时,如果您(或机器人)遵循GTO扑克策略,那么从长远来看,对手无法击败您,无论他或她做什么。
这并不意味着您在与这个对手的比赛中获胜最多,而是您锁定了长期平手,同时仍然从对手的一些错误中获益。
例如,限注德州扑克GTO机器人会经常在河牌圈用底对获利,因此您无法有效地诈唬它。
如果您从不在这种情况下虚张声势,机器人仍会以相同的比率赔付您。一个剥削性的玩家会在一段时间后停止付钱给你,并赢得更多。
职业扑克玩家和扑克培训网站创始人DougPolk在TwoPlusTwoPokercast上谈到了人机NLH比赛中出现的这种情况。
当玩家意识到虽然电脑玩得很好(根据Polk的说法,与他的常规对手相比,“10分中有4分”),但它并没有试图利用他们的投注模式,这让玩家们松了一口气。
如果你在翻牌圈打出坚果牌,你下注1.5倍的底池或弄碎一块饼干,AI不会知道也不在乎。它只是玩GTO扑克。
在每个人都适应每个人的理想化3+玩家游戏中,GTO不应该工作。但在实践中,如果玩家在每一手牌之间没有过多地改变他们的策略(他们确实没有),那么很多单挑博弈论的可选原则都适用。
我的一个朋友和世界上最好的在线扑克玩家之一一起读研究生,并有机会观看他的比赛。
令他惊讶的是,他的同学并没有做出任何异常的举动,或者根本没有任何“动作”。根据扑克专家的说法:
每个人都知道我是谁
每个人都知道我怎么玩
没有理由越界
如果你把Chen和Ankenman关于“暗中勾结”的想法放在心上,还可以补充说,如果玩家联合起来对付他而不是试图打败对方,职业选手就会退出比赛。
这在流鼻血游戏中不是问题,因为每个人都认识其他人,匿名或串通玩游戏是不可能的。
重点是,在线扑克中最好的玩家玩GTO。他们必须非常清楚何时在80%的情况下下注,在20%的情况下跟注,以及在20%的情况下何时跟注,在80%的情况下弃牌。然后他们真的这样做了。
良好的执行力有很多话要说。(我倾向于发现20%呼叫按钮有点太频繁了。)
也很容易理解为什么Polk在同一次采访中对人类的机会持悲观态度,一旦机器人学会了所有正确的投注频率。
我们的硅朋友在执行方面总是有优势,他们不需要房间、食物或饮料。
结论:GTOPoker是Baseline
在短期内,人类正在更快地向GTO靠拢。
当我坐在RioAll-SuiteHotelandCasino的AmazonRoom的看台上观看价值100万美元的BigOneforOneDrop的决赛桌时,令我震惊的是,在减少到三人桌后,打法变得如此松散被动.
博弈论最优解与扑克:对GTO扑克104的几点思考三手在大一滴
我在Twitter上对DanielNegreanu、DanColman和ChristophVogelsang之间发生的小注过牌游戏比作当地hhpoker德州俱乐部的夜间卫星赛进行了一些抨击。
人们反击说这些人是世界上最好的扑克玩家,而我显然是个白痴。
但看起来确实没有球员试图向其他球员施压。他们为什么要这么做?对于1500万美元、800万美元、400万美元的支出,获胜筹码的优势远小于筹码减少或爆牌的劣势。
另一方面,如果一个人推动,他知道其他人知道如何反击。所以没人推。
在大约两个小时的时间里,世界上最好的三位短桌NLHE玩家每手牌过牌或小注,直到短筹码Vogelsang出局。
您需要玩扑克GTO才能赢吗?或者更确切地说,你需要多接近最佳扑克博弈论才能在强大的对手面前站稳脚跟?
让我们让卡内基梅隆大学Claudico无限德州扑克团队的负责人TuomosSandholm教授来回答这个问题。
在CigarAficianado最近的一篇文章中,Sandholm在年度计算机扑克锦标赛上采访了学者和爱好者,有人问Sandholm关于他在阿尔伯塔大学解决有限德州扑克的同事。
“他们说它基本上已经解决了。我认为这很重要,”桑德霍尔姆回答道。“但我的问题是:它在三年前就基本解决了吗?”
接近最佳的GTO扑克玩法只是第一步。
一旦您的基准策略无法轻易被利用,您就可以将剩余时间用于研究对手的倾向并针对他们的弱点进行调整。
会有很多对手不考虑范围,不适应某些游戏信息,或者只是按照自己的方式玩。
适应他们才是GTO和扑克真正的意义所在。
要深入了解如何在游戏中使用GTO,请查看EdMiller的书《扑克的1%:让精英玩家保持领先地位的一个大秘密》。