2020: Rise of the Machines
de James Grosjean Compteu-me entre els drons de Netflix que estimaven The Queen's Gambit (2020), però sempre he estat un entusiasta dels escacs. Durant els anys de la universitat, probablement menjava mil croissants de xocolata mentre veia el peculiar i magnífic Murray Turnbull (també conegut com "El Mestre dels Escacs") enfrontar-se a tots els que […]

de James Grosjean Compteu-me entre els drons de Netflix que estimaven The Queen's Gambit (2020), però sempre he estat un entusiasta dels escacs. Durant els anys de la universitat, probablement menjava mil croissants de xocolata mentre veia el peculiar i magnífic Murray Turnbull (també conegut com "El Mestre dels Escacs") enfrontar-se a tots els que arribaven a la plaça de la ciutat. Va ser un honor capturar una foto del gran Karpov emmarcada pel vitrall del Memorial Hall quan va fer un simulacre de 40 taules al campus. Vaig formar part de la premsa estudiantil quan Kasparov va fer la seva controvertida declaració que un ordinador seria un gran campió abans que ho fes una dona. Guardant el debat sobre la possible misogínia de Kasparov per a un altre fòrum i un altre dia, vaig prendre la seva declaració com una mera projecció basada en l'observació empírica de la comunitat d'escacs. La participació femenina sempre ha estat baixa i no ha augmentat significativament, mentre que els ordinadors ja eren forts i s’enfortien ràpidament. Les màquines obriran una nova igualtat, on tots els gèneres són aixafats com formigues. El teorema de Zermelo ens diu que un joc amb tota la informació (els dos jugadors poden veure totes les peces al tauler d’escacs), que és finit (el joc acabarà després d’un cert nombre de moviments), té una solució i que si ambdues parts juguen a això solució òptima, llavors cada partit té el mateix resultat. Els escacs són prou complicats perquè no estem segurs del resultat, però creiem que les blanques guanyarien cada vegada, en aquest cas no hi ha cap resposta negra que pugui canviar el resultat. El joc de Connect Four també cau sota el teorema de Zermelo, i l'anàlisi ha determinat que en aquest joc, la sis furtiva sempre guanya si va la primera i juga de manera òptima. Si sou un AP a qui li agradava QGambit i us moriu de fam per obtenir més contingut durant aquesta interminable pandèmia, la vostra propera tasca és veure AlphaGo, un documental sobre l’augment de les computadores a l’antic joc de Go, que és més complicat que escacs. No és broma, aquesta pel·lícula és una llàgrima per a les persones que estan interessades en aquest camp i aprecien l’intens drama emocional per al campió de la humanitat, Lee Sedol, el millor per fer-ho mai. La pel·lícula captura l’angoixa, el coratge, la brillantor i la humilitat de Sedol, ja que s’adona que aquest partit contra la màquina no és només un joc, sinó l’aparició d’un nou ordre mundial. No programador, Sedol no agraïa el que s’enfrontaria, però com a expert en el seu ofici, al tauler podia sentir el pes implacable i impenetrable del seu oponent. Després de gaudir d’AlphaGo, us recomano (de fet, Google ho recomana) que mireu alguns dels partits de pòquer entre Dan Negreanu de l’antiga escola i Doug Polk, clon d’ordinador modern. El millor jugador del món és la màquina, de manera que un humà intel·ligent com Polk emula l’estratègia de la màquina. Adaptar-se o morir. Una vegada vaig tenir un breu intercanvi amb Howard Lederer. Li vaig preguntar sobre els bots als llocs de pòquer. Va rebutjar el tema dient: “El pòquer no és com els escacs. El pòquer és un joc d’informació incompleta. Els ordinadors no són bons en això ”. No sabria dir si era un ximple ingenu o un amant de Full Tilt Poker. Sigui com sigui, no volia continuar aquella conversa fa 15 anys. Però ara hi som, el 2021, i és el moment de continuar aquesta conversa refutant aquesta primera fal·làcia sobre els ordinadors GTO (teoria de jocs òptims) i totes les altres fal·làcies superposades que són els dinosaures del pòquer i els autoproclamats savants del pòquer. aferrat desesperadament a: Fal·làcia número 1: els ordinadors no són bons en jocs d'informació incompleta. Això és ignorant. És cert que el teorema de Zermelo no s'aplica a jocs com el pòquer. Pel que fa al pòquer, hi ha ALTRES teoremes que diuen bàsicament que hi ha una solució al joc, i que una solució per ordinador implica generalment "estratègies mixtes", cosa que significa que hi ha algun component aleatori de l'estratègia (com trucar a tisores amb probabilitat 1/3). ). Els ordinadors són força bons, millor que els humans, a l'hora de calcular l'expectativa sobre els resultats probabilístics, especialment quan es coneixen amb exactitud les distribucions de probabilitat, tal com es fa en els jocs de cartes. Per exemple, l'ordinador sap exactament quina és la probabilitat de dibuixar un Flush de porta posterior i quines probabilitats de pot necessita per justificar la persecució. Tot i que el pòquer implica informació incompleta, el pòquer sense límit és un joc més senzill que Go, tot i que Go implica informació completa (informació de coneixement comú). Fal·làcia núm. 2: la superioritat de l'ordinador prové de poder recordar totes les mans que he jugat i ajustar-les en conseqüència. Tot i que un "bot explotador" analitzaria el vostre joc passat i s'ajustaria a les debilitats percebudes, un bot GTO estàndard (que anomenàvem "bot Nash") és l'equivalent de pòquer de BS al blackjack. L'estratègia de GTO no canvia, independentment de com jugueu mans passades. No necessita aquesta informació i no li importa. Fal·làcia núm. 3: la solució GTO només és "correcta" si es juga contra un altre bot GTO, perquè això és el que es va assumir quan es va desenvolupar el bot; el bot "va aprendre" jugant contra ell mateix. Això és fals. "El bot jugat contra si mateix per aprendre el pòquer" és una caracterització errònia del procés de desenvolupament. Als mitjans de comunicació els agrada fer publicitat al seu clickbait perquè tots els resultats de la informàtica sonin com un avanç generacional, invocant HAL i Skynet. Un robot GTO no sap res del pòquer. Derivar l'estratègia GTO és un exercici de càlcul, fet possible per la gran memòria i velocitat de la CPU disponibles en els ordinadors actuals i el desenvolupament d'un algorisme eficient per fer el càlcul ("minimització del pesar"). Mai solíem descriure l'algoritme com a "aprenentatge automàtic" o "IA", només l'anomenàvem "escalada en pujada" o "maximització" o "optimització". A cada pas de l'algorisme iteratiu, l'ordinador té l'estratègia actual en desenvolupament per a cada seient de la taula, i aquesta estratègia actual es podria descriure popularment com "ella mateixa", com en: "PokerSnowie juga contra si mateix". Però realment és només una iteració en el seu camí de pujar al turó per convergir al cim, una estratègia òptima per al pòquer. Aquest òptim no assumeix cap oponent en particular. Hi ha altres maneres d’haver pogut calcular la solució (encara que potser no sigui tan ràpida), i seria igual de vàlida. Aquesta estratègia de GTO és "El llibre" per al pòquer, i mai no estaria en desavantatge, independentment del seu oponent. No hi ha cap estratègia que pugui aconseguir un avantatge en contra. Fal·làcia # 4: el bot GTO assumeix que jugaré de certa manera, però ho enganyaré jugant el meu vestit 72 fora de posició. Mal. El bot GTO no assumeix res sobre com es juga. Tant se val. És immillorable contra qualsevol estratègia contrària. Imagineu-vos que teniu una pròxima lluita contra Floyd Mayweather i dieu: “Floyd espera que em presenti en un condicionament físic impecable. Suposa que entrenaré molt durant els propers sis mesos. L’enganyaré; simplement miraré Netflix i menjaré bunyols durant els propers sis mesos ” Floyd no té ni idea de quant entrenaràs. Sap que si ell mateix es presenta en forma perfecta, llavors cap oponent no podrà obtenir avantatges contra ell. Té sentit dir: “El bot suposa que jugaré bé. Enganyaré el robot jugant al pòquer dolent! ” Sí, segur que els vau mostrar! Fal·làcia # 5: vaig trobar una debilitat: quan tinc tal i tal, des de tal posició, el bot hauria de fer X, però sí Y. Malament. El bot no té cap debilitat. Esteu mirant una mà concreta i un resultat concret, però en funció de la probabilitat d’estar en aquest escenari i de totes les mans possibles que podríeu tenir vistes des del punt de vista del bot, el seu joc és correcte i podeu no hi trobo cap forat. És molt perillós mirar una obra aïlladament. El robot realitza moviments per equilibrar els seus rangs, de manera que no pugueu cisellar en altres situacions o si arriben cartes diferents al riu. Si no ho veieu, el problema està en el vostre propi pensament de pòquer, no en el bot. Fal·làcia núm. 6: si la toco durant un temps, esbrinaré com juga i trobaré una debilitat. Mal. No hi ha debilitat. De fet, podríem publicar l’estratègia del bot i això no faria cap diferència. Si us dic que jugaré a les tisores, la roca i el paper amb probabilitat de 1/3 de cadascun, el fet de conèixer la meva estratègia no us permetrà obtenir avantatges. No hi ha taló d’Aquil·les. Fal·làcia núm. 7: els bots Heads-Up Limit introduïts als casinos eren molt superables, de manera que probablement també els bots GTO. No és una comparació significativa. Alguns dels robots del casino van rebre instruccions de no jugar el seu joc A, perquè era massa fort contra els humans mitjans. Si el casino estableix el bot per jugar al seu joc B, per aconseguir, per exemple, un avantatge del 5% contra la majoria dels jugadors, llavors un humà molt bo hauria pogut guanyar diners contra aquest bot GTSO (bot subòptim de teoria de jocs). Però aquest és un tema diferent. No m'importa qui siguis: si jugues de front contra PokerSnowie, perdràs. Fal·làcia número 8: els robots GTO poden vèncer els jugadors febles, però els robots tindran problemes contra oponents principals com Phil Ivey o Dan Negreanu. Mal. Una cosa bella d’un robot GTO és que no importa qui sigui l’adversari. En el millor dels casos, algú podria jugar fins i tot amb el bot. Un anell de robots GTO seria com un lavabo, amb els diners que flueixen en el sentit de les agulles del rellotge perseguint el botó i que esgoten el centre de la taula a causa del rasclet. Un problema pràctic que tenien els professionals del món real era decidir quan la seva habilitat era suficient per avançar a les properes apostes més altes disponibles, on presumiblement els jugadors eren més forts. Però ara, un jugador que imita l’estratègia GTO pot seure a qualsevol taula del món, a qualsevol estaca, i no s’ha de preocupar de ser el peix. En el millor dels casos, el joc seria uniforme (fora del rasclet) i, a la pràctica, una estratègia de GTO confereix un avantatge considerable a qualsevol persona que us trobeu en llibertat. Fal·làcia núm. 9: Dan Negreanu és un professional del pòquer de llarga data amb polseres N, de manera que aixafarà llengües informàtiques com Doug Polk que no entenen els matisos del pòquer real. Si un noi com Polk només memoritza "les llistes" i imita l'estratègia GTO, no necessita entendre res maleït. No necessita saber què significa la paraula "matís". L’experiència de pòquer de professionals com Negreanu és el que els va permetre esbrinar el millor joc en escenaris complicats. Aquesta experiència està obsoleta ara que els ordinadors acaben de calcular quines són les obres correctes. Potser el 1950, l’experiència d’un jugador li va permetre determinar que colpejar 14 v T era millor que estar parat. Un cop els Quatre Cavallers van calcular el gràfic BS, aquella experiència de blackjack va esdevenir irrellevant. El llibre fa que l'experiència sigui innecessària. Ara Doug Polk no és un bot GTO. És un dels millors professionals que utilitza estratègies GTO. Per tant, l’únic tret de Negreanu per vèncer a Polk és si l’emulació de GTO de Polk no és precisa i si els forats són prou grans perquè Negreanu pugui trobar-los i explotar-los. Ho dubto. Una altra oportunitat seria si juguen en directe i si Polk té informació física que dóna informació sobre les seves cartes de forats i si Negreanu el pot llegir d’aquesta manera. O si Polk té problemes d’inclinació i comença a desviar-se de GTO si té males cartes. No és probable. O potser el joc és prou curt perquè Negreanu tingui sort en una petita mostra. Després de jugar contra AlphaGo, Lee Sedol va elevar el seu joc i va començar a esclafar a tothom (no és que encara no ho fes), però després es va retirar del joc. Va reconèixer que havia estat superat (quin concepte!), I que cap ésser humà tornaria a desafiar el millor jugador de la terra, AlphaGo. Veurem si Negreanu tindrà la mateixa epifania. Un tuit recent em fa meravellar-me, perquè semblava que Negreanu qüestionava una jugada de bot i suggeria que hi ha una línia prima entre el geni i el tontisme. Crec que encara espera que hi hagi un defecte en l'estratègia GTO. No n’hi ha. El darrer que vaig escoltar, Negreanu estava posant-se al dia del concurs, i hi ha alguna indicació que una de les raons és que, segons el seu crèdit, Negreanu està practicant amb PokerSnowie i s’està adaptant. Si Negreanu pugui aprendre ràpidament l’estratègia GTO, podria igualar el terreny de joc, cosa que seria un èxit enorme. L’única manera de sobreviure d’un dinosaure és evolucionant. Ho veurem el 2021. [Next time, I’ll discuss some of the limitations and weaknesses of the poker bots, unless we thrash them out in the Comments below.]
คาสิโน โบนัส 100% คาสิโน โบนัส100% เฮงๆ 666 คาสิโน หวยออนไลน์ คาสิโน

Leave A Comment