Flickr

Nová AI poráží lidi ve hře Diplomacy. Co to znamená pro skutečnou diplomacii?

Umělá inteligence (AI) Cicero, kterou vytvořila společnost META, se nedávno postarala o rozruch na internetu. Stala se první umělou inteligencí, jež úspěšně hrála hru Diplomacy a dokázala porazit 90 % hráčů. V této hře vytvářejí hráči aliance a snaží se navzájem oklamat s cílem dobýt celou Evropu. Díky schopnostem této AI tvořit uvěřitelnou komunikaci podmíněnou strategickým myšlením označili někteří odborníci její potenciál za děsivý. V tomto článku si můžete přečíst o Cicero ve hře Diplomacy a potenciálu této AI v diplomacii a mezinárodních vztazích.

Hra Diplomacy a v čem spočívá úspěch Cicera

Allan B. Calhamer v roce 1954 vytvořil hru Diplomacy, kterou si zamiloval jak Henry Kissinger, tak i prezident Kennedy. Jedná se o strategickou deskovou hru, jež modeluje realistický pohled na mezinárodní vztahy, v němž suverénní státy soupeří o sféry vlivu v Evropě v roce 1901. [1] Má sice jednoduchá pravidla na naučení, ale její kouzlo spočívá právě v sociálních interakcích mezi sedmi hráči, z nichž každý představuje jednu z hlavních mocností té doby (Rakousko-Uhersko, Francie, Německo, Itálie, Rusko, Turecko a Spojené království). Ti mezi sebou pak vyjednávají, tvoří spojenectví a snaží se jako první ovládnout většinu zásobovacích center na hrací ploše. Hra se skládá z diplomatické fáze, kde hráči mohou vyjednávat na bilaterální úrovni, a vojenské fáze, kde posílají rozkazy svým armádám. [3] Dnes již není nutné Diplomacy hrát pouze se svými přáteli, ale existují i webové iterace hry, kde se lze spojit s hráči z celého světa (např. webdiplomacy.net, na níž hrál i Cicero).

Z těchto důvodů je pro úspěch ve hře klíčová efektivní komunikace (diplomacie) mezi hráči. Jejich dohody nejsou ničím determinovány, díky čemuž se z Diplomacy stává nepředvídatelná hra. Právě kvůli této složitosti se z ní stal jeden z vytoužených milníků pro výzkumníky AI, kteří se snaží pro tuto hru natrénovat umělou inteligenci přinejmenším již od 80. let 20. století. [4] Nicméně až do minulého roku se nikomu nepodařilo vyvinout AI se schopnostmi hrát a porážet ve hře Diplomacy samotné lidi.

Mapa hry Diplomacy. Zdroj: Wikimedia

Nynější úspěch AI Cicera v Diplomacy dokazuje především jeho schopnost porazit na 90 % oponentů, s nimiž se setkal. Výzkumníci ze společnosti Meta tímto ukazují exponenciální růst dovedností umělých inteligencí a strojového učení v oblasti strategických studií. Dříve byla AI omezena ve své schopnosti přesně simulovat lidské rozhodování a zohledňovat složité a niterné mezilidské interakce, k nimž dochází ve strategickém prostředí simulovaném např. ve zmiňované hře. Úspěch Cicera naznačuje, že umělá inteligence už lidi nejen napodobuje a překonává je ve hrách s jasně vymezenými pravidly a hracím polem, ale také dokáže využívat strategické myšlení v komunikaci s lidmi k dosažení svých cílů.

„Je to skvělý příklad toho, jak moc dokážeme ostatní lidi ošálit,“ uvedl pro deník Washington Post Kentaro Toyama, profesor a odborník na umělou inteligenci z Michiganské univerzity. „Tyto věci jsou extrémně děsivé. Mohly by být použity ke konání zla.“ [2] V této souvislosti se objevují obavy, že by mohla vzniknout AI, která by získala navrch ve skutečné diplomacii a mezinárodních vztazích. V současnosti se však zdá, že takové obavy nejsou založeny na skutečném pochopení Cicera a jeho omezení.

Samostatné Self-play pro úspěch nestačí

Aby uspěli se svým modelem, museli výzkumníci ze společnosti META využít komplexnější přístup k tréninku Cicera. Dříve bylo pro trénování AI na hraní her v naprosté většině využívána metoda samohry (z angl. self-play). [5] Při ní se umělé inteligence trénují tak, že hrají sami proti sobě a následně využívají znalosti a dovednosti, které získají v průběhu tréninku. Když umělá inteligence hraje sama proti sobě, může zkoušet různé tahy a strategie a učit se z jejich výsledků, díky čemuž může přicházet s naprosto originálními postupy a strategiemi. Jednou z klíčových výhod této metody je, že umožňuje umělým inteligencím učit se bez nutnosti lidského vstupu nebo vedení a tím i velmi zrychlit celý proces tréninku. Tato funkce se stává užitečnou především v kontextu počítačových a stolních her, kde jsou pravidla a možné tahy jasně předdefinovány, a tudíž do nich nemůže zasahovat lidské jednání mimo hru.

Nicméně Diplomacy takový přístup ze své podstaty neumožňuje především kvůli diplomatické fázi, kde se hráči volně domlouvají mezi sebou. Pokud se využije metoda self-play, AI si vytvoří herní styl nekompatibilní s lidskými hráči. Hráči umělé inteligenci nebudou s velkou pravděpodobností věřit a chápat její tahy a ona tím pádem bude poražena. Ke stejnému výsledku dojde, pokud nebude schopna rozpoznat, zda jiný (lidský) hráč blafuje nebo co ostatní hráči považují za útočné či defenzivní tahy. K tomu se navíc přidává i skutečnost, že umělá inteligence musí dostatečně dobře simulovat lidskou komunikaci, aby s ní lidští hráči spolupracovali. Avšak ani v bezdialogové variantě této hry nedokázaly AI před Cicerem přesvědčivě vyhrávat [6]. Tvůrci Cicera proto museli spoji dvě různé oblasti výzkumu umělých inteligencí: strategické myšlení známé z „tradičních“ herních AI, jako jsou AlphaGo (AI hrající Go) nebo Pluribus (poker), spolu se zpracováním lidského jazyka. Takový modul dnes představuje například populární GTP-3. [7]

Jak z předchozího odstavce vyplývá, Cicero má dva oddělené bloky: dialogový a strategický. Dialogy tvoří díky předem natrénovanému jazykovému modelu, který byl vyladěn na hráčské fráze z Diplomacy. Fáze ladění probíhala na datových sadách vytvořených z více než 125 000 již odehraných her. Tento dialogový modul byl poté podmíněn tzv. záměrům (z angl. intents). Ty byly vytvořeny strategickým modelem, jenž byl natrénován metodou self-play, ale zároveň korigován zásahy vědců. [7] Zjednodušeně se jedná o plány vymyšlené AI na základě všech proběhlých dialogů a současné situace na hracím poli. Tyto záměry jsou v podstatě překladem či mostem mezi strojovým strategickým myšlením umělé inteligence a lidskou konverzací. Díky tomu dosáhl Cicero více než dvojnásobku průměrného skóre lidských hráčů a zařadil se mezi 10 % nejlepších, kteří kdy hráli více než jednu hru. Navíc nikdo z hráčů při hře na základě dialogů ani herních taktik nepoznal, že by se jednalo o umělou inteligenci. Pouze jeden hráč vznesl na fóru pochybnosti, a to až po skončení hry. [7]

Velký skok pro AI, minimální krok pro reálnou diplomacii

Přestože je úspěch tohoto projektu naprosto pozoruhodný, pokud jde o důsledky pro reálnou diplomacii a strategické rozhodování, mělo by se k Cicerovým výsledkům přistupovat s rozvážností a klidem. Jedná se pouze o první kroky, nikoli o revoluci ve strategických studiích, jež by nyní změnila celé pole strategického myšlení.

Diplomacy, i když se jedná o velmi komplexní hru, stále představuje jen extrémně zjednodušenou simulaci reality. Hra se odehrává na (virtuální) desce s mapou Evropy, a tudíž musí nutně degradovat důležitost geografie, počasí, ale i politickou situaci dané doby. Hráči ke stolu přicházejí neposkvrněni dřívějšími křivdami a zradami mezi jednotlivými zeměmi i jejich panovníky. Dále má hra pouze omezený počet hráčů, kteří se navíc chovají jako absolutní panovníci bez nutnosti vnitropolitických kompromisů. Taktéž hra umožňuje pouze omezený soubor akcí, které nemohou plně zachytit složitost a nuance skutečné diplomacie a mezinárodních vztahů. Obdobně nastavuje limity pro reálné využití to, že jednání ve hře probíhají na skutečně bilaterální bázi (tedy jeden na jednoho), ale ve skutečném světě se do celého procesu většinou zapojí mnohem více lidí. Taktéž se nikdo nemusí obávat úniku tajných informací a plánů, protože ve hře neexistuje možnost, jak by bylo možné nahlédnout do komunikace ostatních hráčů.

Nicméně nejdůležitější omezení spočívá v tom, že Diplomacy nezahrnuje celou řadu nevojenských faktorů ovlivňujících diplomacii v reálném světě. Mezi tyto faktory se mimo jiné řadí ekonomika, veřejné mínění v zemi, domácí politika jednotlivých vlivových skupin, mediální pokrytí konfliktu i politiky, mezinárodní právo nebo odlišné kulturní vnímání světa mezi zeměmi. Lidští diplomaté v realitě chápou, že jejich činy se musí těmto skutečným okolnostem pokud ne podřídit, tak alespoň na ně brát ohled. Například diplomat zvolí jiné přístupy v momentě, kdy bude hovořit se zástupcem muslimské země a kdy se zástupcem země buddhistické.

Na tak složitém herním poli, jaké představuje náš svět, může mít umělá inteligence podobná Ciceru problém přizpůsobit se novým nepředvídatelným situacím (např. vývoj nové revoluční technologie). Umělé inteligence totiž nejsou jakýmsi „všemocným algoritmem“, ale jsou ve skutečnosti velmi omezeny daty, na nichž byly trénovány. Pokud tedy nastane neočekávaná situace, umělá inteligence nebude mít prostředky a znalosti z minulosti, jak na tuto situaci správně reagovat. Existuje možnost, že umělá inteligence Cicero nebo jiná pokročilá umělá inteligence by jednoho dne mohla hrát roli v reálné diplomacii, ale tento čas s představením Cicera ještě nenastal.

Blízká budoucnost

Dá se ovšem předpokládat, že Cicero a podobné budoucí systémy budou mít v blízké budoucnosti své využití. Ve strategických a bezpečnostních studiích mají potenciál zlepšit naše chápání fungování diplomacie, strategie, taktiky, aliancí i jejich počáteční tvorby. Analýzou způsobu, jakým budoucí umělé inteligence podobné Cicerovi dokážou uzavírat aliance s ostatními hráči, by výzkumníci mohli získat cenné poznatky o efektivních taktikách pro budování a udržování aliančních pozic. Jeden výsledek lze pozorovat již nyní. Jak zjistili výzkumníci ze společnosti META, upřímnost se ukázala být ve hře Diplomacy velmi efektivní taktikou. [13]

Na podobné bázi lze také testovat teorie a hypotézy mezinárodních vztahů, což může tím pádem mít dopad i na reálnou diplomacii a mezinárodní vztahy především. Obdobně může být Cicero v následujících generacích ve větší míře nasazen ve vojenských válečných hrách (z angl. wargaming), kde bude simulovat rozličné strategie protivníků i jejich diplomatické vyjednávání.

Ukázka wargamingu. Zdroj: Wikimedia

Ani toto však nebude snadný úkol. Proces trénování Cicera zahrnuje značný lidský dohled i přímou práci lidských výzkumníků, a to jak na datových souborech, tak na architektuře celé umělé inteligence. Tímto se více podobá tradiční „staré dobré umělé inteligenci“, jak ji nazývají počítačoví vědci Gary Marcus a Ernest Davis, u níž bylo nutné dělat mnoho kroků v tréninku algoritmů ručně, nikoliv obecným strojovým učením. [14] Tímto způsobem vznikají specializovanější systémy.  Ty teprve potřebují připravit na specifické úlohy (např. hraní Diplomacy). Systémy umělé inteligence podobné Cicerovi i s podobnou architekturou by tedy potřebovaly vidět tisíce a tisíce lidských her, než by se natrénovaly na novou úlohu (např. simulace ve wargamingu). Proto by transformace Cicera na nové hry či úkoly byla zdlouhavým a obtížným procesem, nicméně ne zcela nemožným.

V neposlední řadě autoři Cicera varují před zneužitím jejich technologie konverzačního modelu, jenž se podřizuje vytvořeným záměrům. [7] Aktér by mohl do takovéto umělé inteligence vnést škodlivé záměry, aby posléze manipulovala s jejím uživatelem. Tento uživatel zároveň ani nemusí tušit, že nekomunikuje s člověkem, ale s umělou inteligencí. Na internetu existuje celá řada podvodů, které mohou být značně vylepšeny a provozovány v obrovském měřítku. Kyberzločinec by například mohl do podobné umělé inteligence vsadit záměr odcizit peníze nebo informace od různých osob, a to i od těch vysoce postavených. Zde se objevuje otázka etičnosti AI.

Stroje a etika

Lze předpokládat, že i v budoucnosti, kdy lidé budou využívat rady AI i v mezinárodních vztazích, budou existovat znepokojivé etické otázky ohledně umělé inteligence. Například pokud by se používaly k rozhodování o vojenské strategii, mohly by být potenciálně použity k ospravedlnění akcí, které zapříčiňují nepřiměřené škody nebo ztráty na životech. Odpovědnost za tyto činy by tak mohla být v budoucnu zcela nejasná.

Jedno z možných řešení tohoto problému nabízí vývoj transparentních umělých inteligencí, do nichž půjde „nahlédnout“ a zjistit důvody jejich rozhodnutí. To by zúčastněným stranám sporu umožnilo pochopit důvody jednání oné umělé inteligence, a tak dohnat zodpovědné osoby k odpovědnosti za případné negativní důsledky činů AI. Je zřejmé, že výzkumníci ze společnosti META tomuto problému rozumí, protože celý kód Cicera i jeho fungování zveřejnili jako otevřený zdrojový kód. [7]

Využití AI při rozhodování na úrovni mezinárodních vztahů by navíc mohlo potenciálně vést k nerovnému zacházení nebo diskriminaci. Umělé inteligence jsou často trénovány na nedostatečných datech, které poté mohou za to, že systémy AI dělají tyto chyby. Častým je také nezohlednění předsudků v reálných datech. Precedenty takové diskriminace totiž bohužel existují již dnes. Systémy umělé inteligence mohou diskriminovat na základě pohlaví, rasy, dokonce i věku. [11] Aplikace Fotky společnosti Google označovala lidi černé pleti jako gorily, náborová aplikace společnosti Amazon systematicky znevýhodňovala ženy a jazykový model GTP-3 neúměrně spojuje koncept násilí s muslimy častěji než s jinými náboženskými skupinami. [8][9][10] Tyto případy jsou důkazem, že umělé inteligence nejsou vždy trénovány na dostatečně reprezentativních datech, které popisují náš svět.

I když se v současné době vědci z oblasti strojového učení snaží dosáhnout objektivity a neutrality, chybí jim jasná představa o konkrétních typech problémů a mají tendenci používat totalizující jazyk „spravedlnosti“, aniž by se zabývali reálnými sociálními a politickými souvislostmi, v nichž se jejich nástroje používají. [12] Cicero samozřejmě tyto otázky nemusel v Diplomacy řešit.  Nicméně v budoucnosti, když bude chtít lidstvo využívat rady AI i na úrovni mezinárodních vztahů, bude nutné, aby na tyto problémy byly umělé inteligence připraveny.

Úspěch v akademii, ale reálné využití stále v nedohlednu

Závěrem lze říci, že Cicero dosáhl významného úspěchu, leč jedná se spíše o úspěch akademický v oblasti studia a vývoje umělých inteligencí. Stále častěji se ukazuje, že AI umí nejen simulovat a překonávat lidské rozhodování ve hrách s vymezenými pravidly, ale také využívat strategické myšlení ve volné kooperativní hře. V budoucnu by systémy s podobnou architekturou, jakou má Cicero, mohly být využity k testování teorií a hypotéz či k tréninku při vojenských cvičeních. I tak ale využívání umělé inteligence v rozhodovacích procesech v mezinárodních vztazích vyvolává etické otázky, mezi něž patří odpovědnost za jednání a potenciální diskriminace ze strany AI. Dá se pouze spekulovat, jak bude případná kontroverznost a nemorálnost použití umělé inteligence analogické k Cicerovi vybalancována s pokrokem a případnou účelností této AI. Nicméně můžeme konstatovat, že její doba nasazení v mezinárodních vztazích v pozici „rádce“ diplomatů a politiků zůstává prozatím časově vzdálená.


Editor článku: Kristýna Drmotová, Tomáš Zwiefelhofer 

Zdroje

[1] Klion, D. (2020). Diplomacy Is A Game That Makes Careers And Ruins Friendships. Foreign Policy. https://foreignpolicy.com/2020/10/23/the-game-that-ruins-friendships-and-shapes-careers/

[2] Verma, P. (2022, December 1). Meta’s new AI is skilled at a ruthless, power-seeking game. Washington Post. https://www.washingtonpost.com/technology/2022/12/01/meta-diplomacy-ai-cicero/

[3] Intro – webDiplomacy. (n.d.). https://webdiplomacy.net/intro.php

[4] Kraus, S., & Lehmann, D. (1988). Diplomat, an agent in a multi agent environment: An overview. Seventh Annual International Phoenix Conference on Computers an Communications. 1988 Conference Proceedings. https://doi.org/10.1109/pccc.1988.10117

[5] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T. P., Simonyan, K., & Hassabis, D. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. ArXiv: Artificial Intelligence. https://arxiv.org/abs/1712.01815

[6] Bakhtin, A., Wu, D., Lerer, A., & Brown, N. (2021). No-Press Diplomacy from Scratch. Arxiv. https://arxiv.org/abs/2110.02924

[7] Bakhtin, A., Brown, N., Dinan, E., Farina, G., Flaherty, C., Fried, D., Goff, A., Gray, J., Hu, H., Jacob, A. P., Komeili, M., Konath, K., Kwon, M., Lerer, A., Lewis, M., Miller, A. H., Mitts, S., Renduchintala, A., Roller, S., . . . Zijlstra, M. (2022). Human-level play in the game of             Diplomacy             by combining language models with strategic reasoning. Science, 378(6624), 1067–1074. https://doi.org/10.1126/science.ade9097

[8] Guynn, J. U. T. (2015, July 1). Google Photos labeled black people “gorillas.” USA TODAY. https://eu.usatoday.com/story/tech/2015/07/01/google-apologizes-after-photos-identify-black-people-as-gorillas/29567465/

[9] Dastin, J. (2018, October 11). Amazon scraps secret AI recruiting tool that showed bias against women. U.S. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

[10] Abid, A., Farooqi, M., & Zou, J. (2021). Large language models associate Muslims with violence. Nature Machine Intelligence, 3(6), 461–463. https://doi.org/10.1038/s42256-021-00359-2

[11] Chu, C., Leslie, K., Nyrup, R., & Khan, S. (2022, January 18). Artificial intelligence can discriminate on the basis of race and gender, and also age. The Conversation. https://theconversation.com/artificial-intelligence-can-discriminate-on-the-basis-of-race-and-gender-and-also-age-173617

[12] Green, B., & Hu, L. (2018). The Myth in the Methodology: Towards a Recontextualization of Fairness in Machine Learning. International Conference on Machine Learning. https://scholar.harvard.edu/bgreen/publications/myth-methodology-towards-recontextualization-fairness-machine-learning

[13] Walsh, T. (2022, November 24). An AI named Cicero can beat humans in Diplomacy, a complex alliance-building game. Here’s why that’s a big deal. The Conversation. https://theconversation.com/an-ai-named-cicero-can-beat-humans-in-diplomacy-a-complex-alliance-building-game-heres-why-thats-a-big-deal-195208

[14] Marcus, G., & Davis, E. (2022, November 25). What does Meta AI’s Diplomacy-winning Cicero Mean for AI? Substack. https://garymarcus.substack.com/p/what-does-meta-ais-diplomacy-winning

Štítky:

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *