Sfida dello schema di Winograd
La sfida dello schema di Winograd (in inglese Winograd Schema Challenge, WSC) è un test di intelligenza artificiale proposto nel 2012 da Hector Levesque, informatico dell'Università di Toronto, come miglioramento rispetto al Test di Turing. Il WSC è un test a risposte multiple basato su domande impostate secondo una struttura ben precisa: sono istanze di uno "schema di Winograd", che prende il nome da Terry Winograd, docente di informatica dell'Università di Stanford.[1]
Le domande di uno schema di Winograd richiedono la risoluzione di una semplice anafora; la macchina deve individuare in una frase qual è l'"antecedente" di un pronome ambiguo. Questa è un'attività tipica dell'elaborazione del linguaggio naturale ma secondo Levesque per applicarla a uno schema di Winograd è necessario ricorrere anche all'apprendimento e al ragionamento per buon senso.[2]
Il test è stato considerato superato nel 2019, dopo che diversi modelli linguistici basati su trasformatori hanno raggiunto un livello di precisione superiore al 90%.[3]
Storia
La sfida dello schema di Winograd segue lo spirito del test di Turing, proposto da Alan Turing nel 1950 e che ha giocato un ruolo centrale nella filosofia dell'intelligenza artificiale. Turing teorizzò che invece di dibattere se una macchina sia in grado di pensare, la scienza dell'intelligenza artificiale doveva concentrarsi nel dimostrare comportamenti intelligenti che possono essere testati. Il test proposto da Turing però è stato messo in discussione, specialmente dopo che nel 2014 il chat bot Eugene Goostman affermò di averlo superato. Uno dei limiti principali del test di Turing è che una macchina può superarlo ricorrendo a meccanismi di forza bruta o a stratagemmi, invece che a una vera intelligenza.[4]
La sfida dello schema di Winograd venne proposta nel 2012 in parte anche per risolvere i problemi evidenziati nella natura dei programmi che ottenevano buoni risultati nei test.[5]
La proposta originale di Turing era basata sul "gioco dell'imitazione", che prevedeva una conversazione libera in lingua inglese tra un computer e giudici umani, usando testi scritti. Il test si considerava superato se i giudici non erano in grado di distinguere cosa era stato scritto dalla macchina e cosa da un uomo durante cinque minuti di conversazione.[4]
Punti deboli del test di Turing
Le operazioni di Eugene Goostman evidenziarono alcuni problemi del test di Turing. Levesque individuò le seguenti criticità principali:[2][6]
- Inganno: la macchina è costretta a costruirsi una identità finta, che non rientra nell'intelligenza
- Conversazione: molte interazioni si possono considerare "conversazione a tutti gli effetti" senza che sia necessario un ragionamento intelligente (es. battute di spirito, richiami all'ordine).
- Valutazione: gli essere umani commettono errori e i giudici spesso non sono d'accordo sui risultati.
Schemi di Winograd
Il fattore chiave del WSC è il formato speciale delle sue domande, che derivano dagli schemi di Winograd. Le domande di questo tipo possono essere adattate per richiedere conoscenze e ragionamenti di buon senso in una varietà di ambiti differenti. Le domande inoltre devono essere formulate con cura, per evitare che le risposte vengano identificate tramite restrizioni semantiche o elaborazioni statistiche sui termini usati, che non richiedono l'intervento di meccanismi di apprendimento e ragionamento.
Origini
Il primo esempio citato di uno schema di Winograd (da cui prese il nome) fu enunciato dallo stesso Terry Winograd[7]
La domanda della sfida è: "il pronome 'essi' si riferisce ai consiglieri o ai manifestanti?". A seconda che si usi il verbo "temevano" o il verbo "incitavano", la risposta cambia. Per un essere umano, la risposta è ovvia ma non lo è altrettanto per una macchina. Secondo Levesque, la conoscenza gioca un ruolo centrale in questo: la risposta ha a che fare con la comprensione dei rapporti e dei comportamenti tipici dei consiglieri e dei manifestanti.[2]
Dopo la proposta iniziale, Ernest Davis, docente della New York University, ha redatto un elenco di oltre 140 schemi di Winograd provenienti da varie fonti come esempi del tipo di domande che dovrebbero far parte di una sfida dello schema di Winograd.[8]
Descrizione formale
Una domanda della sfida dello schema di Winograd è costituita da tre parti:
- Una frase o un breve enunciato che contiene:
- Due soggetti nominali appartenenti alla stessa classe semantica (maschile, femminile, oggetto, gruppo di oggetti o persone)
- Un pronome ambiguo che può riferirsi a uno o all'altro dei soggetti nominali
- Una parola chiave e una parola alternativa, scelte in modo che sostituendo una con l'altra cambia anche il soggetto a cui il pronome si riferisce.
- Una domanda relativa all'identità associata al pronome ambiguo
- Due opzioni di risposta corrispondenti ai due soggetti nominali.
Il problema viene sottoposto alla macchina in un formato standardizzato che comprende le opzioni di risposta, riconducendolo così a un problema di decisione binaria (o l'uno o l'altro).
Vantaggi
La sfida dello schema di Winograd presenta i seguenti vantaggi:
- La risoluzione richiede conoscenza e ragionamento a buon senso.
- È possibile definire schemi di Winograd a livelli di difficoltà variabili, che possono andare da semplici relazioni di causa ed effetto fino a narrazioni complesse di eventi.
- Possono essere definiti per testare le capacità di ragionamento in contesti o ambiti specifici (per esempio, ragionamenti di tipo socio-psicologico o di tipo spaziale).
- Non richiedono giudici umani.[5]
Insidie
Una delle difficoltà della sfida dello schema di Winograd è come vengono sviluppate le domande. La formulazione deve essere concepita accuratamente per garantire che la risoluzione richieda sempre un ragionamento basato sul buon senso. Levesque fa questo esempio di "schema di Winograd troppo facile":[5]
La risposta a questa domanda non richiede un ragionamento di buon senso ma può essere risolta in base all'analisi delle restrizioni semantiche. In nessuna situazione una pillola può rimanere incinta, così come in nessuna situazione una donna è cancerogena, quindi la risposta può essere ricavata direttamente dalle sole restrizioni semantiche dei termini "incinta" e "cancerogena", senza dover analizzare il resto della domanda.
Attività
Tra il 23 e il 25 marzo 2015 si è svolto presso l'Università di Stanford il 12º Simposio internazionale sulle formalizzazioni logiche del ragionamento basata sul buon senso, con un'attenzione speciale sulla sfida dello schema di Winograd. Facevano parte del comitato organizzatore Leora Morgenstern (Leidos), Theodore Patkos (The Foundation for Research & Technology Hellas) e Robert Sloan (University of Illinois Chicago).[9]
Nel luglio 2014 Nuance Communications annunciò che avrebbe sponsorizzato ogni anno una sfida basata su WSC con un premio di 250 000 dollari per il miglior sistema in grado di eguagliare le prestazioni di un essere umano.[10] Per vincere il premio, il programma avrebbe dovuto superare il 90% di risposte corrette: a titolo di confronto, gli esseri umani rispondono correttamente al 92-96% delle domande di una WSC.[11] La sfida dello schema di Winograd promossa da Nuance si svolse l'11 luglio 2016 presso IJCAI-16, con quattro concorrenti. La prima prova consisteva nel risolvere le ambiguità di pronomi su domande adattate da fonti letterarie e non costruite come coppia di frasi.[12] Il punteggio massimo fu ottenuto da un programma sviluppato da Quan Liu ed altri dell'Università di Scienza e Tecnologia della Cina, ma non andò oltre a una percentuale di risposte corrette pari al 58%.[13] In base al regolamento, non fu assegnato nessun premio e non si procedette con la seconda prova. In quell'occasione il comitato organizzatore era composto da Leora Morgenstern, Ernest Davis e Charles Ortiz.[14] Nuance decise di cancellare la competizione, viste le scarse prospettive,[15] e il premio non è più disponibile.[16]
Nel 2017, un modello associativo neurale progettato per "acquisire conoscenza di buon senso" ottenne una precisione del 70% su 70 problemi selezionati manualmente tra i 273 del corpo dei test dello schema di Winograd.[17]
Nel giugno 2018 si ottenne un punteggio del 63.7% di precisione sull'intero corpo dei test usando una rete di modelli di linguaggio neurali,[18] segnando anche il primo impiego di reti neurali ad apprendimento profondo che hanno attinto da corpora indipendenti per acquisire conoscenze di buon senso.
Nel 2019 grazie a un accurato fine-tuning e a un apprendimento basato su dati simili a WSC, un modello di linguaggio BERT ha raggiunto un punteggio del 90,1% sul corpo originale dello schema di Winograd; l'approccio seguito ha evitato la necessità di istruire la macchina sul ragionamento basato sul buon senso.[11] Nel 2020 il modello di linguaggio generale GPT-3 ha ottenuto un punteggio di 88.3% senza necessità di fine-tuning.[19]
Nel 2019 è stato sviluppato un dataset "Winogrande" più impegnativo e complesso composto da 44 000 problemi. Questo dataset è contraddistinto da frasi in cui l'obiettivo della macchina è riempire le parti mancanti, a differenza del formato basato sull'associazione dei pronomi tipico dei dataset precedenti.[11]
Una versione della sfida dello schema di Winograd viene usate come parte del benchmark GLUE (General Language Understanding Evaluation) per la valutazione dei sistemi automatizzati di comprensione del linguaggio naturale.[20]
Note
- ^ (EN) Evan Ackerman, Can Winograd Schemas Replace Turing Test for Defining Human-level AI, su spectrum.ieee.org, IEEE Spectrum, 29 luglio 2014.
- ^ a b c (EN) H. J. Levesque, On our best behaviour, in Artificial Intelligence, vol. 212, 2014, pp. 27–35, DOI:10.1016/j.artint.2014.03.007.
- ^ (EN) Vid Kocijan, Ernest Davis, Thomas Lukasiewicz, Gary Marcus e Leora Morgenstern, The defeat of the Winograd Schema Challenge, in Artificial Intelligence, vol. 325, 11 luglio 2023, p. 103971, DOI:10.1016/j.artint.2023.103971, ISSN 0004-3702.
- ^ a b (EN) Alan Turing, Computing Machinery and Intelligence (PDF), in Mind, LIX, n. 236, ottobre 1950, pp. 433–460, DOI:10.1093/mind/LIX.236.433.
- ^ a b c (EN) Hector Levesque, Ernest Davis e Leora Morgenstern, The Winograd Schema Challenge, Proceedings of the Thirteenth International Conference on Principles of Knowledge Representation and Reasoning, 2012.
- ^ (EN) Julian Michael, The Theory of Correlation Formulas and Their Application to Discourse Coherence, UT Digital Repository, 18 maggio 2015, p. 6, hdl:2152/29979.
- ^ (EN) Terry Winograd, Understanding Natural Language, in Cognitive Psychology, vol. 3, n. 1, gennaio 1972, pp. 1–191, DOI:10.1016/0010-0285(72)90002-3.
- ^ (EN) Ernest Davis, A Collection of Winograd Schemas, su New York University.
- ^ (EN) AAAI 2015 Spring Symposia, su Association for the Advancement of Artificial Intelligence.
- ^ (EN) Nuance announces the Winograd Schemas Challenge to Advance Artificial Intelligence Innovation, su Business Wire, 28 luglio 2014.
- ^ a b c (EN) Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula e Yejin Choi, WinoGrande: An Adversarial Winograd Schema Challenge at Scale, 2019.
- ^ (EN) Ernest Davis, Leora Morgenstern e Charles Ortiz, The First Winograd Schema Challenge at IJCAI-16, in AI Magazine, Autunno 2017.
- ^ (EN) Quan Liu, Hui Jiang, Zhen-Hua Ling, Xiaodan Zhu, Si Wei e Yu Hu, Commonsense Knowledge Enhanced Embeddings for Solving Pronoun Disambiguation Problems in Winograd Schema Challenge, su arxiv.org, 2016.
- ^ (EN) Leora Morgenstern, Ernest Davis e Charles L. Ortiz, Planning, Executing, and Evaluating the Winograd Schema Challenge, in AI Magazine, vol. 37, n. 1, marzo 2016, pp. 50–54, DOI:10.1609/aimag.v37i1.2639, ISSN 0738-4602.
- ^ (EN) I.M. Boguslavsky, T.I. Frolova, L.L. Iomdin, A.V. Lazursky, I.P. Rygaev e S.P. Timoshenko, Knowledge-based approach to Winograd Schema Challenge (PDF), in Proceedings of the International Conference of Computational Linguistics and Intellectual Technologies, Mosca, 2019.«Non è stato possibile assegnare il premio; la maggior parte dei concorrenti ha mostrato risultati paragonabili a scelte casuali se non peggio. La seconda edizione prevista per il 2018 è stata cancellata per mancanza di prospettive di partecipanti.»
- ^ (EN) Winograd Schema Challenge, su CommonsenseReasoning.org.
- ^ (EN) Quan Liu, Hui Jiang, Andrew Evdokimov, Zhen-Hua Ling, Xiaodan Zhu, Si Wei e Yu Hu, Cause-Effect Knowledge Acquisition and Neural Association Model for Solving a Set of Winograd Schema Problems, in Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, 2017, pp. 2344–2350, DOI:10.24963/ijcai.2017/326, ISBN 9780999241103.
- ^ (EN) Trieu H. Trinh e Quoc V. Le, A Simple Method for Commonsense Reasoning, su arxiv.org, 26 settembre 2019.
- ^ (EN) Tom B. Brown et al., Language Models are Few-Shot Learners, su arxiv.org, 2020.
- ^ (EN) GLUE Benchmark, su gluebenchmark.com.