venerdì 5 maggio 2017

Valenziale e traduzione automatica (notizie dalla Cina)

Chi abbia utilizzato il programma Google Translate nelle ultime settimane si sarà accorto del salto di qualità nella resa da e verso l'italiano: non tanto nella precisione delle parole e delle espressioni idiomatiche, quanto nell'andamento più naturale che hanno le frasi nella lingua di arrivo. Una differenza tanto più evidente quanto più lunga e frammentata è la struttura della frase di partenza (quando si ha cioè a che fare con una frase complessa contenente incisi o subordinate incassate, per cui gli elementi da accordare sono distanti tra loro, o con un ordine delle parole non standard).



Il segreto del balzo in avanti è dato dai progressi dell'intelligenza artificiale, che sfrutta oggi le cosiddette "reti neurali", un sistema di trattamento dell'informazione che si ispira al funzionamento del nostro cervello per "capire" e trattare la sintassi di una lingua.
Fino a qualche mese fa, il programma di Google traduceva come un adulto che si limiti a decifrare il testo di partenza parola per parola (con l'aiuto di un dizionario) facendo tutt'al più attenzione alle polirematiche, cioè alle combinazioni più o meno fisse di parole che vanno considerate come unità (es. ferro da stirorimboccarsi le maniche ecc.). Sulla base di calcoli statistici, il programma estraeva poi dal web la combinazione più frequente nella lingua di arrivo per quelle parole, copiando di fatto la struttura di una frase corretta.
Ora, invece, Google ha imparato a comportarsi come un bambino che deve capire quello che gli stiamo dicendo: si affida sì alla comprensione sequenziale (parola dopo parola) ma ricordando le parole iniziali in modo da costruire via via "reti strutturali" (per riprendere la formula di Castelfranchi e Parisi) che permettono di mettere in relazione gerarchica le singole unità e accedere così alla rappresentazione semantica della frase.
Come un bambino, insomma, il programma integra la memoria a breve e lungo termine, controllando il significato di ogni singola parola e ricordando la sequenza in cui sono combinate: in questo modo può fare ipotesi sul significato della frase via via che si viene costruendo, e aggiustare man mano il tiro.
Come a un bambino, a Google Translate manca la conoscenza del mondo spesso necessaria per fare le giuste inferenze (es. collegare una causa al suo effetto, o ricostruire un implicito), cogliere giochi di parole o reti metaforiche; come un bambino, tuttavia, impara rapidamente se viene corretto in caso di errore (Google Translate conta sulla collaborazione degli utenti per il miglioramento del servizio).

Dalla descrizione dell'algoritmo che permette al traduttore automatico di segmentare la frase e confrontare i tronconi di frase sia a livello paradigmatico sia a livello sintagmatico (data da Macduff Hugues, capo degli ingegneri di Google Translate), non è chiaro il ruolo che abbia o possa avere in questo cotesto il concetto sintattico di "dipendenza" o "valenza", ma è evidente che i "nodi" delle reti neurali segnalano rapporti di dipendenza reciproca tra parole.

Probabilmente il traduttore migliorerebbe ancora di più le sue prestazioni se utilizzasse il concetto di dipendenza nell'accezione tesnièriana. Lo dimostra il lavoro che da anni viene portato avanti dal linguista Liu Haitao dell'Università di Zhejiang: una Treebank (cioè un corpus annotato rispetto alle parti del discorso e alle relazioni sintattiche principali) che utilizza la grammatica valenziale per implementare l'analisi sintattica nei programmi di traduzione automatica dall'inglese al cinese. In questa lingua, infatti, l'analisi binaria della frase (basata sulla scomposizione in un sintagma nominale e uno verbale, rispettivamente soggetto e predicato) solitamente utilizzata nelle Treebank e nei Parser elaborati in paesi angolofoni, si applica in modo non soddisfacente (in cinese la struttura della frase prevede che in prima posizione si metta il topic, ovvero l'elemento di cui si parla, che può essere rappresentato da elementi sintattici diversi dal soggetto)
Gli articoli in inglese del professor Liu (come questo o quest'altro) ci danno l'idea della complessità e delle potenzialità che la grammatica valenziale racchiude per il trattamento automatico a livello contrastivo della struttura sintattica di lingue tipologicamente molto diverse tra di loro (come il cinese rispetto all'inglese o all'italiano), e nella corretta interpretazione di frasi in cui i rapporti di dipendenza si stabiliscano anche (o soprattutto) a distanza.

Insomma: anche nella linguistica informatica, e all'altro capo del mondo, la valenza crea legami, apre strade alla comprensione e alla comprensibilità reciproca. Perché oggi la lingua veicolare internazionale è l'inglese. Domani potrebbe essere la traduzione automatica.

Nessun commento:

Posta un commento