L’AI scrive bene, ma “ritocca” male
Postato da AI + Umano il 02/07/2025

L’AI scrive bene, ma “ritocca” male

Perché l’intelligenza artificiale è più abile con le parole che con le immagini

L’intelligenza artificiale genera testi sorprendenti, crea articoli, riformula contenuti, adatta il tono.
Con le immagini, invece, la questione è diversa: modificare, ritoccare o correggere un’immagine AI richiede ancora parecchi aggiustamenti manuali.

Perché questa differenza? Perché l’AI sembra così “sciolta” con le parole… e così impacciata con il pennello?

Vediamolo insieme.

 

Le AI testuali: esperte di aggiustamenti

Scrivere un testo con l’aiuto di un modello come ChatGPT significa avere a disposizione:

  • suggerimenti di stile,

  • correzioni rapide,

  • alternative creative,

  • riassunti, espansioni, riletture.

Tutto questo è reso possibile da anni di addestramento su miliardi di frasi, su una struttura che si basa sulle relazioni tra parole.
L’AI “capisce” il contesto e può agire in modo modulare, frase per frase.

Modificare un aggettivo, spostare una frase, aggiungere un tono ironico? Tutto molto semplice.

 

Le immagini: un’altra storia

Quando si parla di immagini, il meccanismo è completamente diverso.
Qui si lavora pixel per pixel, e i modelli generativi (come quelli di OpenAI, Midjourney o Stable Diffusion) non ragionano a livelli modulari o semantici, ma producono “tutto insieme”, secondo pattern visivi appresi.

Modificare solo una parte dell’immagine – per esempio:

  • cambiare il colore di un oggetto,

  • correggere un dettaglio fuori posto,

  • spostare un elemento mantenendo la coerenza della scena,

non è sempre semplice.
L’AI può confondersi, ricostruire male l’intorno, introdurre incoerenze.
In molti casi, è più facile rigenerare tutto da zero che “aggiustare” solo un pezzetto.

 

I limiti attuali: dove l’AI sulle immagini fatica

  1. Controllo fine: è difficile dire con precisione cosa modificare senza che l’AI interpreti troppo o troppo poco.

  2. Coerenza visiva: piccole modifiche possono rovinare la composizione complessiva.

  3. Editing iterativo: testi e prompt vanno riscritti più volte per ottenere il risultato desiderato, spesso senza garanzie.

  4. Tempi di feedback più lenti: ogni immagine va rigenerata. Non c’è ancora un “Photoshop AI” che funzioni con la stessa precisione degli strumenti tradizionali.

 

Testi e immagini: una differenza strutturale

La differenza fondamentale è che i testi sono sequenziali e strutturati, mentre le immagini sono simultanee e visive.

Il linguaggio ha regole, sintassi, significati logici che l’AI riesce a mappare e manipolare facilmente.

Le immagini, invece, non hanno una grammatica “ufficiale”. Il significato visivo è molto più fluido, e questo rende ogni ritocco una questione ambigua, sottile, a volte soggettiva.

 

Conclusione

L’AI ha fatto passi da gigante nel generare immagini sorprendenti. Ma quando si tratta di modificare con precisione, correggere un dettaglio o adattare una composizione, siamo ancora lontani dalla semplicità con cui l’AI gestisce il testo.

Nel lavoro quotidiano di Edge, usiamo l’intelligenza artificiale per scrivere, ispirarci, velocizzare… ma quando si tratta di immagini lo facciamo solo per il nostro blog :)

Postato in AI