Possiamo credere ai benchmark?

21 ago

Il lancio dei primi notebook con Snapdragon X Elite mette in luce più che mai i limiti dei benchmark e il motivo per cui sarebbe ora di metterli da parte.

Nei due mesi che sono passati da quando è possibile acquistare i nuovi notebook con a bordo lo Snapdragon X Elite, sono uscite sul web letteralmente migliaia di recensioni e prove con lo scopo non tanto di recensire i laptop, ma di testare il comportamento del nuovo SoC di Qualcomm, declinato in alcune varianti e implementato diversamente su prodotti diversi.

Ebbene, leggere e guardare questa inondazione di recensioni mi ha fatto riflettere sul valore che diamo – spesso esagerando – ai benchmark, che troppo spesso non danno un’idea realistica delle reali prestazioni dell’hardware che chi li usa vuole testare. Ovviamente non c’è nulla di nuovo in tutto questo, ma questa volta credo sia stato veramente passato il segno, vuoi per la risonanza mediatica di questo lancio, vuoi per il livello di inaffidabilità raggiunto questa volta, che porta i benchmark ad essere talmente fuorvianti che sarebbe meglio non tenerli proprio in considerazione.

Per esempio, abbiamo visto tutti i punteggi stratosferici fatti segnare dai nuovi SoC su Cinebench 2024, con alcuni casi, come quello dell’Asus Vivobook da 15 pollici, in cui è stata superata la soglia psicologica dei 1.000 punti. Ora, Cinebench è storicamente uno dei benchmark più credibili, perché simula uno scenario realistico, ovvero il rendering di una scena usando la CPU. Eppure, questa volta i 1.000 punti (o quasi) registrati, sono aria fritta, semplicemente perché i produttori – non si sa se per volontà loro o di Qualcomm, anche se personalmente propendo per la seconda – hanno deciso di spingere appositamente i loro prodotti oltre i limiti tollerabili di consumi, temperature e rumorosità quando viene rilevata l’esecuzione di Cinebench, giusto per poter dire di aver raggiunto prestazioni incredibili. Peccato, perché queste prestazioni non le otterrà nessuno in alcun caso reale: ha senso confrontare lo Snapdragon con un altro processore basandosi sui risultati di Cinebench?

Un altro benchmark per cui Qualcomm ha cercato di ottimizzare il suo SoC è 3D Mark Wild Life Extreme, un test che simula le prestazioni della GPU in uno scenario di gioco. Ora, abbiamo visto in questi mesi come la GPU sia il vero tallone d’Achille dello Snapdragon X Elite, sia a causa delle scarse prestazioni nella rasterizzazione che per l’assenza del supporto al ray tracing e al mesh shading. Così, Qualcomm ha pensato bene di ottimizzare la GPU per questo specifico benchmark - peraltro uno dei più usati nelle recensioni – con il fine di mostrare un risultato più convincente, ma, anche qui, di nessun valore per il potenziale acquirente di una di queste macchine, che non vedrà mai prestazioni paragonabili a quelle di questo specifico test.

Tuttavia, nonostante gli sforzi di Qualcomm di mettere in buona luce il suo prodotto, l’effetto di queste “ottimizzazioni-arbitrarie-per-mostrare-i-muscoli” è stato quello di rendere poco credibile quello che in realtà è un ottimo SoC, soprattutto considerando che si tratta della prima generazione, e di infastidire gli utenti che si sono sentiti raccontare una storia diversa da quella reale da parte di Qualcomm, che sembra aver fatto sforzi inutili solo per poter dire di aver superato Apple Silicon, quando è evidente che la realtà è un po’ diversa.

Inutile dire che chi ha recensito questi laptop ha messo quasi sempre in luce il problema, passando a mostrare dei test di uso reale, effettuati con applicazioni e in contesti reali. E i risultati? Beh, i risultati sono stati davvero ottimi, soprattutto considerando che molti software, plugin e driver non girano ancora nativamente su Windows on ARM. Però resta sempre l’amaro in bocca per le politiche aggressive adottate da Qualcomm per vendere il suo SoC: bene spingere l’adozione di ARM anche nel mondo Windows, ma era proprio necessario arrivare a manipolare i dati in questo modo?

Come dicevo, quello dei benchmark non è un problema nuovo; anzi, è un problema vecchio quasi quanto il web: i benchmark entrarono in voga a fine anni ’90, quando le community online iniziavano a confrontarsi sulle prestazioni dei propri computer, e le aziende del settore tech li usavano per dimostrare la bontà del loro hardware. Già nei primi anni 2000, però, i limiti di questi test avevano iniziato a diventare evidenti: molto spesso capitava che i punteggi non avessero alcun legame con la realtà, e che un computer che facesse registrare punteggi elevatissimi nei benchmark risultasse poi lento e poco reattivo (sì, vi ricordate quegli anni?) nell’uso reale. È proprio così che ebbe origine l’idea del fondatore di Primate Labs, la società che sviluppa Geekbench, il noto benchmark cross-platform: si era reso conto che i test dell’epoca non restituivano risultati coerenti con le reali prestazioni che poi era possibile ottenere con i computer, e così ebbe vita Geekbench. Eppure, sebbene oggi Geekbench sia preso spesso come primo riferimento nelle recensioni e nelle prove dei dispositivi, è un benchmark che, ancora una volta, non restituisce numeri indicativi di un uso reale. D’altra parte si tratta pur sempre di un benchmark esclusivamente numerico, che testa tutta una serie di operazione che dovrebbero simulare un utilizzo misto del computer o dello smartphone. Ma, come abbiamo più volte constatato negli anni, basta un solo punteggio tra quelli misurati per influenzare la media e restituire valori poco credibili, visto che la media aritmetica è particolarmente sensibile ai valori estremi. Un esempio è caso del recente iPad Pro M4: quando sono usciti online i primi benchmark tutti sono rimasti sorpresi nel vedere un punteggio molto più altro del precedente M3 e addirittura paragonabile a quello di M2 Max. Nelle ore successive però molti si sono accorti che in realtà le prestazioni di M4 sono appena superiori a quelle di M3: a fare la differenza era stato un test, tra i molti che compongono il punteggio, avvantaggiato dalla presenza di alcune istruzioni presenti su M4 e assenti su M3: questo dettaglio è bastato per restituire un risultato totalmente fuorviante.

Quindi questa storia ci insegna che i benchmark sono comodi – basta premere un bottone e leggere il punteggio – ma, come tutte le vie brevi, portano spesso a trarre conclusioni affrettate. Non fraintendetemi, credo che i benchmark siano molto utili e che valga la pena tenerli comunque in considerazione: non sono però mai sufficienti, e se volete veramente farvi un’idea delle prestazioni di un dato hardware è sempre fondamentale valutare dei casi d’uso reali, svolti con vari test e applicazioni reali, a seconda del proprio campo e dei propri interessi.

Giovanni Pezzutto

Possiamo credere ai benchmark?

La chiusura di Anandtech dimostra che il web è cambiato

Ripensando il marketing tech