tecnologia

Inarrestabile Cina: dopo DeepSeek arriva Qwen2.5-Max di Alibaba

Presentato il 28 gennaio, primo giorno del Capodanno lunare del 2025, è un modello MoE su larga scala pre-addestrato su oltre 20 trilioni (mille miliardi) di token e ulteriormente post-addestrato con metodologie curate di Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF). Nei benchmark supera DeepSeek V3, Llama, OpenAI-o1 e Claude 3.5 Sonnet. Ecco i risultati delle prestazioni e le caratteristiche principali

Pubblicato il 29 gen 2025

Pierluigi Sandonnini

Non si è ancora spenta l’eco delle gesta di DeepSeek che ecco arriva una nuova famiglia di modelli linguistici di grandi dimensioni “made in China”: Qwen 2.5, sviluppata da Alibaba Cloud. Le caratteristiche di questi modelli sono sicuramente interessanti, soprattutto il modello “Max”. Ecco i dettagli principali:

Qwen 2.5, le caratteristiche principali

Il rilascio include modelli LLM Qwen2.5, con una novità significativa: tutti sono stati pre-addestrati su un dataset di enormi dimensioni che copre fino a 20 trilioni (mille miliardi) di token.

Rispetto alla versione precedente, Qwen2.5 presenta miglioramenti significativi:

maggiore conoscenza (MMLU oltre 85)
migliorate capacità di coding (HumanEval 85+)
migliorate capacità matematiche (MATH 80+)
supporto fino a 128K token
generazione fino a 8K token
supporto multilingue per oltre 29 lingue, inclusi cinese, inglese, francese, spagnolo, portoghese, tedesco, italiano, russo, giapponese, coreano, vietnamita, thai, arabo e altri.

I modelli specializzati

La famiglia include due modelli esperti:

Qwen2.5-Coder: specializzato in coding
Qwen2.5-Math: specializzato in matematica

Sono stati introdotti anche i modelli Qwen2.5-14B e Qwen2.5-32B, che superano i modelli baseline di dimensioni simili o maggiori, come Phi-3.5-MoE-Instruct e Gemma2-27B-IT.

Modelli di coding

Qwen2.5-Coder è stato addestrato su 5,5 trilioni di token di dati relativi al codice, permettendo anche ai modelli più piccoli di ottenere prestazioni competitive nei benchmark di valutazione del coding.

Modelli matematici

Qwen2.5-Math supporta sia cinese che inglese e integra diversi metodi di ragionamento, tra cui:

Chain-of-Thought (CoT)
Program-of-Thought (PoT)
Tool-Integrated Reasoning (TIR)

Qwen2.5-Max

È ormai riconosciuto che scalare continuamente sia le dimensioni dei dati che quelle del modello può portare a miglioramenti significativi nell’intelligenza del modello. Tuttavia, la comunità della ricerca e dell’industria ha un’esperienza limitata nello scalare efficacemente modelli estremamente grandi, sia che si tratti di modelli densi che di modelli Mixture-of-Expert (MoE). Molti dettagli critici relativi a questo processo di scalatura sono stati resi noti solo con il recente rilascio di DeepSeek V3.

Qwen2.5-Max è un modello MoE su larga scala che è stato pre-addestrato su oltre 20 trilioni (mille miliardi) di token e ulteriormente post-addestrato con metodologie curate di Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF).

Il 28 gennaio, primo giorno del Capodanno lunare del 2025, Alibaba ha condiviso i risultati delle prestazioni di Qwen2.5-Max e ha annunciare la disponibilità della sua API attraverso Alibaba Cloud.

Si possono esplorare le caratterisiche di Qwen2.5-Max su Qwen Chat.

Qwen 2.5-Max, le prestazioni

Qwen2.5-Max è stato valutato insieme ai principali modelli, sia proprietari che open-weight, attraverso una serie di benchmark di grande interesse per la comunità. Questi includono MMLU-Pro, che testa le conoscenze attraverso problemi di livello universitario, LiveCodeBench, che valuta le capacità di codifica, LiveBench, che testa in modo completo le capacità generali, e Arena-Hard, che approssima le preferenze umane. I risultati includono i punteggi delle prestazioni sia per i modelli di base sia per i modelli istruttivi.

Nello sviluppo iterativo della serie Qwen, la scalabilità dei dati ha svolto un ruolo cruciale. Qwen 2.5, che sfrutta 18 trilioni di token per il pre-training, ha dimostrato le capacità più avanzate all’interno della serie Qwen, soprattutto in termini di competenza di dominio, sottolineando l’importanza della scala insieme alla miscela per migliorare le capacità del modello.

Iniziamo confrontando direttamente le prestazioni dei modelli che possono servire per applicazioni come la chat e la codifica. Presentiamo i risultati delle prestazioni di Qwen2.5-Max insieme ai principali modelli all’avanguardia, tra cui DeepSeek V3, GPT-4o e Claude-3.5-Sonnet.

Qwen2.5-Max supera DeepSeek V3 in benchmark come Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond, dimostrando risultati competitivi anche in altre valutazioni, come MMLU-Pro.

Nel confrontare i modelli di base, Alibaba non è stata in grado di accedere ai modelli proprietari come GPT-4o e Claude-3.5-Sonnet. Pertanto hanno valutato Qwen2.5-Max rispetto a DeepSeek V3, uno dei principali modelli MoE open weight; Llama-3.1-405B, il più grande modello denso open weight, e Qwen2.5-72B, che è anche tra i migliori modelli densi weight open. I risultati di questo confronto sono presentati di seguito.

I modelli di base hanno dimostrato vantaggi significativi nella maggior parte dei benchmark e Alibaba si dice ottimista sul fatto che i progressi nelle tecniche di post-training porteranno la prossima versione di Qwen2.5-Max a nuovi livelli.

Qwen 2.5-Max si distingue anche per un consumo energetico leggermente inferiore, un fattore sempre più importante nella valutazione dei modelli di intelligenza artificiale.

Come utilizzare Qwen2.5-Max

Qwen2.5-Max è disponibile in Qwen Chat ed è possibile chattare direttamente con il modello, giocare con gli artefatti, effettuare ricerche, ecc.

L’API di Qwen2.5-Max (il cui nome del modello è qwen-max-2025-01-25) è disponibile. È possibile registrare un account Alibaba Cloud e attivare il servizio Alibaba Cloud Model Studio, quindi accedere alla console e creare una chiave API.

Poiché le API di Qwen sono compatibili con OpenAI-API, si può seguire direttamente la pratica comune di utilizzo delle API OpenAI.

Di seguito è riportato un esempio di utilizzo di Qwen2.5-Max in Python:

from openai import OpenAI
import os

client = OpenAI(
api_key=os.getenv(“API_KEY”),
base_url=”https://dashscope-intl.aliyuncs.com/compatible-mode/v1″,
)

completion = client.chat.completions.create(
model=”qwen-max-2025-01-25″,
messages=[
{‘role’: ‘system’, ‘content’: ‘You are a helpful assistant.’},
{‘role’: ‘user’, ‘content’: ‘Which number is larger, 9.11 or 9.8?’}
]
)

print(completion.choices[0].message)

Quali settori beneficiano maggiormente dall’uso di Qwen 2.5-Max

Qwen 2.5-Max è particolarmente vantaggioso per diversi settori chiave:

Sviluppo software

Assistenza nella scrittura e correzione di codice
Analisi dei requisiti progettuali
Supporto per programmatori con strumenti di AI dedicati

Ricerca scientifica

Elaborazione complessa di dati
Analisi matematica avanzata
Supporto per ricerche interdisciplinari

Automotive

Sviluppo di sistemi di guida autonoma
Elaborazione di dati da sensori e video
Assistenza nella progettazione tecnica

Videogiochi

Generazione di contenuti
Sviluppo di narrativa e scenari
Miglioramento dell’esperienza di gioco con AI generativa

Servizi multimediali

Generazione di video da testo
Trasformazione di immagini statiche in contenuti dinamici
Comprensione e analisi di video lunghi.

In quali contesti Qwen2.5-Max dimostra maggiore precisione semantica

Qwen 2.5-Max dimostra una maggiore precisione semantica in diversi contesti chiave:

Sviluppo software

Analisi di codice complesso
Interpretazione di requisiti progettuali
Comprensione del contesto di programmazione

Elaborazione linguistica

Supporto multilingua (oltre 29 lingue)
Capacità di type-shifting semantico
Gestione di sfumature contestuali nei diversi linguaggi

Ricerca scientifica

Elaborazione di dati testuali complessi
Analisi di relazioni semantiche sottili
Ricostruzione di contesti scientifici articolati

Caratteristiche distintive

Il modello si distingue per:

Elevata capacità di comprensione contestuale
Precisione nell’interpretazione di sfumature semantiche
Capacità di gestire dipendenze dal contesto

Il suo punto di forza risiede nella capacità di andare oltre l’interpretazione letterale, cogliendo significati impliciti e relazioni semantiche complesse in diversi domini applicativi.

I prossimi passi

La scalabilità dei dati e delle dimensioni dei modelli non solo mostra i progressi nell’intelligenza dei modelli, ma riflette anche il costante impegno nella ricerca pionieristica. Alibaba si dichiara impegnata a migliorare le capacità di pensiero e di ragionamento dei modelli linguistici di grandi dimensioni attraverso l’applicazione innovativa dell’apprendimento per rinforzo scalare. Questo impegno promette di consentire ai suoi modelli di trascendere l’intelligenza umana.

Qwen 2.5-Max e la censura governativa

Qwen 2.5-Max di Alibaba, al contrario di DeepSeek-R1, sembra affrontare argomenti scottanti per le autorità cinesi in maniera diversa. Ad esempio, Alibaba risponde a domande sugli eventi di Piazza Tiananmen senza limitazioni, menzionando persino la “rigorosa censura imposta dal governo cinese su questi eventi” nelle sue risposte.

Dove vanno a finire i dati?

L’utilizzo di AI cinesi come DeepSeek e Qwen solleva inquietanti interrogativi sulla privacy e la sicurezza dei dati degli utenti. Gli input testuali o audio, i file caricati, i feedback e la cronologia delle chat vengono infatti archiviati su server che sono fisicamente situati nella Repubblica Popolare Cinese.

Esistono quindi serie preoccupazioni riguardo alla possibilità che i dati raccolti dalle AI possano essere condivisi con il governo cinese, in conformità con le leggi del paese sulla sicurezza informatica, che obbligano le aziende a fornire dati alle autorità su richiesta.

La famiglia Qwen 2.5, prestazioni e innovazioni

Attualmente si sta assistendo a un importante trend verso i Small Language Model (SLM), contrapposti ai LLM (Large Language Model). Il divario prestazionale con i Large Language Model si sta rapidamente riducendo. Modelli con soli 3 miliardi di parametri stanno ottenendo risultati molto competitivi. Il modello Qwen2.5-3B ne è un esempio, dimostrando prestazioni notevoli, nonostante le dimensioni ridotte.

Miglioramenti post-training

Gli sviluppatori hanno raffinato le metodologie post-training con quattro aggiornamenti chiave:

supporto per generazione di testi lunghi fino a 8K token
migliorata comprensione di dati strutturati
generazione più affidabile di output strutturati (specialmente in formato JSON)
migliorate prestazioni su diversi prompt di sistema per facilitare il role-playing.

Alibaba, un nuovo colosso dell’AI

Fondata nel 1999 da Jack Ma, Alibaba è partita come un marketplace B2B per mettere in contatto i produttori cinesi con gli acquirenti internazionali. Nel corso degli anni, l’azienda ha ampliato la sua gamma di servizi con il lancio di Taobao, una piattaforma rivolta ai consumatori, e Alipay, un sistema di pagamento digitale che ha trasformato il mercato finanziario cinese.

Negli ultimi dieci anni, Alibaba ha ampliato le sue operazioni nel cloud computing, nell’intelligenza artificiale e nella logistica, affermandosi come un gigante tecnologico globale.

Chi è Jack Ma, il visionario dietro Alibaba

Nato nel 1964 a Hangzhou, Jack Ma è uno degli imprenditori più carismatici e influenti della Cina. Dopo aver iniziato la sua carriera come insegnante di inglese, ha fondato Alibaba con l’intento di utilizzare Internet come strumento di crescita per le piccole imprese cinesi. Jack Ma ha lasciato la guida dell’azienda all’inizio del 2023. Eddie Wu, l’attuale CEO della multinazionale, sta puntando con decisione sull’intelligenza artificiale e sul cloud computing.

La corsa all’AI tra Cina e Stati Uniti

Lo sviluppo rapido dei modelli di intelligenza artificiale cinesi sta intensificando la competizione con gli Stati Uniti. I risultati ottenuti da DeepSeek nel campo dell’addestramento dell’intelligenza artificiale hanno avuto un impatto sui mercati finanziari.

In una recente intervista, l’ex presidente Donald Trump ha definito l’ascesa di DeepSeek come un “campanello d’allarme” per le aziende americane, sottolineando la necessità di maggiori investimenti nell’intelligenza artificiale per mantenere il vantaggio competitivo.

@RIPRODUZIONE RISERVATA

Pierluigi Sandonnini

Senior web editor Digital360. Oltre trent'anni di esperienza giornalistica, maturata in diversi settori della tecnologia: audio video, tv digitale, telecomunicazioni, internet, intelligenza artificiale. Da cinque anni gestisce il sito Ai4business.it, curandone i contenuti e scrivendo articoli.

Seguimi su

Argomenti

Canali

Intelligenza Artificiale

Inarrestabile Cina: dopo DeepSeek arriva Qwen2.5-Max di Alibaba

Qwen 2.5, le caratteristiche principali

I modelli specializzati

Modelli di coding

Modelli matematici

Qwen2.5-Max

Qwen 2.5-Max, le prestazioni

Come utilizzare Qwen2.5-Max

Quali settori beneficiano maggiormente dall’uso di Qwen 2.5-Max

Sviluppo software

Ricerca scientifica

Automotive

Videogiochi

Servizi multimediali

In quali contesti Qwen2.5-Max dimostra maggiore precisione semantica

Sviluppo software

Elaborazione linguistica

Ricerca scientifica

Caratteristiche distintive

I prossimi passi

Qwen 2.5-Max e la censura governativa

Dove vanno a finire i dati?

La famiglia Qwen 2.5, prestazioni e innovazioni

Miglioramenti post-training

Alibaba, un nuovo colosso dell’AI

Chi è Jack Ma, il visionario dietro Alibaba

La corsa all’AI tra Cina e Stati Uniti

Pierluigi Sandonnini

Articoli correlati

DeepSeek-R1, tutto sul modello cinese che sfida OpenAI

Qwen 2.5 sfida GPT e DeepSeek

DeepSeek-R1 Distilled: il test con i processori AMD Ryzen e le schede grafiche Radeon

Codice Rss

Codice Rss