Cloudflare lancia una piattaforma AI unificata per l'Internet Agentic
AI News

Cloudflare lancia una piattaforma AI unificata per l'Internet Agentic

5 min
17/04/2026
CloudflareAIArtificial IntelligenceEdge Computing

La piattaforma AI di Cloudflare: il livello di inferenza per l'Internet Agentic

Il panorama dell'AI sta evolvendo da semplici chatbot a agenti autonomi complessi e multi-step. Questa evoluzione crea una nuova serie di richieste infrastrutturali: affidabilità, velocità e flessibilità dei modelli su una scala che le applicazioni centrate sull'uomo non hanno mai richiesto. Cloudflare, riconoscendo ciò, ha lanciato la sua piattaforma AI unificata, progettata per essere il livello di inferenza fondamentale per questo emergente "Internet Agentic." La piattaforma unisce AI Gateway e Workers AI in un servizio coerente, offrendo agli sviluppatori un'unica API per accedere a oltre 70 modelli da più di 12 provider.

Questa mossa è una scommessa strategica sul futuro del web. Il CEO di Cloudflare, Matthew Prince, prevede che il traffico dei bot AI supererà il traffico umano online entro il 2027. Se ciò si rivelerà vero, l'infrastruttura che alimenta questi agenti diventa strategicamente vitale quanto le reti di distribuzione dei contenuti lo erano per il web originale. Cloudflare sta sfruttando la sua rete edge globale di 330 data center per posizionarsi come il tessuto connettivo essenziale per questo nuovo ecosistema guidato dalle macchine.

La sfida principale: gestire la complessità multi-modello

L'annuncio affronta direttamente un punto critico per gli sviluppatori che costruiscono applicazioni AI avanzate. Come nota Cloudflare, il modello migliore per un compito oggi potrebbe essere obsoleto tra tre mesi. Gli agenti del mondo reale spesso devono concatenare più modelli—un classificatore veloce, un modello di ragionamento grande e un esecutore di compiti leggeri—per completare una singola richiesta dell'utente.

Questo approccio multi-modello, sebbene potente, introduce un notevole sovraccarico operativo. Gli sviluppatori devono gestire chiavi API, costi e affidabilità su più provider. Un singolo provider lento o una richiesta fallita in un flusso di lavoro agentic non solo aggiunge latenza; può innescare una cascata, rompendo l'intera catena. I dati di Cloudflare mostrano che le aziende stanno già chiamando una media di 3,5 modelli diversi, sottolineando la necessità di un livello di gestione unificato.

Una API, un catalogo, una fattura

La soluzione di Cloudflare è elegante nella sua semplicità. Gli sviluppatori possono ora chiamare modelli di terze parti utilizzando lo stesso binding AI.run() utilizzato per i modelli Workers AI di Cloudflare. Il passaggio tra un modello ospitato da Cloudflare e uno di OpenAI o Anthropic diventa una modifica di una riga di codice. Una API REST di prossima uscita estenderà questo accesso a qualsiasi ambiente di sviluppo.

Il catalogo iniziale include modelli di attori principali come OpenAI, Anthropic, Google e Alibaba Cloud, ma si estende anche a offerte multimodali per immagini, video e parlato da provider come Runway e InWorld. Fondamentalmente, questo accesso unificato fornisce un'unica vista per il monitoraggio e la gestione dei costi. Gli sviluppatori possono allegare metadati personalizzati alle richieste per analizzare la spesa per utente, team o flusso di lavoro, offrendo finalmente una visione olistica della spesa AI.

continua a leggere sotto...

Porta il tuo modello e l'integrazione con Replicate

Oltre ai modelli di terze parti, Cloudflare sta affrontando la necessità di modelli personalizzati e ottimizzati. L'azienda sta sviluppando una funzione "Porta il tuo modello", sfruttando la tecnologia di Replicate, che si è ufficialmente unito al team della piattaforma AI di Cloudflare. Utilizzando la tecnologia di containerizzazione Cog di Replicate, gli sviluppatori saranno in grado di impacchettare i propri modelli di apprendimento automatico e distribuirli direttamente su Workers AI.

Questa iniziativa si basa sull'esperienza di Cloudflare nel servire clienti Enterprise con istanze dedicate per modelli personalizzati. L'obiettivo è democratizzare questa capacità, consentendo a chiunque di containerizzare un modello con un semplice file di configurazione e inviarlo alla rete globale di Cloudflare per l'inferenza serverless. Questa stretta integrazione significa che la vasta libreria di modelli precedentemente su Replicate diventerà accessibile anche tramite AI Gateway.

Progettato per velocità e affidabilità

Per gli agenti live, la percezione dell'utente dipende dal tempo al primo token—quanto velocemente l'agente inizia a rispondere. La rete edge di Cloudflare è unicamente posizionata per minimizzare questa latenza. Quando si chiamano modelli ospitati da Cloudflare come il Kimi K2.5 ottimizzato per gli agenti, l'inferenza viene eseguita sulla stessa rete globale del codice dello sviluppatore, eliminando i salti su Internet pubblico.

L'affidabilità è altrettanto fondamentale. La piattaforma introduce il failover automatico: se un modello di un provider fallisce, AI Gateway può automaticamente instradare la richiesta a un modello equivalente di un altro provider. Inoltre, per gli agenti a lunga esecuzione costruiti con l'SDK Agents di Cloudflare, la piattaforma bufferizza le risposte in streaming. Se un agente viene interrotto, può riconnettersi e recuperare la risposta senza rieseguire l'inferenza o pagare due volte, garantendo efficienza dei costi e operativa.

Il panorama competitivo e strategico

Cloudflare non sta operando nel vuoto. Il mercato per l'infrastruttura degli agenti AI sta diventando affollato. Tuttavia, la sua strategia è multifacética: combina l'accesso ai modelli di un aggregatore API con l'inferenza ad alte prestazioni della sua rete edge (alimentata dal suo motore "Infire" basato su Rust) e una suite in crescita di servizi complementari come l'archiviazione R2 e gli strumenti di sicurezza AI-SPM.

La sua partnership con OpenAI per "Agent Cloud" e l'acquisizione di Replicate sono mosse chiave per colmare potenziali lacune. La visione è quella di offrire un ambiente full-stack in cui gli agenti possano operare con stato persistente, non costare nulla quando sono inattivi e integrarsi senza soluzione di continuità con i sistemi di identità e conformità aziendali—un requisito cruciale per l'adozione da parte delle Fortune 500.

Perché questo è importante: ridisegnare l'infrastruttura per le macchine

Il lancio sottolinea una tesi più ampia articolata dagli analisti del settore: l'AI agentic non può essere semplicemente aggiunta all'infrastruttura esistente. Gli ambienti cloud tradizionali sono stati progettati per applicazioni e database, non per la natura persistente, intensiva dal punto di vista computazionale e dipendente dalle catene degli agenti AI. Il ridimensionamento degli agenti richiede un'infrastruttura distribuita specializzata, ottimizzata per la comunicazione macchina-macchina.

La piattaforma di Cloudflare rappresenta un cambiamento fondamentale verso un'infrastruttura costruita con le macchine, non solo con le persone, in mente. Tocca anche una tensione economica più profonda evidenziata dai dati di Cloudflare stesso: le aziende AI stanno consumando contenuti web a un ritmo molto più alto di quanto restituiscano traffico o valore, una dinamica che potrebbe minare il modello economico del web. Fornendo strumenti per il controllo dei costi, l'inferenza efficiente e l'esecuzione affidabile, Cloudflare non sta solo vendendo un servizio; sta tentando di progettare la base sostenibile per la prossima era di Internet.