L’algoritmo YOLOv8 è l’ultima versione della serie YOLO di modelli di rilevamento degli oggetti, che rappresenta un importante progresso nelle attività di rilevamento degli oggetti in tempo reale nel campo del deep learning. L’algoritmo ha attirato l’attenzione per la sua efficiente velocità di rilevamento e l’eccellente precisione, soprattutto nelle applicazioni in scenari complessi. Il concetto di progettazione di YOLOv8 si basa sull’analisi approfondita e sull’ottimizzazione delle precedenti generazioni di modelli YOLO, con l’obiettivo di migliorare le prestazioni complessive del rilevamento degli oggetti migliorando la struttura della rete e il flusso dell’algoritmo.

La struttura di rete di YOLOv8 è composta principalmente da quattro parti principali: il livello di input, la rete dorsale, la rete di fusione delle caratteristiche del collo e il modulo di rilevamento della testa. Il livello di input è responsabile della pre-elaborazione dell’immagine di input, incluso il ridimensionamento dell’immagine, il miglioramento del mosaico e il calcolo del punto di mira. Queste fasi di pre-elaborazione mirano a migliorare l’adattabilità del modello a diverse dimensioni e obiettivi di deformazione, aumentando così l’efficacia della successiva estrazione delle caratteristiche.

Nella sezione Backbone, YOLOv8 utilizza una struttura DarkNet ottimizzata. A differenza delle versioni precedenti, YOLOv8 introduce un modulo C2f invece del tradizionale modulo C3. Questo design innovativo consente alla rete di ottenere un flusso di gradiente più ricco durante l’estrazione delle caratteristiche, migliorando così la capacità del modello di acquisire caratteristiche dettagliate. Inoltre, YOLOv8 regola il numero di canali per i modelli a scale diverse per garantire che sia possibile conservare informazioni sufficienti sulle caratteristiche pur essendo leggero. Con l’introduzione del modulo SPPF, YOLOv8 può elaborare efficacemente le mappe delle caratteristiche di output e unire le mappe delle funzionalità utilizzando l’operazione di pooling di diverse dimensioni del kernel, migliorando così la capacità di espressione delle funzionalità.

Nella parte del collo, YOLOv8 continua ad adottare una “struttura a torre gemella”, combinando la rete piramidale delle caratteristiche (FPN) e la rete di aggregazione dei percorsi (PAN) per ottenere un’efficace fusione di caratteristiche a diverse scale. Questa struttura non solo promuove il trasferimento tra le funzionalità semantiche e le funzionalità di localizzazione, ma migliora anche ulteriormente la capacità della rete di rilevare target multiscala. Grazie a questo design, YOLOv8 è in grado di identificare e localizzare in modo più accurato i bersagli in contesti complessi, migliorando le prestazioni di rilevamento complessive.

Il modulo di rilevamento della testa è il componente principale di YOLOv8, che utilizza la struttura della testa di disaccoppiamento per separare il ramo di regressione dal ramo di previsione. Questo design non solo accelera la velocità di convergenza del modello, ma migliora anche l’accuratezza del rilevamento. Attraverso la ramificazione parallela del volume, YOLOv8 è in grado di calcolare contemporaneamente la categoria target e la perdita di posizione, consentendo un rilevamento più efficiente del target.

Vale la pena ricordare che YOLOv8 ha anche lanciato una versione leggera di YOLOv8n, progettata per ambienti con risorse limitate. YOLOv8n utilizza un modulo C2F più leggero nel livello di rete di estrazione delle funzionalità Backbone e ottimizza l’operazione di convoluzione a una profondità di 3×3 per ridurre la complessità computazionale. Allo stesso tempo, nel livello di fusione delle caratteristiche, YOLOv8n riduce il numero di livelli di downsampling, migliorando ulteriormente l’efficienza di esecuzione del modello. Introducendo la rete BiFPN, YOLOv8n può ottenere un’efficiente connessione bidirezionale su scala incrociata e la fusione ponderata delle funzionalità, accelerando così l’estrazione delle informazioni sulle caratteristiche su scale diverse.

Per riassumere, l’algoritmo YOLOv8 non solo migliora l’accuratezza e la velocità di rilevamento degli oggetti, ma migliora anche l’adattabilità del modello in una varietà di scenari applicativi attraverso una serie di innovazioni strutturali e ottimizzazioni. Che si tratti di monitoraggio in tempo reale, guida autonoma o sicurezza intelligente, YOLOv8 ha dimostrato il suo forte potenziale e le sue ampie prospettive applicative. Con il continuo sviluppo della tecnologia di deep learning, YOLOv8 diventerà senza dubbio un’importante pietra miliare nel campo del rilevamento di oggetti, fornendo una solida base per la successiva ricerca e applicazione.