L’algoritmo di clustering k-means.

Gli algoritmi più famosi
PageRank, Algoritmo di PageRank, Gli algoritmi più famosi, Algoritmo di ordinamento rapido, Algoritmo di Dijkstra, Algoritmo di RSA, Algoritmo di ricerca binaria, Algoritmo di backpropagation, Algoritmo di clustering k-means, Algoritmo di ordinamento a bolle (Bubble Sort),

di Sergio Mauri

L’algoritmo di clustering K-means è un algoritmo di apprendimento non supervisionato utilizzato per raggruppare dati simili in un insieme di dati in un numero prestabilito di cluster. La sua formula si basa su un processo iterativo che cerca di minimizzare la somma delle distanze quadrate intra-cluster. Ecco la sua formulazione:

Supponiamo di avere n osservazioni x1​,x2​,…,xn​ da raggruppare in k cluster.

  1. Inizializzazione:
    • Scegliere casualmente k centroidi iniziali μ1​,μ2​,…,μk​ dall’insieme di dati.
  2. Assegnazione dei cluster:
    • Per ogni osservazione xi​, calcolare la distanza tra xi​ e ciascun centroide μj​.
    • Assegnare xi​ al cluster il cui centroide è più vicino, ovvero assegnare xi​ al cluster j dove j=argminj​∥xi​−μj​∥^2.
  3. Aggiornamento dei centroidi:
    • per ciascun cluster j, calcolare il nuovo centroide μj​ come la media di tutti gli elementi assegnati al cluster j, ovvero: μj​=1/∣Cj​∣ ​∑xi​ ∈ Cj^​​xi
    • dove ∣Cj​∣ rappresenta il numero di elementi nel cluster j.
  4. Ripetizione:
    • Ripetere i passaggi 2 e 3 fino a quando i centroidi non cambiano significativamente o fino a quando viene raggiunto un numero prefissato di iterazioni.
    • L’obiettivo dell’algoritmo K-means è di minimizzare la somma delle distanze quadrate intra-cluster, cioè minimizzare la funzione obiettivo: J=∑ (k superiore) j (inferiore =1​ ∑xi​ ∈Cj​​ ∥xi​−μj​∥^2
    • dove Cj​ è il cluster j, μj​ è il centroide del cluster j, e ∥⋅∥^2 rappresenta la distanza euclidea quadra.

L’algoritmo di clustering K-means è iterativo e può convergere a un minimo locale della funzione obiettivo, ma non garantisce la soluzione ottimale globale. La scelta iniziale dei centroidi può influenzare notevolmente i risultati dell’algoritmo K-means, quindi spesso vengono eseguiti più tentativi con diverse inizializzazioni per ottenere una soluzione migliore.

Sergio Mauri
Autore Sergio Mauri Blogger. Premio speciale al Concorso Claudia Ruggeri nel 2007; terzo posto al Premio Igor Slavich nel 2020. Ha pubblicato con Terra d’Ulivi nel 2007 e nel 2011, con Hammerle Editori nel 2013 e 2014 e con Historica Edizioni e Alcova Letteraria nel 2022 e Silele Edizioni (La Tela Nera) nel 2023.
** Se puoi sostenere il mio lavoro, comprami un libro **