Logo ca.boatexistence.com

Es poden utilitzar k-means per categoritzar les dades de text?

Taula de continguts:

Es poden utilitzar k-means per categoritzar les dades de text?
Es poden utilitzar k-means per categoritzar les dades de text?

Vídeo: Es poden utilitzar k-means per categoritzar les dades de text?

Vídeo: Es poden utilitzar k-means per categoritzar les dades de text?
Vídeo: 8 инструментов в Excel, которыми каждый должен уметь пользоваться 2024, Maig
Anonim

K-means és algorisme clàssic per a l'agrupació de dades a la mineria de text, però poques vegades s'utilitza per a la selecció de funcions. … Utilitzem el mètode k-means per capturar diversos centroides de clúster per a cada classe i, a continuació, escollim les paraules d' alta freqüència dels centroides com a característiques del text per a la categorització.

Els k-means funcionen amb dades categòriques?

L'algorisme k-Means no s'aplica a les dades categòriques, ja que les variables categòriques són discretes i no tenen cap origen natural. Per tant, calcular la distància euclidiana per a un espai com ara no té sentit.

Es poden utilitzar k-means per agrupar textos?

La agrupació de

K-means és un tipus de mètode d'aprenentatge no supervisat, que s'utilitza quan no tenim dades etiquetades com en el nostre cas, tenim dades sense etiquetar (és a dir, sense categories ni grups definits). L'objectiu d'aquest algorisme és trobar grups a les dades, mentre que el no. de grups està representat per la variable K.

Podem utilitzar k-means per a la classificació?

KMeans és un algorisme d'agrupació que divideix les observacions en k grups. Com que podem dictar la quantitat de clústers, es pot utilitzar fàcilment en la classificació on dividim les dades en grups que poden ser iguals o superiors al nombre de classes.

Quin algorisme de agrupació és millor per a dades de text?

per agrupar vectors de text, podeu utilitzar algorismes de agrupació jeràrquica com HDBSCAN que també té en compte la densitat. a HDBSCAN no cal que assigneu el nombre de clústers com en k-means i és més robust sobretot en dades sorolloses.

Recomanat: