Nejasno skupljanje K-sredina u Mahoutu



Ovaj blog daje uvod u Fuzzy K-Means klasteriranje u Apache Mahoutu.

c ++ funkcija sortiranja

Fuzzy K-Means potpuno je isti algoritam kao i K-znači, što je popularna jednostavna tehnika grupiranja. Jedina je razlika u tome što, umjesto da točku dodijeli samo jednom klasteru, on može imati neku vrstu nejasnoća ili se preklapati između dva ili više klastera. Slijede ključne točke koje opisuju nejasne K-znakove:





  • Za razliku od K-Means-a, koji traži tvrdi klaster, pri čemu svaka od točaka pripada jednom klasteru, Fuzzy K-Means traži mekše klastere radi preklapanja.
  • Jedna točka u mekom jatu može pripadati više klastera s određenom vrijednošću afiniteta prema svakoj od točaka.
  • Afinitet je proporcionalan udaljenosti te točke od težišta klastera.
  • Slično K-sredstvima, Fuzzy K-Means djeluje na objektima koji imaju definiranu mjeru udaljenosti i mogu biti predstavljeni u n- dimenzionalni vektorski prostor.

Nejasni K-znaci MapSmanjivanje protoka

Nema puno razlike između protoka MapReducea K-sredstava i nejasnih K-sredstava. Implementacija oba u Mahoutu je slična.

Slijede bitni parametri za primjenu Fuzzy K-Meana:



  • Za unos vam treba skup podataka Vector.
  • Mora postojati RandomSeedGenerator za zasijavanje početnih k klastera.
  • Za mjerenje udaljenosti potrebna je SquaredEuclideanDistanceMeasure.
  • Velika vrijednost praga konvergencije, poput –cd 1,0, ako je korištena kvadratna vrijednost mjere udaljenosti
  • Vrijednost za maxIterations zadana vrijednost je -x 10.
  • Koeficijent normalizacije ili faktor nejasnoće, s vrijednošću većom od -m 1,0

Imate pitanje za nas? Spomenite ih u odjeljku za komentare i javit ćemo vam se.

Vezane objave



Nadzirano učenje u Apache Mahoutu