Data Mining с кластером K-сред

k- означает, что алгоритм кластеризации представляет собой инструмент интеллектуального анализа данных и машинного обучения, используемый для кластерных наблюдений в группы взаимосвязанных наблюдений без какого-либо предварительного знания этих взаимосвязей. При выборке алгоритм пытается показать, в какой категории или кластере находятся данные, причем количество кластеров определяется значением к.

k- означает, что алгоритм является одним из простейших методов кластеризации и широко используется в медицинской визуализации, биометрии и смежных областях. Преимущество k- означает, что кластеризация заключается в том, что он рассказывает о ваших данных (используя его неконтролируемую форму), а не о том, чтобы вы инструктировали алгоритм о данных в начале (используя контролируемую форму алгоритма).

Его иногда называют алгоритмом Ллойда, особенно в кругах компьютерных наук, потому что стандартный алгоритм был впервые предложен Стюартом Ллойдом в 1957 году. Термин «k-mean» был придуман в 1967 году Джеймсом Маккуином.

Как функционирует алгоритм K-Means

k- означает, что алгоритм является эволюционным алгоритмом, который получает свое название от своего метода работы. Наблюдения алгоритмов кластеров в К групп, где К в качестве входного параметра. Затем он присваивает каждое наблюдение кластерам, основанным на близости наблюдения к среднему классу. Среднее значение кластера пересчитывается, и процесс начинается снова. Вот как работает алгоритм:

Алгоритм произвольно выбирает К точки как начальные центры кластеров (средства).
Каждая точка в наборе данных назначается закрытому кластеру, основанному на евклидовом расстоянии между каждой точкой и каждым центром кластера.
Каждый центр кластера пересчитывается как среднее значение точек в этом кластере.
Шаги 2 и 3 повторяются до тех пор, пока кластеры не сближаются. Конвергенция может быть определена по-разному в зависимости от реализации, но обычно это означает, что либо никакие наблюдения не изменяют кластеры, когда шаги 2 и 3 повторяются, либо изменения не влияют на существенное различие в определении кластеров.

Выбор количества кластеров

Один из главных недостатков k- означает, что кластеризация - это то, что вы должны указать количество кластеров в качестве входа в алгоритм. Как и было разработано, алгоритм не способен определять соответствующее количество кластеров и зависит от пользователя, чтобы определить это заранее.

Например, если у вас была группа людей, которые должны быть сгруппированы на основе двоичной гендерной идентичности как мужчины или женщины, k- означает алгоритм с использованием ввода к = 3 заставит людей на три кластера, когда только два, или ввод к = 2, обеспечит более естественную форму.

Аналогичным образом, если группа людей была легко сгруппирована на основе домашнего состояния, и вы назвали k- означает алгоритм с вводом к = 20, результаты могут быть слишком обобщенными, чтобы быть эффективными.

По этой причине часто бывает целесообразно экспериментировать с различными значениями К для определения ценности, которая наилучшим образом соответствует вашим данным. Вы также можете изучить использование других алгоритмов интеллектуального анализа данных в своих поисках знаний, полученных машинами.