Классификация - это метод интеллектуального анализа данных, который присваивает категории набор данных для более точного прогнозирования и анализа. Также называется иногда называемым Древо решений , классификация является одним из нескольких методов, направленных на то, чтобы сделать анализ очень больших наборов данных эффективным.
Почему классификация?
Очень большие базы данных становятся нормой в современном мире большие данные , Представьте себе базу данных с несколькими терабайтами данных - терабайт - один триллион байт данных.
Только Facebook сводит 600 терабайт новых данных каждый день (по состоянию на 2014 год, в последний раз, когда они сообщали об этих спецификациях). Основная задача больших данных - понять, как это сделать.
И явный объем - это не единственная проблема: большие данные также имеют тенденцию быть разнообразными, неструктурированными и быстро меняющимися. Рассмотрим аудио- и видеоданные, сообщения в социальных сетях, данные 3D или геопространственные данные. Такие данные нелегко классифицировать или организовывать.
Для решения этой задачи был разработан целый ряд автоматических методов извлечения полезной информации, в том числе классификация .
Как работает классификация
В опасности слишком далеко продвинуться в технологии говорить, давайте обсудим, как работает классификация. Цель состоит в том, чтобы создать набор правил классификации, которые будут отвечать на вопрос, принимать решение или предсказывать поведение. Для начала создается набор учебных данных, которые содержат определенный набор атрибутов, а также вероятный результат.
Задача алгоритма классификации заключается в том, чтобы узнать, как этот набор атрибутов достигает своего завершения.
сценарий: Возможно, компания кредитных карт пытается определить, какие перспективы должны получить предложение по кредитной карте.
Это может быть его набор данных обучения:
| название | Возраст | Пол | Годовой доход | Предложение кредитной карты |
|---|---|---|---|---|
| Джон Доу | 25 | M | $39,500 | нет |
| Джейн Доу | 56 | F | $125,000 | да |
Столбцы «предиктора» Возраст , Пол , а также Годовой доход определить значение «атрибута предиктора», Предложение кредитной карты , В обучающем наборе известен атрибут предиктора. Затем алгоритм классификации пытается определить, как было достигнуто значение атрибута predor: какие существуют отношения между предикторами и решением? Он разработает набор правил прогнозирования, обычно это утверждение IF / THEN, например:
IF (возраст> 18 лет или возраст <75) и годовой доход> 40 000 THEN Предложение кредитной карты = да
Очевидно, что это простой пример, и для этого алгоритма потребуется гораздо большая выборка данных, чем две приведенные здесь записи. Кроме того, правила прогнозирования, вероятно, будут гораздо более сложными, включая под-правила для захвата данных атрибута.
Затем алгоритму присваивается «набор прогнозов» данных для анализа, но в этом наборе отсутствует атрибут предсказания (или решение):
| название | Возраст | Пол | Годовой доход | Предложение кредитной карты |
|---|---|---|---|---|
| Джек Фрост | 42 | M | $88,000 | |
| Мэри Мюррей | 16 | F | $0 |
Эти данные прогнозирования помогают оценить точность правил прогнозирования, а правила затем корректируются до тех пор, пока разработчик не будет считать прогнозы эффективными и полезными.
День за днем Примеры классификации
Классификация и другие методы интеллектуального анализа данных - это большая часть нашего повседневного опыта как потребителей.
Прогнозы погоды могут использовать классификацию, чтобы сообщить, будет ли день дождливым, солнечным или облачным. Медицинская профессия может анализировать состояние здоровья для прогнозирования результатов лечения. Тип метода классификации, наивный байесовский, использует условную вероятность классифицировать спам-сообщения. От обнаружения мошенничества до предложений продуктов классификация за кадром каждый день анализирует данные и производит прогнозы.




