Использование классификации в интеллектуальном анализе данных

Классификация - это метод интеллектуального анализа данных, который присваивает категории набор данных для более точного прогнозирования и анализа. Также называется иногда называемым Древо решений , классификация является одним из нескольких методов, направленных на то, чтобы сделать анализ очень больших наборов данных эффективным.

Почему классификация?

Очень большие базы данных становятся нормой в современном мире большие данные , Представьте себе базу данных с несколькими терабайтами данных - терабайт - один триллион байт данных.

Только Facebook сводит 600 терабайт новых данных каждый день (по состоянию на 2014 год, в последний раз, когда они сообщали об этих спецификациях). Основная задача больших данных - понять, как это сделать.

И явный объем - это не единственная проблема: большие данные также имеют тенденцию быть разнообразными, неструктурированными и быстро меняющимися. Рассмотрим аудио- и видеоданные, сообщения в социальных сетях, данные 3D или геопространственные данные. Такие данные нелегко классифицировать или организовывать.

Для решения этой задачи был разработан целый ряд автоматических методов извлечения полезной информации, в том числе классификация .

Как работает классификация

В опасности слишком далеко продвинуться в технологии говорить, давайте обсудим, как работает классификация. Цель состоит в том, чтобы создать набор правил классификации, которые будут отвечать на вопрос, принимать решение или предсказывать поведение. Для начала создается набор учебных данных, которые содержат определенный набор атрибутов, а также вероятный результат.

Задача алгоритма классификации заключается в том, чтобы узнать, как этот набор атрибутов достигает своего завершения.

сценарий: Возможно, компания кредитных карт пытается определить, какие перспективы должны получить предложение по кредитной карте.

Это может быть его набор данных обучения:

**Данные обучения**

название	Возраст	Пол	Годовой доход	Предложение кредитной карты
Джон Доу	25	M	$39,500	нет
Джейн Доу	56	F	$125,000	да

Столбцы «предиктора» Возраст , Пол , а также Годовой доход определить значение «атрибута предиктора», Предложение кредитной карты , В обучающем наборе известен атрибут предиктора. Затем алгоритм классификации пытается определить, как было достигнуто значение атрибута predor: какие существуют отношения между предикторами и решением? Он разработает набор правил прогнозирования, обычно это утверждение IF / THEN, например:

IF (возраст> 18 лет или возраст <75) и годовой доход> 40 000 THEN Предложение кредитной карты = да

Очевидно, что это простой пример, и для этого алгоритма потребуется гораздо большая выборка данных, чем две приведенные здесь записи. Кроме того, правила прогнозирования, вероятно, будут гораздо более сложными, включая под-правила для захвата данных атрибута.

Затем алгоритму присваивается «набор прогнозов» данных для анализа, но в этом наборе отсутствует атрибут предсказания (или решение):

**Данные прогноза**

название	Возраст	Пол	Годовой доход	Предложение кредитной карты
Джек Фрост	42	M	$88,000
Мэри Мюррей	16	F	$0

Эти данные прогнозирования помогают оценить точность правил прогнозирования, а правила затем корректируются до тех пор, пока разработчик не будет считать прогнозы эффективными и полезными.

День за днем Примеры классификации

Классификация и другие методы интеллектуального анализа данных - это большая часть нашего повседневного опыта как потребителей.

Прогнозы погоды могут использовать классификацию, чтобы сообщить, будет ли день дождливым, солнечным или облачным. Медицинская профессия может анализировать состояние здоровья для прогнозирования результатов лечения. Тип метода классификации, наивный байесовский, использует условную вероятность классифицировать спам-сообщения. От обнаружения мошенничества до предложений продуктов классификация за кадром каждый день анализирует данные и производит прогнозы.

Использование классификации в интеллектуальном анализе данных

Что такое Data Mining? (Июнь 2026)

:

Почему классификация?

Как работает классификация

День за днем Примеры классификации

Учебное пособие по базе данных Microsoft Access 2010: создание базы данных с нуля

Использование проверки данных для предотвращения недопустимого ввода данных в Excel

Калькуляторы данных, которые оценивают использование ваших данных

Выбор редакции

Мы протестировали 5 немолочных сливочных сыров, так что вам не придется

Мы протестировали 5 немолочных сливочных сыров, так что вам не придется

Где найти лучшую веганскую мексиканскую еду в Нью-Йорке

5 вещей, которым я научился в основном на растительной основе в течение трех лет

20 лучших безмолочных и веганских сливок для кофе

Интересные статьи

Мы протестировали 5 немолочных сливочных сыров, так что вам не придется

Где найти лучшую веганскую мексиканскую еду в Нью-Йорке

5 вещей, которым я научился в основном на растительной основе в течение трех лет

20 лучших безмолочных и веганских сливок для кофе

Рекомендуем

Мы протестировали 5 немолочных сливочных сыров, так что вам не придется

Где найти лучшую веганскую мексиканскую еду в Нью-Йорке

5 вещей, которым я научился в основном на растительной основе в течение трех лет

20 лучших безмолочных и веганских сливок для кофе

:

Почему классификация?

Как работает классификация

День за днем ​​Примеры классификации

Выбор редакции

Выбор редакции

Интересные статьи

Рекомендуем

День за днем Примеры классификации