1 / 17

Н аивный байесовский классификатор

Н аивный байесовский классификатор. к.х.н . Варламова Екатерина Владимировна. Задача про рак груди. Только 15%(!) врачей отвечают правильно. 1% женщин в возрасте 40 лет, участвовавших в регулярных обследованиях, имеют рак груди. 

Télécharger la présentation

Н аивный байесовский классификатор

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Наивный байесовский классификатор к.х.н. Варламова Екатерина Владимировна

  2. Задача про рак груди Только 15%(!) врачей отвечают правильно • 1% женщин в возрасте 40 лет, участвовавших в регулярных обследованиях, имеют рак груди.  • 80% женщин с раком груди имеют положительный результат маммографии.  • 9.6% здоровых женщин также получают положительный результат (маммография, как любые измерения, не дает 100% результатов).  • Женщина-пациент из этой возрастной группы получила положительный результат на регулярном обследовании.  • Какова вероятность того, что она фактически больна раком груди?

  3. Решение задачи про рак груди Возьмем 10 000 женщин. До маммографии женщин можно разделить на 2 группы: Группа 1:  100 женщин больных раком груди. Группа 2:  9,900 женщин не больных раком груди. После маммографии женщин можно разделить на 4 группы: Группа A:  80 женщин больных раком груди, и с положительной маммограммой. Группа B:  20 женщин больных раком груди, и с отрицательной маммограммой. Группа C:  950 женщин не больных  раком груди, и с положительной маммограммой. Группа D:  8,950 женщин не больных раком груди, и с отрицательноймаммограммой. Группа A:  80 женщин больных раком груди, и с положительной маммограммой. Группа C:  950 женщин не больных  раком груди, и с положительной маммограммой. Вероятность того, что женщина с положительной маммограммой фактически больна раком груди: Доля (A) в (A + C) 80 / (80 + 950) = 80 / 1030 = 7.8%. 

  4. Термины теоремы Байеса • Исходная доля пациенток с раком груди называется в статистике априорной вероятностью. • Шанс, что пациентка с раком груди получить положительную маммограмму, и шанс, что пациентка без рака получит положительную маммограмму, называются условными вероятностями. •   Результат - ожидаемая вероятность, что пациентка больна раком груди, если ее маммограмма положительна, - называется апостериорной вероятностью. Априорная информация

  5. Обозначения теоремы Байеса

  6. Теорема Байеса • , где  — априорная вероятность гипотезы A;  — вероятность гипотезы A при наступлении события B (апостериорная вероятность);  — вероятность наступления события B при истинности гипотезы A;  — полная вероятность наступления события B.

  7. Доказательство теоремы Байеса Вероятность совместного события  AB двояко выражается через условные вероятности: Следовательно

  8. Задача для тренировки ума • Предположим, что в бочке находится множество маленьких пластиковых капсул.  • Некоторые капсулы окрашены в красный цвет, некоторые - в синий.  • У 40% от всех капсул внутри жемчужина, 60% пусты. • В синий цвет окрашены 30% капсул, содержащих жемчужины, и 10% пустых капсул. • Какова вероятность, что синяя капсула содержит жемчужину? 

  9. И еще одна задачка • У Вас есть большой контейнер, содержащий кучу пластиковых капсул.  • Некоторые из них содержат жемчужины, остальные пусты.  Некоторые капсулы окрашены в синий цвет, остальные в красный.  • Предположим, что 40% капсул синие, • 5/13 от капсул, содержащих жемчужины, синие, • и 20% капсул одновременно пустые и красные.   • Какова вероятность, что синяя капсула содержит жемчужину?

  10. Наивный байесовский классификатор Признаки не зависят друг от друга Множество объектов D = {d1, d2, ..., dm}, Признаки объектовF = {f1, f2, ..., fq}, Множество меток C = {c1, c2, ..., cr}.

  11. Размытие по Лапласу где z >= 0 — коэффициент размытия, q — это количество параметров.

  12. Наивный байесовский классификатор для непрерывных параметров , -величина потери при отнесении объекта к неправильному классу, - плотность вероятности признака объекта. где m – количество элементов выборки D ∋ di,  ρ – мера на D, h – окрестность di (”ширина окна”),  K – функция ядра, V (h) – нормирующий множитель.

  13. Наивный байесовский классификатор для непрерывных параметров В качестве функции ядра используется ядро Епанечникова: , Для определения меры используется Евклидова метрика:

  14. Преимущества и недостатки Преимущества • Простота реализации и низкие вычислительные затраты при обучении и классификации; • В тех редких случаях, когда признаки (почти) независимы, наивный байесовский классификатор (почти) оптимален; • Относительная простота интерпретации. Недостатки • Низкое качество классификации. Он используется как эталон при экспериментальном сравнении алгоритмов; • Неспособность учитывать зависимость результата от сочетания признаков. Ограничения • Пригоден для выборок с независимыми параметрами.

  15. Применение метода • Оценка надежности банка, • Классификация структурированной информации, • Фильтрация спама, • Классификация налогоплательщиков и заемщиков по группам риска, • Оценка реализации продукции, • Обнаружение корпоративного мошенничества.

  16. Построение модели в R Построение модели в R хорошо описано в следующем источнике: http://habrahabr.ru/post/184574/

  17. Спасибо за внимание

More Related