Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Міри подібності (близькості) кількісних та якісних ознак




Введення формального визначення подібності (близькості) між об’єктами – елементами деякої множини , означає, що на ній задана деяка топологія, завдяки чому простір описів перетворюється в топологічний простір. Існує багато різних способів задання топології в просторі ознак.

Досить широкий клас алгоритмів є оснований на тому, що топологія задається деякою мірою подібності. При цьому будь-яка міра подібності є функцією, яка ставить у відповідність кожній парі точок деяке число , яке характеризує ступінь подібності (близькості) між об’єктами та .

Міри подібності, які використовуються на практиці відрізняються великим різноманіттям властивостей, проте можна сформулювати загальні вимоги, яким повинна задовольняти використовувана міра подібності, тобто:

.

Переважно використовують три типи мір подібності:

1) коефіцієнти подібності (або квантифіковані коефіцієнти зв’язку);

2) коефіцієнти зв’язку (кореляції);

3) показники відстані в метричному просторі.

Коефіцієнти подібності.Будь-який вектор , елементи якого дійсні цілі числа – номера градацій відповідних ознак, завжди можна записати в двійковому коді. Тоді, можемо вважати, що будь-який об’єкт описується вектором , кожна з компонент якого приймає значення 0 або 1, тобто ознака є булавою. Для побудови вимірювачів подібності між об’єктами та введемо наступні позначення частот: – число співпадаючих одиничних ознак у обох об’єктів (пар 1, 1); – число співпадаючих нульових ознак в обох об’єктів (пар 0, 0); – число співпадаючих одиничних ознак в -го і нульових в -го об’єктів (пар 1, 0); – число співпадаючих нульових ознак в -го і одиничних в -го об’єктів (пар 0, 1); , – число одиничних ознак в -го і в -го об’єктів відповідно; , – число нульових ознак в -го і в -го об’єктів відповідно; – загальне число співпадаючих ознак, тобто ; – загальне число неспівпадаючих ознак, тобто ; – загальне число ознак, за якими здійснюється порівняння.

Ці показники називаються коефіцієнтами подібності і позначаються переважно . В даному випадку .

Коефіцієнти подібності можуть бути побудовані не лише тільки для булевих вектор-описів об’єктів. У випадку кількісних ознак, які приймають скінчену множину числових значень поступають наступним чином.

Нехай є значенням -ої ознаки -го об’єкта. Очевидним чином визначаються величини , . Величина визначається як максимальне значення -ої ознаки. Далі для пари об’єктів, які характеризуються цими ознаками, вводяться величини, аналогічні розглянутим вище, а саме:

 

 

і т.д. ці нові величини використовуються у виразах для коефіцієнтів подібності замість аналогічних величин, які розраховуються для бінарних ознак. Очевидно, що різні коефіцієнти подібності, будучи розрахованими для одних і тих же об’єктів та , будуть різними за величиною. Вибір того чи іншого коефіцієнта визначається характером розв’язуваної задачі (відносною важливістю нульових і одиничних ознак, важливістю порозрядного співпадіння або неспівпадіння) і досить суб’єктивним. Наприклад, в задачах класифікації, які розв’язуються з метою побудови системи автоматичної діагностики в медицині або техніці, можлива ситуація, коли наявність відхилення від норми того чи іншого параметра (ознаки) позначається символом “ 1 “, а відсутність цього ефекту – “ 0 “. Зрозуміло, що в одну групу необхідно об’єднати об’єкти з відхиленнями, а в другу – нормальні об’єкти. Для підсилення контрастності об’єктів при порівнянні в даному випадку краще скористатися коефіцієнтом Дейка, ніж звичайним відношенням числа співпадаючих ознак до їх загального числа, – коефіцієнтом, який використовується при припущенні про рівнозначність нульових і одиничних ознак.

До найбільш вживаних вимірювачів подібності відносять наступні, які для зручності і наочності зведені в таблицю.

 

Назва Формула Примітка
Загальноприйнятої назви немає Застосовується в тих випадках, припускається “рівноважливість” нульових та одиничних ознак
Коефіцієнт Рао  
Коефіцієнт Хаммана При
Коефіцієнт Роджерса і Танімото  
Коефіцієнт Джекарда  
Коефіцієнт Дейка Надає вдвічі більшу вагу співпадаючим одиничним ознакам
Загальної назви немає Надає більшу вагу неспівпадаючим ознакам
Коефіцієнт композиційної подібності Модифікація коефіцієнта Роджерса-Танімото. Відрізняється включенням співпадіння нульових ознак.

 

Якісні ознаки.найбільш поширеною і простою у випадку якісних ознак є метрика Хеммінга, зміст якої полягає в наступному

відстань Хеммінга розглядають як квадрат евклідової відстані в просторі бінарних змінних, які відповідають категоріям (класам) початкових даних, тобто

, (5)

де – номер початкової змінної; – номер категорії (класу); – число категорій -ої змінної. Величини можуть приймати лише значення “1” або “0”.

В найскладнішому для обробки емпіричних даних випадку, коли описи обєктів представлені в одинаково впорядкованій символьній послідовності (символами імен, понять, означень) т.з. “кендалівський ряд кореляції”.

, (8)

де коефіцієнти непарного порівняння між собою всіх компонент опису обєктів задаються відношенням порядку у вигляді:

(9)

для компонент опису першого обєкта; для 2-го аналогічно. Символи означають природній або попередньо обумовлений порядок слідування порівнюваних між собою компонент опису об’єкта, тобто запис означає, що є попереду від . Якщо в описі в якості символів використовуються цифри, то знак замінюють на .

Наприклад, нехай опис деякого об’єкта заданий послідовністю ознак: , тоді, у відповідності з (9)

 

В останньому випадку поняття “велике” і “гарне” визначають різні властивості і тому не можуть бути співставленими одна з одною, тобто в цьому сенсі мінімальне значення рівне 0, оскільки це значення відстань Кендала має для об’єктів, описи яких впорядковані одинаково (велике для розмірів, а гарне – для красоти).

Наприклад, у випадку числового опису обєкта і є одинаковими і відстань Кендала між ними рівна 0, оскільки , і з (8) маємо .

Вибіркові коефіцієнти зв’язку.В якості таких для побудови класифікації можна використати інформацію про подібність (близькість) об’єктів та , яка задається коефіцієнтами зв’язку між об’єктами та . Крім коефіцієнта кореляції може бути використаний коефіцієнт

,

де – коефіцієнт зв’язку між і ознаками, – значення ознаки в -го об’єкта. В принципі цей коефіцієнт може бути використаний і тоді, коли значення ознак і є довільними числами.

 







Дата добавления: 2014-11-10; просмотров: 606. Нарушение авторских прав

codlug.info - Студопедия - 2014-2017 год . (0.008 сек.) русская версия | украинская версия