İkili sınıflandırıcının değerlendirilmesi

Bir halinde sınıflandırılması , nesneler edilir sınıflandırılan farklı sınıflara vasıtasıyla bir sınıflandırıcı belirli özellikleri temelinde . Sınıflandırıcı genellikle hata yapar , bu nedenle bazı durumlarda yanlış sınıfa bir nesne atar. Kantitatif önlemler bir sınıflandırıcı değerlendirmek türetilebilir gelen nispi frekansı bu hataların .

Genellikle sınıflandırma ikili bir yapıya sahiptir; yani sadece iki olası sınıf vardır. Burada tartışılan kalite önlemleri, yalnızca bu durumla ilgilidir. Bu tür ikili sınıflandırmalar genellikle evet / hayır sorusu şeklinde formüle edilir: bir hasta belirli bir hastalıktan muzdarip midir? Yangın çıktı mı çıkmadı mı? Bir düşman uçağı yaklaşıyor mu, yaklaşmıyor mu? Bu tür sınıflandırmalarda iki olası hata türü vardır: ikinci sınıfa ait olmasına rağmen bir nesne birinci sınıfa atanır veya tam tersi. Burada açıklanan anahtar rakamlar , ilgili sınıflandırıcının (teşhis yöntemi, yangın alarmı , havacılık radarı) güvenilirliğini değerlendirme olasılığını sunar .

Evet-hayır sınıflandırmaları, boş bir hipotez ile alternatif bir hipotez arasında karar veren istatistiksel testlere benzer .

Doğruluk Matrisi: Doğru ve Yanlış Sınıflandırmalar

Hasta ve sağlıklı insanları birbirinden ayırmak için bir test tasarlanmıştır. Her kişi siyah çizginin solunda (hasta) veya sağında (sağlıklı) bir nokta ile temsil edilir. Burada noktalarla temsil edilen tüm kişiler test edildi.
Ovaldeki noktalar, teste göre hasta olarak sınıflandırılan kişilerdir. Doğru değerlendirilen durumlar yeşil veya sarı, yanlış değerlendirilen durumlar kırmızı veya gri renkle vurgulanır.

Bir sınıflandırıcıyı değerlendirmek için, ilgili nesnelerin “doğru” sınıfı hakkında en azından geriye dönük olarak bilgi sahibi olunan birkaç durumda kullanılması gerekir. Böyle bir duruma bir örnek, bir kişinin belirli bir hastalığı olup olmadığını belirlemek için kullanılan bir tıbbi laboratuvar testidir. Daha sonra, daha ayrıntılı incelemeler, kişinin gerçekten bu hastalıktan muzdarip olup olmadığını belirleyecektir. Test, insanları “hasta” ve “sağlıklı” kategorilerine ayıran bir sınıflandırıcıdır. Evet/hayır sorusu olduğu için testin pozitif (“hasta” sınıflandırması) veya negatif (“sağlıklı” sınıflandırması ) olduğu da söylenir . Laboratuvar testinin hastalığı teşhis etmek için ne kadar uygun olduğunu değerlendirmek için her hastanın gerçek sağlık durumu testin sonucu ile karşılaştırılır. Dört olası durum vardır:

  1. Doğru pozitif : hasta hasta ve test bunu doğru bir şekilde gösterdi.
  2. Yanlış negatif : Hasta hastadır, ancak test onları yanlış bir şekilde sağlıklı olarak sınıflandırmıştır.
  3. Yanlış pozitif : Hasta sağlıklı, ancak test onları yanlış bir şekilde hasta olarak sınıflandırdı.
  4. Doğru negatif : hasta sağlıklı ve test bunu doğru bir şekilde gösterdi.

İlk ve son vakada teşhis doğru, diğer iki vakada ise hata vardı. Dört vaka da farklı bağlamlarda farklı şekilde adlandırılır. İngilizce gerçek pozitif , yanlış pozitif , yanlış negatif ve gerçek negatif terimleri de kullanılmaktadır . Sinyal algılama teorisi bağlamında , doğru pozitif durumlar aynı zamanda isabet , yanlış negatif durumlar ıska ve doğru negatif durumlar doğru red olarak adlandırılır .

Dört olası test sonucu (belirlenmiş sınıf) ve sağlık durumu (gerçek sınıf) kombinasyonunun her birinin kaç kez gerçekleştiği sayılır. Bu frekanslar , doğruluk matrisi olarak adlandırılan ( karışıklık matrisi olarak da adlandırılır ) girilir :

Doğruluk matrisi (karışıklık matrisi)
Kişi hasta
( )
Kişi sağlıklı
( )
Test pozitif ( ) gerçekten olumlu ( ) yanlış pozitif ( ) ∑: Pozitif testlerin %100'ü
Negatif test ( ) yanlış negatif ( ) gerçek negatif ( ) ∑: Negatif testlerin %100'ü
∑: Hasta insanların %100'ü ∑: Sağlıklı insanların %100'ü

Notlar: "yanlış" anlamına gelir (daha doğrusu: yanlış sınıflandırmaların sayısı); “doğru” anlamına gelir (daha doğrusu: doğru sınıflandırmaların sayısı); indeks "pozitif" anlamına gelir; indeks "negatif" anlamına gelir. Yani: "gerçekten pozitif" anlamına gelir (daha doğrusu: pozitif olarak doğru bir şekilde sınıflandırılan insan sayısı için) vb.

Bu matris, iki ikili nominal değişkene sahip bir beklenmedik durum tablosunun basit bir özel durumudur - sınıflandırıcının yargısı ve gerçek sınıf. Ayrıca, ikiden fazla sınıfı olan sınıflandırmalar için de kullanılabilir, bu durumda 2 × 2 matris , sınıflar için bir matris olur .

Sınıflandırmanın istatistiksel kalite kriterleri

Çeşitli göreceli frekansları hesaplayarak , sınıflandırıcıyı değerlendirmek için parametreler artık doğruluk matrisinin değerlerinden hesaplanabilir . Bu aynı zamanda şu şekilde yorumlanabilir tahminlerine şartlı olasılık karşılık gelen bir olayın meydana gelmesi. Ölçüler , göreli frekansların ilgili olduğu popülasyona göre farklılık gösterir : Örneğin, yalnızca pozitif veya negatif kategorinin gerçekten var olduğu tüm durumlar dikkate alınabilir veya pozitif veya negatif olarak sınıflandırılan tüm nesneler kümesi dikkate alınabilir ( doğruluk matrisinin bir satırındaki girişlerin toplamı ). Bu seçim, özellikle iki sınıftan biri diğerinden çok daha sık meydana geliyorsa, hesaplanan değerler üzerinde ciddi etkilere sahiptir.

Duyarlılık ve Yanlış Negatif Oran

duyarlılık

duyarlılık

Duyarlılığı (aynı zamanda , doğru pozitif oranı , duyarlılık veya isabet oranı ; İngilizce duyarlılığı , gerçek pozitif oran , geri çağırma veya isabet oranı ) bir pozitif nesne doğru pozitifliği olarak sınıflandırılan ile olasılığını gösterir. Örneğin, bir tıbbi teşhisin duyarlılığı, gerçekten hasta olan ve aynı zamanda hastalığa yakalananların oranına karşılık gelmektedir. Bir testin duyarlılığı, enfekte bir kişinin gerçekten tanınma olasılığını gösterir. Örneğin, bir virüs için bir testin duyarlılığının %98 olması (yeterince fazla sayıda test yapıldığında ve test ön koşullarından bağımsız olarak) enfekte olanların %98'inin tanınacağı ve enfekte olanların %2'sinin tanınmayacağı anlamına gelir. tanındı. %2'si (test edilen ve test edilenlerin tümü olmayan enfekte kişilerin) bu durumda yanlış negatif olacaktır.

Duyarlılık, tahmini koşullu olasılığa karşılık gelir

.

İstatistiksel hipotez testi bağlamında, testin duyarlılığı gücü olarak adlandırılır testi vadeli güç mevcut bağlamda uygun değildir, bu bağlamda daha genel kullanımı olmasına rağmen,.

Yanlış negatif oran

Yanlış negatif oran

Buna uygun olarak, yanlış negatif oran (İngilizce: yanlış negatif oran veya eksik oran ), pozitif nesnelerin toplamına göre yanlış bir şekilde negatif olarak sınıflandırılan nesnelerin oranını gösterir . Örnekte, aslında hasta olan ancak sağlıklı olarak teşhis edilenler.

Yanlış negatif oran, tahmini koşullu olasılığa karşılık gelir

.

bağlantı

Her iki ölçüm de pozitif kategorinin fiilen mevcut olduğu durumla ilgili olduğundan ( doğruluk matrisinin ilk sütunu ), duyarlılık ve yanlış negatif oranı sırasıyla 1 ve %100'e ulaşır.

Özgüllük ve yanlış pozitif oranı

özgüllük

özgüllük

Özgüllük (aynı zamanda doğru negatif oranı ya da karakteristik özelliği , İngilizce: özgüllük , gerçek negatif oranı ya da doğru reddetme oranı ) negatif nesne doğru negatif olarak sınıflandırılan ile olasılığını gösterir. Örneğin, tıbbi bir teşhis durumunda, özgüllük, aynı zamanda hiçbir hastalığı olmadığı tespit edilen sağlıklı kişilerin oranına karşılık gelir. Bir testin özgüllüğü, enfekte olmayan bir kişinin gerçekten tanınma olasılığını gösterir. Örneğin, bir virüs testinin %98'lik bir özgüllüğü, (yeterince fazla sayıda test yapıldığında ve test ön koşullarından bağımsız olarak) enfekte olmayanların %98'inin ve olmayanların %2'sinin gerçekten tanınacağı anlamına gelir. -enfekte olanlar hatalı olarak enfekte olarak tanımlanır. %2'si (test edilen enfekte olmayan kişilerin toplam sayısı değil, test edilenlerin toplam sayısı) bu durumda yanlış pozitif olacaktır.

Özgüllük, tahmini koşullu olasılığa karşılık gelir

.

Yanlış pozitif oran

Yanlış pozitif oran

Buna göre, yanlış pozitif oranı (ayrıca başarısızlık oranı ; İngilizce serpinti veya yanlış pozitif oranı ), gerçekte negatif olan yanlış pozitif olarak sınıflandırılan nesnelerin oranını gösterir . Örnekte, gerçekten sağlıklı bir kişiye yanlışlıkla hasta teşhisi konur. Yanlış alarm olasılığı verilir.

Yanlış pozitif oran, tahmini koşullu olasılığa karşılık gelir

.

bağlantı

Her iki ölçüm de negatif kategorinin fiilen mevcut olduğu durumla ilgili olduğundan ( doğruluk matrisinin ikinci sütunu ), özgüllük ve yanlış pozitif oranı sırasıyla 1 ve %100'e ulaşır.

Pozitif ve negatif tahmin değeri

Bir tıbbi testin duyarlılığı ve özgüllüğü epidemiyolojik ve sağlık politikasıyla ilgili parametreler olsa da (örneğin, hastalıkların erken tespiti için taramada kullanmanın mantıklı olup olmadığı sorusuna gelince ), tahmin değeri belirleyicidir. belirli bir durumda hasta ve doktor için. Testi pozitif/negatif olan bir kişinin gerçekten hasta/sağlıklı olma olasılığı ne kadar sorulduğunda sadece o yanıtlar.

Pozitif öngörme değeri

Pozitif öngörme değeri

Pozitif öngörü değeri (aynı zamanda uygunluğu , etkinliği , doğruluk , pozitif öngörü değeri ; İngilizce: hassas ya da pozitif öngörü değeri , kısaltma: PPV) sonuçların oranı doğru pozitif olarak sınıflandırılan sonuçların toplamına (göre pozitif olarak sınıflandırılır gösterir doğruluk matrisinin ilk satırı ). Örneğin, bir tıbbi testin pozitif tahmin değeri, pozitif test sonucu olan kişilerin yüzde kaçının gerçekten hasta olduğunu gösterir.

Pozitif tahmin değeri, tahmin edilen koşullu olasılığa karşılık gelir

.

Pozitif öngörücü değerin tamamlayıcısı, yanlış saptama oranını takiben formüle edilecek koşullu olasılıktır (İngilizce: discovery rate false ; kısaltma: FDR):

.

Negatif tahmin değeri

Negatif tahmin değeri

Buna göre, negatif tahmin değeri (ayrıca ayrım veya ayrılabilirlik olarak da bilinir ; İngilizce: negatif tahmin değeri ; kısaltma: NPV), negatif olarak sınıflandırılan sonuçların toplamına göre doğru olarak negatif olarak sınıflandırılan sonuçların oranını gösterir ( gerçeğin ikinci satırı) matris ). Örnekte bu, negatif test sonucu olan ve aslında sağlıklı olan kişilerin oranına karşılık gelmektedir.

Negatif tahmin değeri, tahmini koşullu olasılıktır.

Negatif tahmin değerinin tamamlayıcısı, yanlış ihmal oranını takiben formüle edilecek koşullu olasılıktır (İngilizce: ihmal oranı yanlış ; kısaltma: FOR):

.

Bağlantılar

Diğer kalite ölçüm çiftlerinden farklı olarak, her durumda farklı durumlar varsayıldığından (aslında pozitif veya aslında negatif, yani doğruluk matrisinin farklı sütunları) negatif ve pozitif tahmin değerlerinin toplamı 1 veya %100'e kadar çıkmaz. Prediktif değerler , duyarlılık ve özgüllükten hesaplanabilir, ancak bunun için ön test olasılığının (hastalık durumunda incelenen popülasyondaki prevalansa karşılık gelen ) bilinmesi veya tahmin edilmesi gerekir. Pozitif tahmin değeri, yüksek bir ön test olasılığından, negatif tahmin değeri, düşük bir test öncesi olasılığından yararlanır. Bu nedenle, pozitif bir tıbbi test sonucu, testin yalnızca tarama için kullanılmasından ziyade şüphe üzerine gerçekleştirildiyse çok daha anlamlıdır .

Göreceli frekansları ve tahmin değerlerinin hesaplanmasını içeren dört alanlı tablo
hasta sağlıklı Toplam Tahmini değer
pozitif
olumsuz
Toplam

Bir kolektifin belirlediği pozitif ve negatif tahmin değerleri, sadece pozitif vakaların nispi sıklığı orada aynıysa, diğer kolektiflere aktarılabilir. Örnek: Pozitif prediktif değeri belirlemek için 100  HIV hastası ve 100 sağlıklı kontrol hastası incelendiyse, bu gruptaki HIV hastalarının oranı (%50) Almanya'daki HIV prevalansından (%0.08 ) çok uzaktır (ayrıca sayısal örneğe bakınız) aşağıda verilmiştir ). Aynı test rastgele seçilmiş bir kişi üzerinde yapılsaydı, tahmin değerleri tamamen farklı olurdu.

olasılık oranı

Olabilen bir hastalık bulunma olasılığı daha kolay fırsat (Tek) bir hastalığın varlığını hesaplayın. Pozitif bir test sonucu , olabilirlik oranı (LQ) veya Bayes faktörü olarak adlandırılan ve aşağıdaki gibi hesaplanan bir faktör ( ods oranı ) ile hasta olma şansını artırır :

Pozitif bir test sonucu ile gerçekten hasta olma şansı bu nedenle

.

Küçük fırsatlar kabaca olasılıklarla eşitlenebildiğinden, pozitif tahmin değeri genellikle test öncesi olasılık ve Bayes faktörünün çarpımı kullanılarak tahmin edilebilir.

Negatif bir test sonucu, şansı Bayes faktörüne benzer şekilde değiştirir

.

Yukarıda bahsedilen iki parametreden türetilen ve dolayısıyla yaygınlıktan bağımsız olan bir testin performansının başka bir ölçüsü, sözdedir. Aşağıdaki gibi hesaplanan tanısal olasılık oranı (DOR) (ingilizce Tanısal olasılık oranı ):

.


Doğru ve yanlış sınıflandırma oranı

Doğru sınıflama oranı (aynı zamanda güven olasılık veya isabet doğruluğu ; İngilizce: doğruluk ) düzgün sınıflandırılır tüm nesnelerin oranını gösterir. Kalan kısım, yanlış sınıflandırma oranına (ayrıca sınıflandırma hatasının boyutuna ) karşılık gelir. Tanı örneğinde, doğru sınıflandırma oranı, toplam tanı sayısı içindeki doğru pozitif ve doğru negatif tanıların oranı olurken, yanlış sınıflandırma oranı, yanlış pozitif ve yanlış negatif tanıların oranı olacaktır.

Doğru sınıflandırma oranı

Doğru sınıflandırma oranı

Doğru sınıflandırma oranı, tahmin edilen olasılığa karşılık gelir

.

Yanlış sınıflandırma oranı

Yanlış sınıflandırma oranı

Yanlış sınıflandırma oranı, tahmin edilen olasılığa karşılık gelir

.

bağlantı

Doğru ve yanlış sınıflandırma oranlarının toplamı 1 veya %100'dür.

Birleşik boyutlar

Çeşitli kalite ölçütleri birbirini etkilediğinden (bkz. bölüm Problemler ), kalitenin tek bir anahtar rakamla değerlendirilmesine izin veren çeşitli birleşik ölçüler önerilmiştir. Aşağıda sunulan boyutlar bilgi erişimi bağlamında geliştirilmiştir (bkz . bilgi erişim uygulamasında uygulama ).

F boyutu

F-tedbir birleştirir doğruluk (hassasiyet, ) ve isabet oranı (hatırlama, ağırlıklı kullanarak) harmonik ortalama :

Doğruluk ve isabet oranının eşit ağırlıkta olduğu ölçü olarak da adlandırılan bu ölçüye ek olarak başka ağırlıklar da vardır. Genel durum, ölçüdür (pozitif değerler için ):

Örneğin, isabet oranı isabet oranının dört katı, isabet oranı ise isabet oranının dört katıdır .

etkinlik ölçüsü

Etkinliğin ölçüsü ayrıca ağırlıklı harmonik ortalamaya karşılık gelir. 1979 yılında Cornelis Joost van Rijsbergen tarafından tanıtıldı . Etkinlik, 0 (en iyi etkinlik) ile 1 (kötü etkinlik) arasında yer almaktadır. Bir parametre değeri için olan bir parametre değeri için, isabet oranına denk hassas eşdeğer.

Fonksiyon grafikleri

İki fonksiyon grafiği gösterilmiştir: f1 (x) = x / (x + 1) grafiği kırmızı, f2 (x) = 1 / (x + 1) grafiği kesikli mavi ile gösterilmiştir;  resmin sağ ortasındaki bir efsane bunu yansıtıyor.  Apsis, x ile etiketlenmiştir ve 0'dan 12.5'e kadar olan aralığı eksen etiketleriyle 1'er adımlarla kapsar.  Ordinat, P (= koşullu olasılık) ile etiketlenir ve 0,1'lik artışlarla eksen etiketleriyle 0 ile 1 arasında değişir.  f1(x)'in fonksiyon grafiği sıfır noktasında ortaya çıkar ve yeşil kesikli düz bir çizgi ve karşılık gelen bir etiket ile temsil edilen artan x ile asimptotik olarak P = 1'e yaklaşır.  f2 (x)'in fonksiyon grafiği x = 0 için P = 1'de başlar ve asimptotik olarak artan x ile P = 0'a yaklaşır, bu da yeşil bir kesikli çizgi ve karşılık gelen bir etiketle temsil edilir.  İki fonksiyon f1 (x) ve f2 (x), yeşil noktalı çizgilerle gösterilen P = 0,5 düz çizgisine göre birbirine ayna simetriktir.  Arka planda, 1. çeyreğin Kartezyen koordinat sistemini gösteren dikdörtgen soluk gri bir çizgi ızgarası vardır.
Fonksiyon grafikleri ve

Duyarlılık , yanlış negatif oran , özgüllük , yanlış pozitif oran , pozitif tahmin değeri ve negatif tahmin değeri gibi altı temel rakam için standartlaştırılmış, iki boyutlu fonksiyon grafikleri görüntülenebilir :

Örneğin, to ve bet arasındaki ilişkiye bakarsanız

,

yani biri hassasiyet için alır

ve yanlış negatif oranı için

,

burada grafikleri gösterilen iki fonksiyon ve , şu şekilde tanımlanır:

Bu yaklaşım, yalnızca duyarlılığın, değerinin iki belirli bireysel değere ve 'ye değil, yalnızca oranlarına (veya karşılıklı değerine ) bağlı olma özelliğine sahip olması nedeniyle mümkündür . Bu nedenle, - iki basamaklı bir fonksiyon olarak formüle edilen - iki değişkene bağlıdır ve , (veya )' nin bir fonksiyonu olarak tek basamaklı bir fonksiyon olarak da gösterilebilir , bu sayede iki boyutlu fonksiyon grafikleri çizilebilir. Aynısı yanlış negatif oranı için de geçerlidir.

Aşağıdaki özet tabloda gösterildiği gibi, diğer dört parametre için de aynı prosedür kullanılabilir ( farklı oranlar için kullanıldığına dikkat edilmelidir ):

Özet
kimlik Numarası ilişki formül
duyarlılık
Yanlış negatif oran
özgüllük
Yanlış pozitif oran
Pozitif öngörme değeri
Negatif tahmin değeri

sorunlar

karşılıklı etkiler

Tüm kalite kriterlerini birbirinden bağımsız olarak optimize etmek mümkün değildir. Özellikle, duyarlılık ve özgüllük birbiriyle negatif olarak ilişkilidir . Bu ilişkileri göstermek için uç durumları göz önünde bulundurmak faydalı olacaktır:

  • Bir tanı neredeyse tüm hastaları hasta olarak sınıflandırırsa ( liberal tanı), hastaların çoğu da bu şekilde tanındığından duyarlılık maksimumdur. Bununla birlikte, aynı zamanda, neredeyse tüm sağlıklı insanlar hasta olarak sınıflandırıldığından, yanlış pozitif oranı da maksimumdur. Bu nedenle tanı çok düşük bir özgüllüğe sahiptir.
  • Tersine, neredeyse hiç kimse hasta olarak sınıflandırılmazsa ( konservatif tanı), özgüllük maksimumdur, ancak düşük duyarlılık pahasına.

Bir sınıflandırıcının ideal olarak ne kadar muhafazakar veya liberal olması gerektiği, belirli uygulamaya bağlıdır. Bundan, örneğin, yanlış sınıflandırmalardan hangisinin en ciddi sonuçlara sahip olduğu çıkarılabilir. Ciddi bir hastalığı veya yangın alarmı gibi güvenlikle ilgili uygulamaları teşhis ederken, hiçbir vakanın tespit edilmeden kalmaması önemlidir. Öte yandan, bir arama motoru kullanarak araştırma yaparken, aramayla ilgisi olmayan, yani yanlış pozitif sonuçları temsil eden mümkün olduğunca az sonuç elde etmek daha önemli olabilir. Çeşitli yanlış sınıflandırmaların riskleri , doğruluk matrisinin ağırlıklandırıldığı bir maliyet matrisinde bir sınıflandırıcının değerlendirilmesi için belirtilebilir. Başka bir olasılık, karşılık gelen bir ağırlığın ayarlanabileceği birleştirilmiş boyutları kullanmaktır .

Belirli bir uygulama örneği için farklı konservatif testlerin etkilerini göstermek için, farklı testler için duyarlılığın yanlış pozitif oranına karşı çizildiği ROC eğrileri oluşturulabilir. Sinyal keşif teorisi bağlamında, farklı muhafazakar yollarla bir kriter kümesinden söz edilir .

Nadir pozitif vakalar

Ayrıca, gerçekten pozitif ve negatif vakalar arasındaki aşırı dengesizlik, nadir hastalıklarda olduğu gibi parametreleri tahrif edecektir. Örneğin, bir teste katılan hasta kişilerin sayısı sağlıklı kişilerinkinden önemli ölçüde düşükse, bu genellikle pozitif tahmin değerinde düşük bir değere yol açar (aşağıdaki sayısal örneğe bakın ). Bu nedenle, bu durumda, tahmin edilen değerlere alternatif olarak olabilirlik katsayısı belirtilmelidir.

Bu korelasyon çeşitli laboratuvar testlerinde dikkate alınmalıdır: Ucuz tarama testleri, yanlış negatif sonuçların sayısı mümkün olduğunca az olacak şekilde ayarlanır. Üretilen yanlış pozitif test sonuçları daha sonra (daha pahalı) bir doğrulama testi ile tanımlanır. Ciddi tıbbi durumlar için her zaman doğrulayıcı bir test yapılmalıdır. Bu prosedür HIV tespiti için bile gereklidir.

Eksik doğruluk matrisi

Bir sınıflandırıcıyı değerlendirirken karşılaşılan bir diğer sorun da, doğruluk matrisinin tamamını doldurmanın çoğu zaman mümkün olmamasıdır. Özellikle, örneğin negatif bir tanı almış hastalar üzerinde başka testler yapılmazsa ve bir hastalık tespit edilmeden kalırsa veya arama sırasında ilgili bir belge bulunamazsa, yanlış negatiflik oranı genellikle bilinmez. ilgili olarak sınıflandırılmıştır. Bu durumda sadece pozitif olarak sınıflandırılan sonuçlar değerlendirilebilir; Bu, yalnızca pozitif tahmin değerinin hesaplanabileceği anlamına gelir (ayrıca aşağıdaki sayısal örneğe bakın ). Bu sorunun olası çözümleri Bilgi Almada Uygulama bölümünde tartışılmaktadır.

Sınıflandırma değerlendirmesi ve istatistiksel test teorisi

İkili sınıflandırma istatistiksel test
hedef Bir örnek temelinde , gözlemler (nesneler) iki sınıftan birine atanır. Rastgele bir örnek kullanarak , popülasyon için birbirini dışlayan iki hipotez (boş ve alternatif hipotez ) test edilir.
ilerlemek Sınıflandırıcı, iki olası sonuç değeriyle örnekten tahmin edilen bir regresyon fonksiyonudur . Test değeri, test istatistikleri kullanılarak rastgele örnekten hesaplanır ve test istatistiklerinin dağılımından hesaplanan kritik değerlerle karşılaştırılır.
Sonuç Bir gözlem için bir sınıf üyeliği tahmin edilir. Test değeri ile kritik değerlerin karşılaştırılmasına dayalı olarak alternatif hipotez kabul edilebilir veya reddedilebilir.
arıza Bir sınıflandırıcının kalitesi, yanlış sınıflandırma oranı (yanlış pozitif ve yanlış negatif) kullanılarak geriye dönük olarak değerlendirilir. Test yapılmadan önce tip 1 hatanın boyutu ( alternatif hipotezin yanlış kabulü) belirlenir. Kritik değerler bundan hesaplanır. İkinci tip hata testi gerçekleştirildiğinde (alternatif hipotez yanlış reddi), her zaman bilinmemektedir.

İstatistiksel testlerin kalitesini değerlendirmek için sınıflandırma değerlendirmesi

Sınıflandırma değerlendirmesinin yardımıyla bir istatistiksel testin kalitesi değerlendirilebilir:

  • Boş hipotezin geçerliliği altında çok sayıda örnek üretilirse, alternatif hipotezin kabul oranı tip 1 hataya karşılık gelmelidir. Ancak karmaşık testlerde genellikle 1. tip hata için sadece bir üst sınır belirleyebilirsiniz, böylece “gerçek” tip 1 hata ancak böyle bir simülasyon ile tahmin edilebilir.
  • Alternatif hipotezin geçerliliği altında çok sayıda örnek üretilirse, alternatif hipotezin reddedilme oranı 2. tip hatanın bir tahminidir.Bu, örneğin bir olgu için iki test varsa, bu ilgi çekicidir. Alternatif hipotez doğruysa, küçük bir tip 2 hatası olan test tercih edilir.

Bir sınıflandırmayı değerlendirmek için istatistiksel testler

İstatistiksel testler, bir sınıflandırmanın istatistiksel olarak anlamlı olup olmadığını kontrol etmek için kullanılabilir; Başka bir deyişle , sınıflandırıcının değerlendirmesinin popülasyona ilişkin gerçek sınıflardan bağımsız olup olmadığı (boş hipotez) veya onlarla önemli ölçüde ilişkili olup olmadığı (alternatif hipotez).

Birkaç sınıf olması durumunda, bunun için ki-kare bağımsızlık testi kullanılabilir. Sınıflandırıcının değerlendirmesinin gerçek sınıflardan bağımsız olup olmadığı veya bunlarla önemli ölçüde ilişkili olup olmadığı kontrol edilir. Korelasyonun gücü, beklenmedik durum katsayıları kullanılarak tahmin edilir.

İkili sınıflandırma durumunda, ki-kare bağımsızlık testinin özel bir durumu olan dört alan testi kullanılır. Yalnızca birkaç gözleminiz varsa, Fisher'in kesin testi kullanılmalıdır. Korelasyonun gücü Phi katsayısı kullanılarak tahmin edilebilir .

Ancak testin sıfır hipotezini reddetmesi sınıflandırıcının iyi olduğu anlamına gelmez. Bu sadece (rastgele) tahmin etmekten daha iyi olduğu anlamına gelir. İyi bir sınıflandırıcı da mümkün olduğu kadar yüksek bir korelasyona sahip olmalıdır.

Diettrich (1998), iki farklı sınıflandırıcının yanlış sınıflandırma oranlarının doğrudan karşılaştırılması için beş testi inceler:

  • Bağımsız örnekler için basit bir iki örnekli t testi ,
  • ilgili örnekler için iki örnekli bir t testi,
  • 10 kat çapraz doğrulama ile ilgili numuneler için iki örnekli bir t testi ,
  • McNemar testi ve
  • 5 yönlü çapraz doğrulama ve değiştirilmiş varyans hesaplaması (5x2cv) ile ilgili örnekler için iki örnekli t testi.

Beş testten kalite ve hata tipi 1'in araştırılmasının bir sonucu olarak, 5x2cv testinin en iyi şekilde davrandığı, ancak hesaplama açısından çok yoğun olduğu ortaya çıkıyor. McNemar testi, 5x2cv testinden biraz daha kötüdür, ancak hesaplama açısından önemli ölçüde daha az yoğundur.

Bilgi alımında uygulama

Burada anlatılan önlemler özel bir uygulama hit setlerinin kalitesinin değerlendirilmesidir aramada içinde bilgi alma . Bu, örneğin arama motorları tarafından yapılan web madenciliğinde olduğu gibi bulunan bir belgenin tanımlanmış bir kritere göre alakalı olup olmadığını değerlendirmekle ilgilidir. Bu bağlamda yukarıda tanımlanan terimler "hit rate" (İngilizce. Recall ), "accuracy" (İngilizce. Precision ) ve "default rate" (İngilizce. Fallout ) kullanımdadır. İsabet oranı, bir arama sırasında bulunan ilgili dokümanların oranını ve dolayısıyla bir arama sonucunun eksiksizliğini gösterir. Doğruluk, sonuç kümesindeki ilgili belgelerin oranıyla bir arama sonucunun doğruluğunu tanımlar. (Daha az yaygın olan) bırakma, bulunan alakasız belgelerin tüm alakasız belgelerin toplam miktarı içindeki oranını belirtir, bu nedenle arama sonucunda alakasız belgelerden ne kadar iyi kaçınıldığını olumsuz bir şekilde gösterir. Bir ölçü yerine isabet oranı, doğruluk ve başarısızlık olasılık olarak da yorumlanabilir:

  • İsabet oranı, ilgili bir belgenin bulunma olasılığıdır (hassasiyet).
  • Doğruluk, bulunan bir belgenin ilgili olma olasılığıdır (pozitif tahmin değeri).
  • Başarısızlık, alakasız bir belgenin bulunma olasılığıdır (yanlış pozitif oran).

İyi bir araştırma, mümkünse, ilgili tüm belgeleri (gerçekten olumlu) bulmalı ve alakasız belgeleri (gerçekten olumsuz) bulmamalıdır. Bununla birlikte, yukarıda açıklandığı gibi, çeşitli boyutlar birbirine bağlıdır. Genel olarak, isabet oranı ne kadar yüksek olursa, doğruluk o kadar düşük olur (daha alakasız sonuçlar). Tersine, doğruluk ne kadar yüksek olursa (daha az alakasız sonuç), isabet oranı o kadar düşük olur (bulunamayan daha alakalı belgeler). Uygulamaya bağlı olarak, farklı boyutlar değerlendirme için az çok önemlidir. Örneğin bir patent araştırmasında ilgili patentlerin tespit edilmemesi önemlidir - bu nedenle negatif tahmin değeri mümkün olduğunca yüksek olmalıdır. Diğer aramalar için, isabet listesinin birkaç alakasız belge içermesi daha önemlidir, ör. yani, pozitif tahmin değeri mümkün olduğu kadar yüksek olmalıdır.

Bilgi erişimi bağlamında , F değeri ve etkinlik gibi yukarıda açıklanan birleşik önlemler de tanıtıldı.

Doğruluk İsabet Oranı Tablosu

Bir geri alma sürecini değerlendirmek için, isabet oranı ve doğruluk genellikle birlikte değerlendirilir. Bu amaçla, Hassas Geri Çağırma Diyagramında (PR diyagramı) -ekseni üzerindeki iki uç doğruluk ve -ekseni üzerindeki isabet oranı arasında farklı sayıda vuruş girilir. Bu, isabet sayısı bir parametre tarafından kontrol edilebilen yöntemlerle özellikle kolaydır. Bu diyagram, yukarıda açıklanan ve bu bağlamda isabet oranı serpinti diyagramı olarak da bilinen ROC eğrisine benzer bir amaca hizmet eder.

Kesinlik değerinin isabet değerine eşit olduğu diyagramdaki (en yüksek) değere - yani doğruluk isabet oranı diyagramının kimlik işleviyle kesişimi - doğruluk isabet oranı başabaş noktası olarak adlandırılır. Her iki değer de birbirine bağımlı olduğu için biri de diğer değer sabitlendiğinde sıklıkla bahsedilir. Ancak, noktalar arasında enterpolasyona izin verilmez; bunlar , aralarındaki boşluklar tanımlanmayan ayrı noktalardır.

örnek

36 belgeden oluşan bir veritabanında, 20 belge bir arama sorgusu ile alakalıdır ve 16 belge alakalı değildir. Bir arama, 8'i gerçekten alakalı olan 12 belge verir.

İlgili İlgili değil Toplam
Bulundu 08. 04. 12.
Bulunamadı 12. 12. 24
Toplam 20. 16 36

Doğruluk matrisinin değerlerinden belirli arama sonucu için isabet oranı ve doğruluğu.

  • İsabet oranı: 8(8 + 12) = 820 = 25 = 0,4
  • Doğruluk: 8(8 + 4) = 812 = 23 ≈ 0.67
  • Serpinti: 4(4 + 12) = 416 = 14 = 0.25

Uygulama ve sorunlar

İsabet oranının hesaplanmasıyla ilgili bir sorun, toplamda kaç tane ilgili belgenin bulunduğunun nadiren bilinmesi ve bulunamamasıdır (eksik doğruluk matrisi sorunu). Mutlak isabet oranını hesaplamanın özellikle zor olduğu daha büyük veritabanları için göreli isabet oranı kullanılır. Aynı arama birkaç arama motoruyla yapılır ve bulunamayan ilgili belgelere yeni ilgili isabetler eklenir. Alma yöntemi toplamda var kaç ilgili belgeler tahmin etmek için kullanılabilir.

Diğer bir problem ise isabet oranı ve doğruluğunun belirlenebilmesi için bir belgenin doğruluk değeri olarak uygunluğunun (evet/hayır) bilinmesi gerektiğidir. Ancak pratikte, subjektif uygunluk genellikle önemlidir. Bir sıralamada düzenlenmiş isabet kümeleri için bile , yalnızca ilgili bir belgenin bulunup bulunmadığına değil, aynı zamanda ilgili olmayan belgelere kıyasla yeterince yüksek derecelendirilip sıralanmadığına da bağlı olduğundan, isabet oranı ve doğruluğunun belirtilmesi genellikle yeterli değildir. . Vuruş sayısı çok farklıysa, isabet oranı ve doğruluk için ortalama değerler belirtmek yanıltıcı olabilir.

Diğer uygulama örnekleri

Almanya'da HIV

HIV testinin amacı, enfekte bir kişiyi mümkün olduğunca güvenilir bir şekilde tanımlamak olmalıdır. Ancak yanlış pozitif bir testin ne gibi sonuçlar doğurabileceği, kendisi HIV testi yaptıran ve ardından yanlış pozitif sonuç nedeniyle intihar eden bir kişi örneğinde gösterilir .

Hem pozitif hem de negatif sonuçlar (duyarlılık ve özgüllük = 0.999) için kombine olmayan HIV testinin %99.9'u ve Alman nüfusundaki mevcut HIV prevalansı (2009 itibariyle) (82.000.000 nüfuslu, bunların 67.000'i HIV-pozitif) genel bir HIV testi yıkıcı olur: Kombine olmayan bir HIV testi ile, gerçekten hasta olan 67.000 kişiden yalnızca 67 HIV bulaşmış kişi yanlış tanınmayacaktır, ancak yaklaşık 82.000 kişiye yanlış bir şekilde HIV-pozitif teşhisi konacaktır. 148.866 pozitif sonuçtan yaklaşık %55'i yanlış pozitif olacaktır, yani testi pozitif çıkanların yarısından fazlası. Böylece, olasılık sadece ediyorum birisi o test pozitif olan ELISA testinin gerçek HIV-pozitif olacağını sadece% 45 (pozitif öngörü değeri). %0,1'lik çok düşük hata oranı göz önüne alındığında, bu değer, HIV'in Alman vatandaşlarının yalnızca yaklaşık %0,08'inde görülmesi gerçeğinden kaynaklanmaktadır.

ELISA testi HIV pozitif HIV negatif Toplam
HIV testi pozitif 66.933 81.933 148.866
HIV testi negatif 67 81,851,067 81.851.134
Toplam 67.000 81.933.000 82.000.000

ABD'de kalp krizi

In ABD'de , yaklaşık dört milyon kadın ve erkek olan kliniğe başvuran bir şüphesi olan göğüs ağrısı için her yıl kalp krizi . Karmaşık ve pahalı teşhisler sırasında, bu hastaların sadece %32'sinin gerçekten kalp krizi geçirdiği ortaya çıktı. %68'inde enfarktüs tanısı yanlıştı (yanlış pozitif şüpheli tanı). Öte yandan, her yıl yaklaşık 34.000 hasta gerçek bir kalp krizi tespit edilmeden hastaneden taburcu edilmektedir (yaklaşık %0.8 yanlış negatif tanı).

Bu örnekte de araştırmanın duyarlılığı benzer şekilde yüksektir, yani %99.8. Soruşturmanın yanlış pozitif sonuçları bilinmediği için özgüllüğü belirlenemez. Yalnızca "kalp ağrısı" ifadesine dayanan yanlış pozitif ilk tanılar bilinmektedir. Sadece bu ilk tanıya bakarsanız, yanlış taburcu edilen 34.000 hastayla ilgili bilgi değersizdir, çünkü bununla hiçbir ilgisi yoktur. Yanlış negatiflerin sayısına ihtiyacınız var, yani kalp krizi geçiren ve kalp ağrıları olmadığı için kabul edilmeyen insanlar.

Ayrıca bakınız

Edebiyat

Genel olarak

Bilgi alma

  • John Makhoul, Francis Kubala, Richard Schwartz ve Ralph Weischedel: Bilgi çıkarma için performans ölçümleri . In: Proceedings of DARPA Broadcast News Workshop, Herndon, VA, Şubat 1999 .
  • R. Baeza-Yates ve B. Ribeiro-Neto: Modern Bilgi Erişimi . New York 1999, ACM Press, Addison-Wesley, ISBN 0-201-39829-X , sayfa 75 ff.
  • Christa Womser-Hacker: Bilgi Erişimi Teorisi III: Değerlendirme. R. Kuhlen'de: Pratik bilgi ve dokümantasyonun temelleri. 5. baskı. Saur, Münih 2004, sayfa 227-235. ISBN 3-598-11675-6 , ISBN 3-598-11674-8
  • CV van Rijsbergen: Bilgi Erişimi. 2. Baskı. Butterworth, Londra / Boston 1979, ISBN 0-408-70929-4 .
  • Jesse Davis ve Mark Goadrich: Hassas-Hatırlatma ve ROC Eğrileri Arasındaki İlişki . In: 23. Uluslararası Makine Öğrenimi Konferansı (ICML) , 2006. doi : 10.1145 / 1143844.1143874

İnternet linkleri

Bireysel kanıt

  1. Lothar Sachs , Jürgen Hedderich: Uygulamalı İstatistikler: Yöntemlerin R. 8 ile Toplanması , revize edilmiştir. ve ek baskı. Springer Spectrum, Berlin / Heidelberg 2018, ISBN 978-3-662-56657-2 , s. 192
  2. Thomas G. Dietterich: Denetimli Sınıflandırma Öğrenme Algoritmalarını Karşılaştırmak için Yaklaşık İstatistiksel Testler . İçinde: Sinirsel Hesaplama . kaset 10 , hayır. 7 , 1 Ekim 1998, s. 1895-1923 , doi : 10.1162/08997668300017197 .