ضریب کاپا و طبقه بندی آن

ضریب کاپا و طبقه بندی آن

یکی از روش های رقومی پر کاربرد استخراج اطلاعات از تصاویر ماهواره ای طبقه بندی می باشد. منظور از طبقه بندی اطلاعات ماهواره ای ، تفکیک مجموعه های طیفی مشابه و تقسیم بندی تصاویر به گروه ها یا طبقاتی است که در هر طبقه، طیف ها با یک ارزش واحد قرار می گیرند.(زبیری ، ۱۳۸۵).اساس کار طبقه بندی اطلاعات، بر مقایسه ارزش طیفی پیکسل های تصویر با نمونه هایی است که مفسر آن ها را معرفی کرده یا با کلاس ها یا با طبقات اولیه ای است که به طور خودکار هنگام تفسیر رقومی، تشکیل می شوند. به این ترتیب ، پیکسل هایی که ارزش طیفی آن ها از نظر آماری، اختلاف معنی داری ندارند، در یک گروه یا طبقه طیفی قرار می گیرند. به طور کلی برای طبقه بندی اطلاعات ماهواره ای از دو روش اصلی استفاده می شود که عبارتند از طبقه بندی با نظارت [۱]و طبقه بندی  بدون نظارت

طبقه بندی بدون نظارت

در روش نظارت نشده با توجه به مفاهیم ریاضی طبقه بندی تصویر براساس تجزیه و تحلیل خوشه ای به صورت خودکار انجام می پذیرد. در این نوع طبقه بندی کاربر می تواند در حد معرفی تعداد کلاس ها و نیز تعداد دفعات تعداد الگوریتم برای کلاس بندی، در انجام عملیات دخالت داشته باشد. از مقایسه طبقات طیفی تفکیک شده با مدارک و نقشه های مشابه ، طبقات مورد نظر شناسایی می شوند و حتی در برخی از موارد که مدارکی برای شناسایی چنین مناطقی در اختیار نیست ، با بازدیدهای میدانی شناسایی پدیده انجام می شود.

طبقه بندی با نظارت

در طبقه بندی نظارت شده، کاربر با توجه به شناخت و آگاهی از عوارض و پدیده های زمینی مناطقی را به عنوان نواحی آموزشی (Training Areas) مشخص می سازد ، پس از آن برنامه ی رایانه ای با تجزیه و تحلیل آماری ارزش ها و پیکسل های موجود در هر کلاس وبا توجه به الگوریتم مشخص شده ، تک تک پیکسل های موجود در تصاویر را با اطلاعات آماری همه کلاس ها مقایسه کرده وبرای هریک در تصویر خروجی مقداری را بر می گزیند. و هر پیکسل را در نهایت به یکی از نمونه های معرفی شده نسبت می دهد . به جز تعداد اندکی که در هیچ طبقه ای جا نمی گیرند. مهم ترین الگوریتم هایی که در روش نظارت شده مورد استفاده قرار می گیرند عبارتند از نزدیک ترین فاصله از میانگین، شبکه های موازی ، استفاده از حداکثر احتمال و نگاشت زاویه طیفی  (رضایی، ۱۳۸۸).

  استفاده از حداکثر احتمال(Maximum Likelihood)

در این روش میزان کمی واریانس و هم بستگی ارزش های طیفی باند های مختلف برای مناطق نمونه محاسبه می شود و از همین خاصیت برای ارتباط یک پیکسل طبقه بندی نشده به یکی از گروها یا نمونه های طیفی نیز استفاده می شود. به بیان دیگر، برای بررسی نحوه توزیع ارزش های طیفی و احتمال آماری ارتباط یک پیکسل با یکی از گروه های نمونه، از ماتریس واریانس و بردار میانگین، که خود، واریانس و هم بستگی ارزش های طیفی را تعریف می کنند استفاده می شود. این روش از سایر روش های موجود برای طبقه بندی دقیق تر است(زبیری و مجد ، ۱۳۸۰).

با توجه به شکل ( ۳-۸) سطوح مورد بیضوی مورد نظر،وضعییت تعلق یک پیکسل به یک گروه طیفی خاص را مشخص می کند وبه تعبیری، در این روش از عوامل آماری واریانس و هم بستگی استفاده می شود .


 

پس پردازش و ارزیابی دقت طبقه بندی

در حین اجرای طبقه بندی با نظارت و بعد از اتمام آن، به طرق مختلف می تواند صحت طبقه بندی ویا مراحلی به وسیله مفسر به اجرا در آمده است آگاهی یافت. در مورد طبقه بندی بدون نظارت ، معمولا بعد از اتمام طبقه بندی، با مشاهده تصویر طبقه بندی شده و مقایسه آن با مدارکی که می توانند به شناسایی پدیده های تفکیک شده و صحت آنها کمک کنند ، می توان به صورت مشاهده به میزان درستی طبقه بندی پی برد یا با اجرای روش های نمونه گیری و کنترل زمینی، دقت طبقه بندی را براورد کرد.

طبقه بندي:

طبقه بندي تصوير، يكي از مولفه هاي اصلي فرآيند استخراج اطلاعات موضوعي است كه از طريق بررسي رابطه بين اثر طيفي و كلاسها يا طبقات مختلف حاصل ميشود(.(Oommen, 2008

در حقيقت فرآيند طبقه بندي تصوير، تبديل داده ها به اطلاعات قابل درك است  .(Mountrakis et al., 2011 در گذشته، طبقه بندي تصاوير بر مبناي تفسير بصري كاربر بود كه اغلب باعث به وجود آمدن خطاهاي سيستماتيك مي گرديد كه اين امر ناشي از تجربه و توانايي مفسر در تفسير تصاوير بود( etal., 2004 (Lillesand.  طبقه بندي رقومي تصاوير كمك مي كند تا فرآيند طبقه بندي تصوير به واقعيت نزديكتر باشد(.(Oommen, 2008  طبقه بندي رقومي تصاوير با استفاده از هر دو روش طبقه بندي نظارت شده و نظارت نشده صورتت مي گيرد كه هر دو روش از مكانيسم تصميم گيري َ كمي و اتوماتيك بهره مي گيرند. اساس طبقه بندي رقومي تصاوير سنجش از دور بر اين مبنا است كه اثر طيفي مربوط به هر عارضه پوشش دهنده تصوير، منحلر به فرد  است(.(Oommen, 2008در طبقه بندي نظارت نشده، بطور اتوماتيك و بر اساس اختلاف اثر طيفي و محاسبات آماري، هر پيكسل به كلاس خاصي تعلق مي گيرد. ضعف اين روش در اين است كه در صورتتي كه عارضه مورد نظر داراي اختلاف اثر طيفي كمي نسبت به ساير عوارض باشد، تفكيك آن با اين روش و بطور اتوماتيك بسيار دشوار مي گردد(.(Hord, 1982 براي غلبه بر اين مشكل، روشهاي طبقه بندي نظارت شده ارائه گرديدند كه در آنها از نمونه هاي تعليمي به عنوان كليدي كه اثر طيفي مربوط به يك عارضه خاص و مورد نظر كاربر را نشان مي دهد، براي طبقه بندي استفاده مي شود( .(Lillesand et al., 2004اما به هر حال خطاهايي در طبقه بندي وجود دارند كه مي تواند به علت ضعف تجربه و دانش كاربر باشد. از طرفي به علت تاثيرات متفاوت حاصل از

ماتریس خطا[۲]

نتایج ارزیابی دقت معمولا به صورت ماتریس خطا ارائه می شود که در این صورت انواع پارامترها و مقادیری که بیانگر دقت و یا نوعی خطا در نتایج هستند از این ماتریس استخراج می شوند. این ماتریس حاصل مقایسه پیکسل به پیکسل، پیکسل های معلوم با پیکسل های متناظر در نتایج طبقه بندی است. در ماتریس خطا داده های زمینی در ستون ها و داده های مربوط به نتایج طبقه بندی در سطرهای این ماتریس آورده می شود. اعدادی که روی قطر اصلی ماتریس قرار می گیرند، تعداد پیکسل هایی را مشخص میکنند که بر چسب آن ها در دو سری داده هم خوانی دارد یا به عبارت دیگر تعداد پیکسل هایی که درست طبقه بندی شده اند روی این قطر قرار می گیرند. عناصر غیر قطری مجموعه خطاها می باشند. بر مبنای ماتریس خطا پارامترهای متعددی برای بیان دقت و خطا استخراج می گردند . ازآن جمله:

  • دقت کلی
  • ضریب کاپا
  • دقت تولید کننده
  • دقت کاربر
  • دقت کلی

میانگینی از دقت طبقه بندی است که نسبت پیکسل های صحیح طبقه بندی شده به جمع کل پیکسل های معلوم را نشان می دهد.

C : تعداد کلاس ها

N : تعداد کل پیکسل های معلوم

Eii : اعضای قطری ماتریس خطا

  • ضریب کاپا

ضریب کاپا دقت طبقه بندی را نسبت به یک طبقه بندی کاملا تصادفی محاسبه می کند به این معنی که مقدار کاپا دقت طبقه بندی را نسبت به حالتی که یک تصویر کاملا به صورت تصادفی طبقه بندی شود به دست می دهد. برای نمونه یک کاپا معادل ۷۵ درصد یعنی این که نتایج طبقه بندی ۷۵ درصد بهتر از موقعی است که پیکسل ها به طور تصادفی برچسب دهی شوند. اگر کاپا برابر ۱۰۰ درصد شود به معنی یک طبقه بندی کاملا صحیح بر اساس نمونه های گرفته شده می باشد. مقادیر بین ۰ تا۱۰۰ درصد هر یک سطح معینی را به نسبت این طبقه بندی (کاملا صحیح ) نشان می دهند و مقادیر منفی نشان دهنده نتایج بسیار بد طبقه بندی است.

رابطه محاسبه این ضریب به صورت زیر است :

در این رابطه N تعداد کل پیکسل های واقیت زمینی ،   مجموع عناصر سطر i و  مجموع عناصر ستون i  می باشد .

تک پارامترهای نظیرضریب کاپا و دقت کلی تنها با کل طبقه بندی سرو کار دارند و اطلاعات در مورد تک تک کلاس ها و یا توزیع مکانی خطاها ارائه نمی دهند، برای برآورد دقت کلاسها به صورت مجزا از پارامترهای دیگری نظیردقت کاربر و دقت تولید کننده استفاده می شود.

  • دقت تولید کننده

دقت تولید کننده(Producers Accuracy)، احتمال اینکه طبقه بندی کننده پیکسلی را به یک کلاس خاص نسبت داده باشد، در صورتی که کلاس واقعی آن مشخص باشد، را بیان می کند . به بیان دیگر عنصر قطری هر کلاس به جمع مقادیر هر ستون (هر کلاس) می باشد.

  • دقت کاربر

دقت کاربر (Users Accuracy) احتمال طبقه بندی یک کلاس خالص مطابق با همان کلاس در نقشه واقعیت زمینی را بیان می کند. به بیان دیگر نسبت پیکسل های صحیح طبقه بندی شده به مجموع پیکسل های یک سطر (کلاس) می باشد. این دقت برای کاربر مهم است.

طبقه بندي تصوير :

طبقه بندي تصوير، يكي از مولفه هاي اصلي فرآيند استخراج اطلاعات موضوعي است كه از طريق بررسي رابطه بين اثر طيفي و كلاسها يا طبقات مختلف حاصل ميشود(.(Oommen, 2008

در حقيقت فرآيند طبقه بندي تصوير، تبديل داده ها به اطلاعات قابل درك است  .(Mountrakis et al., 2011 در گذشته، طبقه بندي تصاوير بر مبناي تفسير بصري كاربر بود كه اغلب باعث به وجود آمدن خطاهاي سيستماتيك مي گرديد كه اين امر ناشي از تجربه و توانايي مفسر در تفسير تصاوير بود( etal., 2004 (Lillesand.  طبقه بندي رقومي تصاوير كمك مي كند تا فرآيند طبقه بندي تصوير به واقعيت نزديكتر باشد(.(Oommen, 2008  طبقه بندي رقومي تصاوير با استفاده از هر دو روش طبقه بندي نظارت شده و نظارت نشده صورتت مي گيرد كه هر دو روش از مكانيسم تصميم گيري َ كمي و اتوماتيك بهره مي گيرند. اساس طبقه بندي رقومي تصاوير سنجش از دور بر اين مبنا است كه اثر طيفي مربوط به هر عارضه پوشش دهنده تصوير، منحلر به فرد  است(.(Oommen, 2008در طبقه بندي نظارت نشده، بطور اتوماتيك و بر اساس اختلاف اثر طيفي و محاسبات آماري، هر پيكسل به كلاس خاصي تعلق مي گيرد. ضعف اين روش در اين است كه در صورتتي كه عارضه مورد نظر داراي اختلاف اثر طيفي كمي نسبت به ساير عوارض باشد، تفكيك آن با اين روش و بطور اتوماتيك بسيار دشوار مي گردد(.(Hord, 1982 براي غلبه بر اين مشكل، روشهاي طبقه بندي نظارت شده ارائه گرديدند كه در آنها از نمونه هاي تعليمي به عنوان كليدي كه اثر طيفي مربوط به يك عارضه خاص و مورد نظر كاربر را نشان مي دهد، براي طبقه بندي استفاده مي شود( .(Lillesand et al., 2004اما به هر حال خطاهايي در طبقه بندي وجود دارند كه مي تواند به علت ضعف تجربه و دانش كاربر باشد. از طرفي به علت تاثيرات متفاوت حاصل از

[۱] -Supervised Classification

[۲] -Confusion Matrix