بینایی ماشین چیست؟

بینایی ماشین (Computer vision):

بینایی ماشین یکی از داغ‌ترین مباحث هوش مصنوعی و علوم کامپیوتر است که تاکنون نتوانسته با قدرت چشمان انسان برابری داشته باشد.

بینایی ماشین به کامپیوتر آموزش می‌دهد تا دنیای واقعی بصری را تفسیر کرده و درک کند. کامپیوترها با استفاده از تصاویر دیجیتالی از دوربین‌ها، ویدیوها و مدل‌های شبکه عصبی عمیق می‌توانند افراد و یا اشیا را به طور دقیق شناسایی کرده و سپس به چیزی که می‌بینند عکس العمل نشان دهند.

تاریخچه بینایی ماشین:

مطالعات اولیه در حوزه بینایی ماشین در دهه ۱۹۵۰ اتفاق افتاده است. در این مطالعات از مدل‌های اولیه شبکه عصبی برای تشخیص لبه‌های اشیا و یا دسته‌بندی اشیا به دسته‌های مختلف مانند مربع و دایره استفاده شده است. در دهه ۱۹۷۰ برای اولین بار از بینایی ماشین به صورت تجاری استفاده شد که نوشته‌های دست‌نویس و یا تایپ شده را با استفاده از شناسایی حروف نوری از یکدیگر تشخیص می‌داد و این شیوه برای تفسیر متون نوشته شده برای افراد نابینا به کار گرفته شد.

زمانی که اینترنت در دهه ۱۹۹۰ توسعه یافت، مجموعه‌های بزرگی از تصاویر آنلاین برای تحلیل تولید می‌شد و در نتیجه برنامه‌های تشخیص چهره ظهور یافتند. این داده‌های رو به رشد، این امکان را به کامپیوترها داد تا بتوانند افراد خاص را در تصاویر و ویدیوها تشخیص دهند.

امروزه ابزارهای زیادی در حوزه بینایی ماشین انقلابی را به پا کرده اند:

تکنولوژی گوشی‌های هوشمند با دوربین‌های تعبیه شده در آن‌ها، دنیای مجازی را با تصاویر و ویدیوهای خود پُر کرده‌اند.

قدرت محاسباتی رایانه‌ها بسیار رشد یافته و در دسترس همگان قرار گرفته است.

سخت افزارهایی که در حوزه بینایی ماشین و تحلیل آن‌ها استفاده می‌شوند به صورت بسیار گسترده‌ای در دسترس هستند.

الگوریتم‌های جدید مانند شبکه‌های عصبی عمیق (Deep neural network) می‌توانند از توانمندی‌های نرم افزاری و سخت افزاری جدید به خوبی استفاده کنند.

تاثیری که این پیشرفت‌ها بر حوزه بینایی ماشین داشته، بسیار شگرف است. دقت تشخیص اشیا و کلاس‌بندی آن‌ها تنها در کمتر از یک دهه از ۵۰ درصد به ۹۹ درصد افزایش یافته است، و سیستم‌های امروزی بسیار دقیق‌تر از انسان‌ها می‌توانند ورودی‌های بصری را تشخیص داده و به آن‌ها عکس العمل نشان دهند.

شباهت بینایی ماشین و پازل:

تا به حال به چگونگی حل یک پازل فکر کرده‌اید؟

شما تمامی تکه‌های پازل را دارید و باید آن‌ها را در کنار هم قرار دهید تا بتوانید یک تصویر را ایجاد کنید.

کامپیوترها نیز تصاویر بصری را مشابه یک پازل کنار هم قرار می‌دهند و این همان روندی است که شبکه‌های عصبی برای بینایی ماشین انجام می‌دهند. آن‌ها تکه‌های مختلف تصویر را تشخیص می‌دهند، لبه‌های آن‌ها را شناسایی می‌کنند و سپس مولفه‌های آن‌ها را مدل‌سازی می‌کنند. آن‌ها با فیلتر کردن و مجموعه‌ای از اقدامات با استفاده از لایه‌های شبکه‌های عصبی عمیق می‌توانند تکه‌های یک تصویر را کنار هم قرار دهند و این همان کاری است که ما در هنگام حل پازل انجام می‌دهیم.

همچنین کامپیوترها هرگز تصویر نهایی را ندارند و نمی‌دانند که خروجی پازل چه چیزی خواهد بود بلکه آن‌ها یاد می‌گیرند تا با استفاده از صدها و هزارها تصاویر مرتبط بتوانند خروجی مورد نظر را تشخیص دهند.

همچنین فرآیند آموزش کامپیوترها به این صورت است که برنامه‌نویس میلیون‌ها عکس از شی مشخص را آپلود کرده و در اختیار کامپیوتر قرار می‌دهد تا خود کامپیوتر ویژگی‌های تعیین‌کننده آن شی را یاد بگیرد.

برای مثال برای تشخیص یک گربه به جای آموزش اعضای بدن یک گربه به کامپیوتر، میلیون‌ها عکس گربه به کامپیوتر داده می‌شود و خود کامپیوتر ویژگی‌های متفاوت گربه‌ها را فرا می‌گیرد و در نتیجه می‌تواند یک گربه را در یک تصویر یا ویدیو تشخیص بدهد.

انقلاب یادگیری عمیق در بینایی ماشین:

در دهه ۱۹۸۰ یک دانشمند فرانسوی شبکه‌های عصبی پیچشی یا (convolutional neural network CNN) را معرفی کرد. این نوع شبکه عصبی شامل چندین لایه از نورون‌های مصنوعی می‌شود که این نورون‌ها در واقع مولفه‌های ریاضیاتی هستند که تا حدودی از نورون‌های بیولوژیکی تقلید می‌کنند. زمانی که یک شبکه عصبی پیچشی تصویری را پردازش می‌کند، هر  یک از لایه‌های آن ویژگی‌های معینی از پیکسل‌ها را استخراج می‌کند.

اولین لایه موارد ساده را تشخیص می‌دهد (مانند لبه‌های افقی یا عمودی) و همین‌طور که به لایه‌های درونی‌تر شبکه عصبی نزدیک می‌شویم لایه‌های شبکه،  ویژگی‌های پیچیده‌تری را تشخیص می‌دهند (مانند گوشه‌ها و اشکال). لایه‌های نهایی شبکه عصبی موارد بسیار جزیی مانند چهره‌ها، دوچرخه، ماشین و …  را شناسایی می‌کنند. خروجی لایه‌های شبکه عصبی جدولی از مقادیر عددی می‌باشد که نشان‌دهنده احتمال شناسایی یک شی مشخص در تصویر را بیان می‌کند.

این نوع از شبکه‌های عصبی بسیار هوشمند و کارآمد بودند اما یک ایراد بسیار بزرگ داشتند:

تنظیم و استفاده از آن‌ها نیاز به حجم زیادی از داده‌ها و منابع محاسباتی داشت که ممکن است در زمان مورد نظر در دسترس نباشند. در نتیجه این شبکه عصبی تنها توانست در حوزه تجاری محدود به بانک‌ها و سرویس‌های پست شد، که تنها باید حروف دست نویس و حروف موجود بر روی نامه‌ها و چک‌ها را پردازش می‌کرد. اما در حوزه تشخیص اشیا، نتوانست قابلیت خوبی از خود نشان دهد و در نتیجه جای خود را به روش‌های یادگیری ماشین داد.

در سال ۲۰۱۲، دانشمندان هوش مصنوعی از تورنتو نوع جدیدی از شبکه‌های عصبی پیچشی را ایجاد کردند که در مسابقات شناسایی تصویر یا ImageNet نیز برنده شد. این پیروزی سبب شد که ذهن‌ها به سمت بازبینی شبکه‌های عصبی پیچشی سوق بیابد. این واقعه شبکه‌های عصبی پیچشی را احیا کرد و انقلابی در یادگیری عمیق ایجاد نمود (یادگیری عمیق شاخه‌ای از یادگیری ماشین است که شامل لایه‌های متعددی از شبکه‌های عصبی مصنوعی می‌باشد). پس از پیشرفت‌های شبکه‌های عصبی پیچشی و یادگیری عمیق، بینایی ماشین توانست رشد بسیار چشم گیری را تجربه کند.

بینایی ماشین چگونه کار می کند؟

بینایی ماشین در سه سطح زیر انجام می‌شود:

به دست آوردن یک تصویر:

تصاویر مختلف (حتی با مجموعه داده‌های بسیار زیاد) می‌توانند از طریق ویدیوها، عکس‌ها یا تکنولوژی‌های سه بعدیِ تحلیلی جمع‌آوری شوند.

پردازش تصاویر:

مدل‌های یادگیری عمیق، قسمت بزرگی از فرآیند پردازش تصویر را به صورت اتوماتیک انجام می‌دهد، گرچه این مدل‌ها اغلب با استفاده از هزاران تصویر از پیش تعریف شده و برچسب گذاری شده آموزش داده شده‌اند.

درک تصویر:

آخرین گام، مرحله تفسیر است که در آن شی مورد نظر تشخیص داده می‌شود و یا کلاس‌بندی مورد نظر انجام می‌گیرد.

امروزه سیستم‌های هوش مصنوعی می‌توانند فراتر رفته و بر مبنای تصاویرِ ورودی، عکس العمل‌های بعدی خود را انتخاب کنند. شیوه‌های متفاوتی از بینایی ماشین وجود دارد که در زمینه‌های مختلفی قابل استفاده هستند:

قطعه بندی تصویر:یک تصویر به چندین ناحیه و یا تکه‌های مجزا تقسیم می‌شود تا هر یک از آن‌ها به صورت جداگانه بررسی و آزمایش شوند.

تشخیص اشیا:شی مورد نظر را در یک تصویر شناسایی می‌کند. روش‌های تشخیص اشیا در سطح پیچیده‌تر می‌توانند به آسانی چندین شی را در یک تصویر شناسایی کنند. برای مثال در یک بازی فوتبال می‌توانند بازیکن حمله، بازیکن دفاع، توپ و … را تشخیص دهد.

تشخیص چهره: یکی از شیوه‌های پیشرفته تشخیص اشیا است که صرفا چهره انسان‌ها  (البته چهره یک شخص خاص) را در یک تصویر تشخیص می‌دهد.

تشخیص لبه: تکنیکی برای شناسایی لبه‌های بیرونی یک شی یا صحنه استفاده می‌شود و هدف از آن شناسایی بهتر اشیا داخل تصویر است.

تشخیص الگو: فرآیند تشخیص اشیا، رنگ‌ها و یا سایر علائم بصری تکراری در یک تصویر است.

کلاس بندی تصویر: تصاویر به دسته‌های مختلف تقسیم بندی می‌کند.

تطبیق ویژگی ها: یکی از انواع روش‌های تشخیص الگو می‌باشد که شباهت‌های میان تصاویر را با یکدیگر تطبیق می‌دهد تا بتواند آن‌ها را دسته‌بندی نماید.

برنامه‌های بینایی ماشین در سطوح پایین ممکن است تنها یکی از این شیوه‌ها را استفاده کنند، اما مدل‌های پیچیده‌تر (مانند بینایی ماشین برای ماشین‌های خودران) نیازمند ترکیبی از چندین شیوه فوق برای رسیدن به اهدافشان هستند.

مدل بینایی ماشین:

اخیرا دانشمندان دانشگاه MIT یک مدل کامپیوتری تشخیص چهره ایجاد کرده‌اند، که مجموعه‌ای از محاسبات را انجام می‌دهد تا بتواند مراحل برنامه‌های گرافیکی کامپیوتری را معکوس کند، و یک مدل یا بازنمایی دو بعدی از یک چهره را به دست بیاورد.

قابل ذکر است که مدل‌های کامپیوتری پردازش چهره می‌توانند چگونگی روند سریع مغز انسان برای تولید بازنمایی‌های پر از جزییاتِ بصری را آشکار کند.

زمانی که ما چشمان خود را باز می‌کنیم، ذهن ما جزییات محیط اطراف خود را به صورت دقیقی پردازش می‌کند.

اما چگونه مغز انسان قادر است چنین بازنمایی دقیقی از جهان داشته باشد؟

این سوالی است که در حوزه بینایی ماشین جزو یکی از مسائل پیچیده دنیای کامپیوتر محسوب می‌شود.

دانشمندانی که مغز انسان را مطالعه می‌کنند تلاش کرده‌اند تا این پدیده را با استفاده از مدل‌های کامپیوتری تکرار نمایند، اما تاکنون، مدل‌های مطرح دنیا تنها توانسته‌اند فعالیت‌های ساده مغز را بازنمایی کنند (مانند برداشتن یک شی یا تشخیص یک چهره در میان پس زمینه شلوغ و پر از جزییات).

اما اکنون تیمی از محققین علوم شناختی دانشگاه MIT توانسته‌اند مدل کامپیوتری ایجاد کنند که توانایی سیستماتیکِ بینایی انسان برای تولید سریع توصیفی از صحنه‌های پیچیده‌ی یک تصویر را تقلید می‌کند، و مفاهیمی را در مورد چگونگی انجام این فرآیند توسط مغز انسان توضیح می‌دهد.

جاش تننبام، پروفسور علوم شناختی – محاسباتی و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی دانشگاه MIT و مرکزِ مغز – ذهن – ماشین (Center for Brains, Minds, and Machines=CBMM) و یکی از نویسندگان این مقاله می‌گوید:

“هدفی که در این تحقیق به دنبال دستیابی به آن هستیم، توضیحی در مورد چگونگی دقیق‌تر شدن ادراک بینایی است، و می‌خواهیم این دقت را فراتر از اتصال برچسب‌های معنایی بر روی قسمت‌های مختلف تصویر ببریم. همچنین می‌خواهیم به این سوال پاسخ دهیم که انسان‌ها چگونه می‌توانند محیط فیزیکی اطراف خود را ببینند”.

در این مدلِ جدید فرض شده است که:

زمانی که مغز ورودی بصری را دریافت می‌کند، به سرعت مجموعه‌ای از محاسبات را اجرا می‌کند، در واقع مراحل برنامه‌های گرافیکی کامپیوتری را معکوس می‌کند، تا یک مدل دو بعدی از یک چهره یا یک شی را به دست بیاورد.

 به این نوع از مدل‌های کامپیوتری، گرافیک معکوس کارآمد یا (efficient inverse graphics EIG) گفته می‌شود، که می‌تواند به خوبی با رکوردهای دیجیتالی گرفته شده از نواحی تشخیص چهرۀ مغز پستاندارنِ شبیه انسان کار کند. محققین می‌گویند: “این امکان وجود دارد که سیستم بینایی این دسته از پستاندارن، مشابه مدل‌های کامپیوتری عمل کند”.

گرافیک معکوس:

بعد از گذشت دهه‌های متوالی، تحقیقات دانشمندان بر روی سیستم بینایی مغز انسان به صورت دقیق مشخص کرده است که چگونه نورهای وارد شده به شبکیه تبدیل به صحنه‌های منسجم می‌شوند. این یافته‌ها به محققین هوش مصنوعی کمک کرده است تا بتوانند مدل‌های کامپیوتری را ایجاد کنند که می‌تواند جنبه‌هایی از این سیستم را تقلید کند (مانند تشخیص چهره یا سایر اشیا).

“بینایی یکی از جنبه‌های کاربردی مغز انسان است که ما به بهترین نحو ممکن آن را در انسان‌ها و حیوانات درک کرده‌ایم، و تاکنون بینایی ماشین یکی از موفق‌ترین حوزه‌های هوش مصنوعی بوده است. امروزه ماشین‌ها می‌توانند به عکس‌ها نگاه کرده، تشخیص چهره‌ها را به راحتی انجام دهند و سایر اشیا را نیز می‌توانند شناسایی کنند. اما با این حال این سیستم‌های پیشرفته کامپیوتری حتی نتوانسته‌اند به عملکرد سیستم بینایی انسان نزدیک شوند.” تننبام

ییکل یلدیریم، نویسنده اصلی این مقاله، استاد راهنمای دانشگاه Yale در ایالت آمریکا و دانشجوی سابق مقطع فوق دکتری در دانشگاه MIT می‌گوید:

“مغز ما انسان‌ها به این گونه فعالیت نمی‌کند که فقط قرار گرفتن جسمی در محلی مشخص را تشخیص دهد و بر چسبی بر روی آن قرار دهد، بلکه ما تمامی اشکال، هندسه، سطوح و بافت جسم مورد نظر را می‌بینیم. در واقع ما دنیای بسیار غنی از یک شی را با نگاه کردن به آن به دست می‌آوریم”.

اما سوالی که همچنان باقی می‌ماند این است که چگونه مغز می‌تواند این فرآیند، که با نام گرافیک معکوس شناخته می‌شود، را با این سرعت اجرا کند؟

دانشمندان علوم کامپیوتر سعی کرده‌اند تا الگوریتم‌های را ایجاد کنند که این فرآیند را شبیه سازی نماید، اما بهترین آن‌ها نیازمند چرخه‌های تکراری زیادی هستند که اجرای آن‌ها زمان خیلی زیادی در مقایسه با ذهن انسان طول می‌کشد (ذهن انسان تنها ۱۰۰ تا ۲۰۰ میلی ثانیه زمان نیاز دارد تا بتواند یک بازنمایی بسیار دقیق از اشکال دیده شده را در ذهن ایجاد کند).

دانشمندان علوم اعصاب بر این باور هستند که علت سرعت بالای ذهن انسان در پردازش تصاویر، عبور آن‌ها از لایه‌های منظم و سلسله مراتبی نورون‌های مغز می‌باشد.

در نتیجه اعضای این تیم تحقیقاتی تصمیم گرفتند تا نوع خاصی از شبکه‌های عصبی عمیق را ایجاد کنند تا بتوانند چگونگی سلسله مراتب نورون‌ها در استنتاج ویژگی‌های صحنه دیده شده را نشان دهند (که در این مقاله یک چهره خاص می‌باشد). بر خلاف شبکه‌های عصبی عمیقِ استاندارد که در بینایی ماشین از آن‌ها استفاده می‌شود و بر اساس داده‌های برچسب گذاری شده آموزش می‌بینند، این شبکه عصبی عمیق با استفاده از مدلی آموزش دیده می‌شود که نشان دهنده بازنمایی‌های داخلی ذهن از صحنه‌های دارای صورت اشخاص است.

در نتیجه مدل آن‌ها یاد می‌گیرد تا گام‌های برنامه‌های گرافیکی کامپیوتری در تولید تصاویر صورت را معکوس نماید. این برنامه‌های کامپیوتری با بازنمایی سه بعدی تصویر صورت شخص شروع به کار می‌کند و سپس آن را به تصویر دو بعدی تبدیل می‌کند که نشان‌دهنده دیدن صورت از یک زاویه خاص است. این تصاویر می‌توانند بر روی پس زمینه‌ای دلخواه قرار بگیرند. محققین این نظریه را عنوان می‌کنند که سیستم بینایی مغز انسان ممکن است که کاری مشابه همین فرایند را در هنگام تصور چهره یک شخص یا رویا دیدن انجام بدهد.

این محققین، شبکه عصبی عمیق خود را این گونه آموزش می‌دهند که مراحل زیر را به صورت معکوس اجرا کند:

– با یک تصویر دو بعدی شروع می‌کند.

– ویژگی‌هایی مانند بافت، انحنا و نورپردازی را اضافه می‌کند.

– و در نهایت بازنمایی ۵/۲ بعدی ایجاد می‌شود.

– این تصاویر ۵/۲ بعدی، شکل و رنگ چهره را از یک زاویه خاص مشخص می‌کند. سپس آن‌ها به بازنمایی سه بعدی تبدیل می‌شوند که بستگی به زاویه دید ندارند.

محققان این مقاله کارایی مدل خود را با توانایی انسان‌ها در یک فعالیت تشخیص چهره از زوایای متفاوت مقایسه و بررسی نمودند و به این نتیجه رسیدند که مدل ارائه شده شباهت بیشتری به سیستم بینایی انسان در مقایسه با مدل‌های تشخیص چهره قبلی از خود نشان داده است.

“اگر بتوانیم نشان دهیم که اینگونه از مدل‌ها می‌توانند چگونگی کارکرد مغز انسان‌ها را نشان دهند، این مقاله به محققان بینایی ماشین کمک خواهد کرد تا این مسیر را جدی‌تر گرفته و منابع مهندسی بیشتری را در حوزه گرافیک معکوس سرمایه گذاری نمایند. تننبام

 

با تمامی این اوصاف مغز انسان همچنان تنها استاندارد طلایی برای تمامی ماشین‌ها محسوب می‌شود که می‌تواند دنیای اطراف را به سرعت و دقت مشاهده نماید.”

خروج از نسخه موبایل