پژوهشگران یو.سی.ال.ای نرمافزاری نوشتهاند که وقایع ثبت شده توسط دوربینهای نظارتی را تشخیص و آنها را به صورت فایل متنی مرتب میکند. با کمک این دستاورد، جستجو در فیلمهای امنیتی به سادگی جستجوی اینترنتی خواهد بود.
خبرآنلاین: دانشمندان دانشگاه کالیفرنیا در لسآنجلس (یو.سی.ال.ای) موفق به ساخت سیستمی شدهاند که قادر است توصیفی واقعی از اتفاقاتی را که در
فیلم رخ میدهد، تولید کند. البته این سیستم هنوز به مرحلهای نرسیده که قابلیت تجاری شدن را داشته باشد.
به گزارش تکنولوژی رویو وابسته به ام.آی.تی، دراین سیستم یک نرمافزار میتواند از طریق تصاویر و فیلمهای جمعآوری شده، کار جستجو را انجام دهد. سانگ شون زو، مدیر ارشد این تحقیق و استاد آمار و علوم کامپیوتری دانشگاه یو.سی.ال.ای، یکی از مشکلات موجود در زمینه کار با فیلمها و تصاویری را که توسط دوربینهای پایشی گرفته شدهاند، سخت بودن جستجو در مضمون آنها بیان میکند. به همین دلیل، وی و همکارانش سیستمی را با نام I2T (تبدیل تصویر به متن) طراحی کردهاند تا بتوانند روال این کار را تغییر دهند.
دادههای ورودی به این سیستم درواقع همان تصاویر و فریمهای ویدیویی هستند و خروجی آن، خلاصهای از آنچه در
فیلم رخ داده است! به این ترتیب تنها با استفاده از یک جستجوی متنی ساده میتوان فیلمی با موضوعی خاص را پیدا کرد. زو معتقد است با کمک این سیستم میتوان تعداد دوربینهای مراقبتی در خیابانها و یا سایتهای نظامی را با ثابت نگاه داشتن پرسنل و ماموران کنترل، افزایش داد.
اصلیترین بخش این سیستم، بخشی به نام تجزیهکننده تصویر است. این بخش پسزمینه و اشیایی مثل خودروها و یا درختان و افراد را از تصویر حذف میکند. حتی به کمک آن میتوان اعضای مختلف بدن یک شخص و یا چرخهای خودرو را نیز جدا کرد. پس از تجزیه تصویر میتوان معنی و مفهوم مجوعه شکلها را معین کرد که این، مهمترین قسمت کار است.
پایههای انجام چنین کاری در سال 2005 توسط زو گذاشته شد. وی در این سال، موسسهای غیرانتفاعی با نام لوتوس را در چین تاسیس کرد و با حمایت دولت این کشور، افرادی را که فارغالتحصیل رشته هنر بودند، استخدام کرد و از آنها خواست یک مجموعه تصویر را تفسیر کنند. نتیجه کار وی تولید یک بانک اطلاعاتی خوب با بیش از 2 میلیون تصویر با اشیایی طبقهبندی شده بر پایه دیتابیس ووردنتپرینستون بود که میتوانست کلمات انگلیسی را به گروههایی بر اساس معنای آنها طبقهبندی کند.
این سیستم همچنین میتواند با استفاده از الگوریتمهایی خاص، حرکت اشیا را در فریمهای متوالی توصیف کند و مثلا نتیجه کار را به صورت جملاتی مثل "قایق 1، قایق 2 را تعقیب میکند" بیرون دهد.
موسسه لوتوس قصد دارد این سیستم را با افزودن به تعداد تصاویر آن ارتقا بخشد.
زو کیم، محقق دانشگاه کالیفرنیا که روی استفاده از دید کامپیوتری در کمک به پایش ترافیک و ردیابی خودروها کار میکند، معتقد است اگر تجزیه تصاویر با دقت بالایی انجام شود؛ افراد نابینا هم میتوانند مفهوم تصاویر روی شبکه را بفهمند. البته وی خاطرنشان میکند که انسان موجودی وابسته به بینایی است و در بسیاری از حالات میتوان انتظار داشت که آنها بیشتر از اینکه به سیستمهای کامپیوتری اعتماد داشته باشند، ترجیح میدهند خودشان وقایع رخ داده در
فیلم یا تصویر را تفسیر کنند.