سیستم هوش مصنوعی آفلاین کوالکام صدا را با دقت 95 درصد تشخیص می‌دهد

سیگنال
منتشر شده در 08 خرداد 1397

سیستم هوش مصنوعی آفلاین کوالکام صدا را با دقت 95 درصد تشخیص می‌دهد


کوالکام اپلیکیشنی ساخته است که به‌صورت آفلاین و بدون نیاز به اینترنت، قابلیت تشخیص صدا با دقت 95 درصد دارد.


کریس لوت، یکی از محققان هوش مصنوعی در کوالکام، در کنفرانس یادگیری عمیق در بوستون، نگاهی اجمالی به برنامه جدید تشخیص صدای کوالکام کرده است.


برنامه‌ی تشخیص صدای کوالکام به‌صورت کلی روی گوشی هوشمند اجرا می‌شود و شامل دو نوع شبکه عصبی است؛ یک شبکه‌ی عصبی تکرارشونده (Recurrent Neural Network) که از حافظه داخلی برای پردازش ورودی‌های دستگاه استفاده می‌کند و یک شبکه عصبی پیچیده که الگوی ارتباطی بین نورون‌های مغز انسان را شبیه‌سازی می‌کند. به گفته لوت، این سیستم به‌طور متوسط 95 درصد توانایی تشخیص کلمات و عبارات را دارد.


او می‌گوید:


> این اپلیکیشن، الگوی استفاده کاربر از گوشی‌ هوشمند را یاد می‌گیرد؛ بنابراین می‌تواند رفتار خود را بر اساس رفتار شما شخصی‌سازی کند و به شما ارائه دهد.


لوت توضیح داد که اکثر سیستم‌های تشخیص صدای امروزی بیشتر پردازش خود را در فضای ابری انجام می‌دهند. این سیستم‌ها شامل میکروفون‌ و تراشه‌ در گوشی‌ها، اسپیکرهای هوشمند خانگی مانند گوگل هومو آمازون اکو و رایانه‌های ویندوزی با دستیار کورتانا مایکروسافت برای گوش دادن به کلمات «از پیش تعریف‌شده مانند «OK Google» و «Hey Cortana» هستند که برای هر کدام از این کلمات، از قبل برنامه‌ریزی شده است و هیچ گونه تجزیه و تحلیلی انجام نمی‌دهند و پردازش اصلی را به الگوریتم‌های قابل اجرا روی سرورهای قدرتمند ابری می‌سپارند.



بعضی از کاربران نگران حریم خصوصی با انتشار صدای خود در محیط ابری هستند. هر دو سرویس الکسای آمازون و گوگل اسیستنت قبل از ارسال صدا برای تجزیه و تحلیل به فضای ابری، آن را به اجزای کوچک‌تر تقسیم می‌کنند و آن‌ را تا زمانی که کاربر تصمیم به حذف بگیرد ذخیره می‌کنند. هر دو شرکت اعلام کرده‌اند که از دستورات صوتی استفاده می‌کنند تا خدمات خود را ارتقاء بدهند و پاسخ‌های شخصی بیشتری ارائه کنند.


اما در بعضی موارد، ضبط و ذخیره‌سازی صدا در سرورهای ابری نگرانی‌هایی در خصوص حریم خصوصی برای کاربر به ارمغان می‌آورد. در سال 2016، کارآگاهان در آریزونا برای تحقیق در مورد یک قتل، به دنبال دسترسی به داده‌های صوتی اکو آمازون بودند که در نهایت با اجازه متهم، داده‌های صوتی به اشتراک گذاشته شدند.


لوت معتقد است علاوه بر حریم خصوصی، پردازش صوتی در دستگاه نیز مزایایی دارد. از آنجایی که لازم نیست داده‌ها را به محیط ابری بفرستد، فورا به فرمان‌ها پاسخ می‌دهد و به این دلیل که اتصال به اینترنت نیازی ندارد، بسیار قابل اعتماد است. لوت در این خصوص می‌گوید:


> تلاش‌های بسیاری در حال انجام است تا یک سیستم مبتنی بر شبکه‌های عصبی، در سمت کاربر قادر به انجام پردازش باشد. با استفاده از این روش می‌توان تعامل با دستگاه‌ها را بسیار طبیعی‌تر کرد.


سال 2016 گوگل یک سیستم تشخیص صدای آفلاین ایجاد کرد که در آن زمان 7 برابر سریع‌تر از سیستم آنلاین بود. این مدل که تقریبا 2000 ساعت داده‌ی صوتی در بر‌ دارد، دارای حجمی به اندازه 20.3 مگابایت دقت 86.5 درصد است که روی تلفن هوشمند مورد استفاده قرار می‌گیرد.


البته، تشخیص صدا در دستگاه دارای مجموعه‌ای از محدودیت‌ها است. الگوریتم‌های طراحی‌شده برای کار کردن به‌صورت آفلاین نمی‌توانند به جستجوی پاسخ‌ سؤالات در اینترنت بپردازند و پیشرفت‌های سیستم‌های مبتنی بر پردازش ابری با مجموعه داده‌های متنوع را از دست می‌دهند.


اما لوت معتقد است که راهکار کوالکام، آینده را در اختیار دارد.او می‌گوید:


> بسیاری از موارد در فضای ابری اتفاق می‌افتد؛ اما ما فکر می‌کنیم که باید به‌طور مستقیم روی دستگاه اتفاق بیفتد.

دیدگاه کاربران