سیستم هوش مصنوعی آفلاین کوالکام صدا را با دقت 95 درصد تشخیص میدهد
کوالکام اپلیکیشنی ساخته است که بهصورت آفلاین و بدون نیاز به اینترنت، قابلیت تشخیص صدا با دقت 95 درصد دارد.
کریس لوت، یکی از محققان هوش مصنوعی در کوالکام، در کنفرانس یادگیری عمیق در بوستون، نگاهی اجمالی به برنامه جدید تشخیص صدای کوالکام کرده است.
برنامهی تشخیص صدای کوالکام بهصورت کلی روی گوشی هوشمند اجرا میشود و شامل دو نوع شبکه عصبی است؛ یک شبکهی عصبی تکرارشونده (Recurrent Neural Network) که از حافظه داخلی برای پردازش ورودیهای دستگاه استفاده میکند و یک شبکه عصبی پیچیده که الگوی ارتباطی بین نورونهای مغز انسان را شبیهسازی میکند. به گفته لوت، این سیستم بهطور متوسط 95 درصد توانایی تشخیص کلمات و عبارات را دارد.
او میگوید:
> این اپلیکیشن، الگوی استفاده کاربر از گوشی هوشمند را یاد میگیرد؛ بنابراین میتواند رفتار خود را بر اساس رفتار شما شخصیسازی کند و به شما ارائه دهد.
لوت توضیح داد که اکثر سیستمهای تشخیص صدای امروزی بیشتر پردازش خود را در فضای ابری انجام میدهند. این سیستمها شامل میکروفون و تراشه در گوشیها، اسپیکرهای هوشمند خانگی مانند گوگل هومو آمازون اکو و رایانههای ویندوزی با دستیار کورتانا مایکروسافت برای گوش دادن به کلمات «از پیش تعریفشده مانند «OK Google» و «Hey Cortana» هستند که برای هر کدام از این کلمات، از قبل برنامهریزی شده است و هیچ گونه تجزیه و تحلیلی انجام نمیدهند و پردازش اصلی را به الگوریتمهای قابل اجرا روی سرورهای قدرتمند ابری میسپارند.
بعضی از کاربران نگران حریم خصوصی با انتشار صدای خود در محیط ابری هستند. هر دو سرویس الکسای آمازون و گوگل اسیستنت قبل از ارسال صدا برای تجزیه و تحلیل به فضای ابری، آن را به اجزای کوچکتر تقسیم میکنند و آن را تا زمانی که کاربر تصمیم به حذف بگیرد ذخیره میکنند. هر دو شرکت اعلام کردهاند که از دستورات صوتی استفاده میکنند تا خدمات خود را ارتقاء بدهند و پاسخهای شخصی بیشتری ارائه کنند.
اما در بعضی موارد، ضبط و ذخیرهسازی صدا در سرورهای ابری نگرانیهایی در خصوص حریم خصوصی برای کاربر به ارمغان میآورد. در سال 2016، کارآگاهان در آریزونا برای تحقیق در مورد یک قتل، به دنبال دسترسی به دادههای صوتی اکو آمازون بودند که در نهایت با اجازه متهم، دادههای صوتی به اشتراک گذاشته شدند.
لوت معتقد است علاوه بر حریم خصوصی، پردازش صوتی در دستگاه نیز مزایایی دارد. از آنجایی که لازم نیست دادهها را به محیط ابری بفرستد، فورا به فرمانها پاسخ میدهد و به این دلیل که اتصال به اینترنت نیازی ندارد، بسیار قابل اعتماد است. لوت در این خصوص میگوید:
> تلاشهای بسیاری در حال انجام است تا یک سیستم مبتنی بر شبکههای عصبی، در سمت کاربر قادر به انجام پردازش باشد. با استفاده از این روش میتوان تعامل با دستگاهها را بسیار طبیعیتر کرد.
سال 2016 گوگل یک سیستم تشخیص صدای آفلاین ایجاد کرد که در آن زمان 7 برابر سریعتر از سیستم آنلاین بود. این مدل که تقریبا 2000 ساعت دادهی صوتی در بر دارد، دارای حجمی به اندازه 20.3 مگابایت دقت 86.5 درصد است که روی تلفن هوشمند مورد استفاده قرار میگیرد.
البته، تشخیص صدا در دستگاه دارای مجموعهای از محدودیتها است. الگوریتمهای طراحیشده برای کار کردن بهصورت آفلاین نمیتوانند به جستجوی پاسخ سؤالات در اینترنت بپردازند و پیشرفتهای سیستمهای مبتنی بر پردازش ابری با مجموعه دادههای متنوع را از دست میدهند.
اما لوت معتقد است که راهکار کوالکام، آینده را در اختیار دارد.او میگوید:
> بسیاری از موارد در فضای ابری اتفاق میافتد؛ اما ما فکر میکنیم که باید بهطور مستقیم روی دستگاه اتفاق بیفتد.