تشخیص گفتار (speech recognition) چیست؟

تشخیص گفتار یا گفتار به متن، توانایی یک ماشین یا برنامه برای شناسایی کلماتی که با صدای بلند گفته می شود و تبدیل آنها به متن قابل خواندن است. نرم افزار تشخیص گفتار ابتدایی دایره واژگان محدودی دارد و ممکن است تنها زمانی کلمات و عبارات را شناسایی کند که به وضوح گفته شود. نرم افزار پیچیده تر می تواند گفتار طبیعی، لهجه های مختلف و زبان های مختلف را مدیریت کند. با ایران گواه همراه باشید.

تشخیص گفتار (speech recognition) چیست

تشخیص گفتار از طیف وسیعی از تحقیقات در علوم کامپیوتر، زبان‌شناسی و مهندسی کامپیوتر استفاده می‌کند. بسیاری از دستگاه‌های مدرن و برنامه‌های متمرکز بر متن دارای عملکردهای تشخیص گفتار هستند تا امکان استفاده آسان‌تر یا بدون هندز از دستگاه را فراهم کنند.

تشخیص گفتار و تشخیص صدا دو فناوری متفاوت هستند و نباید آنها را اشتباه گرفت:

  • تشخیص گفتار برای شناسایی کلمات در زبان گفتاری استفاده می شود.
  • تشخیص صدا یک فناوری بیومتریک برای شناسایی صدای افراد است.

تشخیص گفتار چگونه کار می کند؟

سیستم های تشخیص گفتار از الگوریتم های کامپیوتری برای پردازش و تفسیر کلمات گفتاری و تبدیل آنها به متن استفاده می کنند. یک برنامه نرم افزاری صدای ضبط شده توسط میکروفون را به زبان نوشتاری تبدیل می کند که رایانه ها و انسان ها می توانند آن را درک کنند، این چهار مرحله را دنبال می کند:

  • تجزیه و تحلیل صدا؛
  • آن را به قطعات تقسیم کنید؛
  • دیجیتالی کردن آن به یک قالب قابل خواندن توسط کامپیوتر؛ و
  • از یک الگوریتم برای تطبیق آن با مناسب ترین نمایش متن استفاده کنید.

نرم افزار تشخیص گفتار باید با ماهیت بسیار متغیر و خاص گفتار انسان سازگار باشد. الگوریتم‌های نرم‌افزاری که صدا را در متن پردازش و سازماندهی می‌کنند، بر روی الگوهای گفتاری، سبک‌های گفتاری، زبان‌ها، گویش‌ها، لهجه‌ها و عبارت‌های مختلف آموزش داده می‌شوند. این نرم افزار همچنین صدای گفتاری را از نویز پس زمینه که اغلب سیگنال را همراهی می کند جدا می کند.

برای برآوردن این الزامات، سیستم های تشخیص گفتار از دو نوع مدل استفاده می کنند:

  • مدل های آکوستیک اینها نشان دهنده رابطه بین واحدهای زبانی گفتار و سیگنال های صوتی است.
  • مدل های زبان در اینجا، صداها با توالی کلمات تطبیق داده می شوند تا بین کلماتی که به نظر شبیه هستند، تمایز قائل شوند.

تشخیص گفتار برای چه کاربردهایی استفاده می شود؟

سیستم های تشخیص گفتار کاربردهای بسیار کمی دارند. در اینجا نمونه ای از آنها آورده شده است.

دستگاه های موبایل. گوشی های هوشمند از دستورات صوتی برای مسیریابی تماس، پردازش گفتار به متن، شماره گیری صوتی و جستجوی صوتی استفاده می کنند. کاربران می توانند بدون نگاه کردن به دستگاه خود به یک متن پاسخ دهند. در آیفون‌های اپل، تشخیص گفتار به صفحه کلید و سیری، دستیار مجازی قدرت می‌دهد. عملکرد در زبان های ثانویه نیز موجود است. تشخیص گفتار را می‌توان در برنامه‌های پردازش کلمه مانند Microsoft Word نیز یافت، جایی که کاربران می‌توانند کلمات را دیکته کنند تا به متن تبدیل شوند.

تحصیلات. در آموزش زبان از نرم افزار تشخیص گفتار استفاده می شود. این نرم افزار صحبت های کاربر را می شنود و برای تلفظ کمک می کند.

خدمات مشتری. دستیارهای صوتی خودکار به سؤالات مشتری گوش می دهند و منابع مفیدی را ارائه می دهند.

برنامه های کاربردی مراقبت های بهداشتی پزشکان می توانند از نرم افزار تشخیص گفتار برای رونویسی یادداشت ها در زمان واقعی در پرونده های مراقبت های بهداشتی استفاده کنند.

کمک به معلولیت نرم‌افزار تشخیص گفتار می‌تواند کلمات گفتاری را با استفاده از زیرنویس‌های بسته به متن ترجمه کند تا به فردی که دچار کم شنوایی است قادر به درک آنچه دیگران می‌گویند، شود. تشخیص گفتار همچنین می‌تواند افرادی را که از دست‌هایشان محدود استفاده می‌کنند، قادر می‌سازد تا با استفاده از دستورات صوتی به جای تایپ کردن، با رایانه کار کنند.

گزارش دادگاه نرم‌افزار را می‌توان برای رونویسی جلسات دادگاه استفاده کرد و نیاز به رونویس‌کننده‌های انسانی را از بین برد.

تشخیص احساسات این فناوری می تواند ویژگی های صوتی خاصی را تجزیه و تحلیل کند تا مشخص کند گوینده چه احساسی دارد. همراه با تجزیه و تحلیل احساسات، این می تواند نشان دهد که شخص در مورد یک محصول یا خدمات چه احساسی دارد.

ارتباط بدون هندز. به عنوان مثال، رانندگان از کنترل صوتی برای ارتباطات هندزفری، کنترل تلفن، رادیو و سیستم های موقعیت یابی جهانی استفاده می کنند.

ویژگی های سیستم های تشخیص گفتار چیست؟

برنامه های تشخیص گفتار خوب به کاربران اجازه می دهد آنها را مطابق با نیازهای خود سفارشی کنند. ویژگی هایی که این امکان را فراهم می کند عبارتند از:

  • وزن دهی زبان این ویژگی به الگوریتم می‌گوید که به کلمات خاصی مانند کلماتی که مکررا گفته می‌شوند یا منحصر به مکالمه یا موضوع هستند، توجه ویژه داشته باشد. به عنوان مثال، نرم افزار را می توان برای گوش دادن به مراجع خاص محصول آموزش داد.
  • آموزش آکوستیک. این نرم افزار نویزهای محیطی را که صدای گفتاری را آلوده می کند، تنظیم می کند. برنامه‌های نرم‌افزاری با آموزش آکوستیک می‌توانند سبک، سرعت و حجم صحبت را در میان هیاهوی بسیاری از افراد که در یک دفتر صحبت می‌کنند، تشخیص دهند.
  • برچسب زدن بلندگو این قابلیت یک برنامه را قادر می‌سازد تا تک تک شرکت‌کنندگان را برچسب‌گذاری کند و مشارکت‌های خاص آنها را در یک مکالمه شناسایی کند.
  • فیلتر کردن فحاشی در اینجا، نرم افزار کلمات و زبان نامطلوب را فیلتر می کند.

الگوریتم های مختلف تشخیص گفتار چیست؟

قدرت پشت ویژگی های تشخیص گفتار از مجموعه ای از الگوریتم ها و فناوری ها ناشی می شود. آنها شامل موارد زیر است:

  • مدل مارکوف پنهان. HMM ها در سیستم های مستقلی که وضعیت تا حدی قابل مشاهده است یا زمانی که تمام اطلاعات لازم برای تصمیم گیری فوراً در دسترس حسگر نیست (در مورد تشخیص گفتار، میکروفون) استفاده می شود. نمونه ای از این در مدل سازی آکوستیک است، جایی که یک برنامه باید واحدهای زبانی را با سیگنال های صوتی با استفاده از احتمال آماری مطابقت دهد.
  • پردازش زبان طبیعی. NLP فرآیند تشخیص گفتار را آسان و تسریع می کند.
  • N-گرم. این رویکرد ساده به مدل‌های زبان، توزیع احتمال را برای یک دنباله ایجاد می‌کند. یک مثال می تواند الگوریتمی باشد که به چند کلمه آخر گفته شده نگاه می کند، تاریخچه نمونه گفتار را تقریب می زند و از آن برای تعیین احتمال کلمه یا عبارت بعدی که گفته می شود استفاده می کند.
  • هوش مصنوعی. روش‌های هوش مصنوعی و یادگیری ماشین مانند یادگیری عمیق و شبکه‌های عصبی در نرم‌افزارهای تشخیص گفتار پیشرفته رایج هستند. این سیستم ها از دستور زبان، ساختار، نحو و ترکیب سیگنال های صوتی و صوتی برای پردازش گفتار استفاده می کنند. سیستم‌های یادگیری ماشینی با هر استفاده دانش به دست می‌آورند و آن‌ها را برای تفاوت‌های ظریف مانند لهجه‌ها مناسب می‌سازد.

مزایای تشخیص گفتار چیست؟

استفاده از نرم افزار تشخیص گفتار مزایای متعددی دارد که از جمله آنها می توان به موارد زیر اشاره کرد:

  • ارتباط ماشین با انسان این فناوری دستگاه های الکترونیکی را قادر می سازد تا با زبان طبیعی یا گفتار محاوره ای با انسان ارتباط برقرار کنند.
  • سریع و به راحتی قابل دسترس. این نرم افزار به طور مکرر در رایانه ها و دستگاه های تلفن همراه نصب می شود و به آن دسترسی پیدا می کند.
  • آسان برای استفاده. نرم افزاری که به خوبی طراحی شده است کارکرد ساده ای دارد و اغلب در پس زمینه اجرا می شود.
  • بهبود مستمر و خودکار. سیستم‌های تشخیص گفتار که هوش مصنوعی را در خود جای می‌دهند با گذشت زمان کارآمدتر و آسان‌تر می‌شوند. همانطور که سیستم ها وظایف تشخیص گفتار را کامل می کنند، داده های بیشتری در مورد گفتار انسان تولید می کنند و در کاری که انجام می دهند بهتر می شوند.

معایب تشخیص گفتار چیست؟

در حالی که فناوری تشخیص گفتار راحت است، هنوز چند مشکل برای حل کردن دارد. محدودیت ها عبارتند از:

  • عملکرد ناسازگار به دلیل تفاوت در تلفظ، عدم پشتیبانی از برخی زبان‌ها و ناتوانی در مرتب‌سازی نویز پس‌زمینه، ممکن است سیستم‌ها نتوانند کلمات را به‌طور دقیق ضبط کنند. سر و صدای محیط می تواند به ویژه چالش برانگیز باشد. آموزش آکوستیک می تواند به فیلتر کردن آن کمک کند، اما این برنامه ها کامل نیستند. گاهی اوقات نمی توان صدای انسان را جدا کرد.
  • سرعت. برخی از برنامه های تشخیص گفتار برای استقرار و تسلط به زمان نیاز دارند. پردازش گفتار ممکن است نسبتا کند احساس شود.
  • مشکلات فایل منبع موفقیت تشخیص گفتار به تجهیزات ضبط مورد استفاده بستگی دارد نه فقط نرم افزار.

سخن پایانی

تشخیص گفتار یک فناوری در حال تکامل است. این یکی از راه‌هایی است که افراد می‌توانند با کامپیوترها با تایپ کم یا بدون تایپ ارتباط برقرار کنند. انواع برنامه های کاربردی تجاری مبتنی بر ارتباطات بر راحتی و سرعت ارتباطات گفتاری که این فناوری امکان پذیر می کند، سرمایه گذاری می کنند.

برنامه‌های تشخیص گفتار در طول 60 سال توسعه بسیار پیشرفت کرده‌اند. آنها هنوز در حال بهبود هستند، به ویژه توسط هوش مصنوعی.

برای امتیاز به این نوشته کلیک کنید!
[کل: 0 میانگین: 0]

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا