تشخیص گفتار (speech recognition) چیست؟
تشخیص گفتار یا گفتار به متن، توانایی یک ماشین یا برنامه برای شناسایی کلماتی که با صدای بلند گفته می شود و تبدیل آنها به متن قابل خواندن است. نرم افزار تشخیص گفتار ابتدایی دایره واژگان محدودی دارد و ممکن است تنها زمانی کلمات و عبارات را شناسایی کند که به وضوح گفته شود. نرم افزار پیچیده تر می تواند گفتار طبیعی، لهجه های مختلف و زبان های مختلف را مدیریت کند. با ایران گواه همراه باشید.
تشخیص گفتار از طیف وسیعی از تحقیقات در علوم کامپیوتر، زبانشناسی و مهندسی کامپیوتر استفاده میکند. بسیاری از دستگاههای مدرن و برنامههای متمرکز بر متن دارای عملکردهای تشخیص گفتار هستند تا امکان استفاده آسانتر یا بدون هندز از دستگاه را فراهم کنند.
تشخیص گفتار و تشخیص صدا دو فناوری متفاوت هستند و نباید آنها را اشتباه گرفت:
- تشخیص گفتار برای شناسایی کلمات در زبان گفتاری استفاده می شود.
- تشخیص صدا یک فناوری بیومتریک برای شناسایی صدای افراد است.
تشخیص گفتار چگونه کار می کند؟
سیستم های تشخیص گفتار از الگوریتم های کامپیوتری برای پردازش و تفسیر کلمات گفتاری و تبدیل آنها به متن استفاده می کنند. یک برنامه نرم افزاری صدای ضبط شده توسط میکروفون را به زبان نوشتاری تبدیل می کند که رایانه ها و انسان ها می توانند آن را درک کنند، این چهار مرحله را دنبال می کند:
- تجزیه و تحلیل صدا؛
- آن را به قطعات تقسیم کنید؛
- دیجیتالی کردن آن به یک قالب قابل خواندن توسط کامپیوتر؛ و
- از یک الگوریتم برای تطبیق آن با مناسب ترین نمایش متن استفاده کنید.
نرم افزار تشخیص گفتار باید با ماهیت بسیار متغیر و خاص گفتار انسان سازگار باشد. الگوریتمهای نرمافزاری که صدا را در متن پردازش و سازماندهی میکنند، بر روی الگوهای گفتاری، سبکهای گفتاری، زبانها، گویشها، لهجهها و عبارتهای مختلف آموزش داده میشوند. این نرم افزار همچنین صدای گفتاری را از نویز پس زمینه که اغلب سیگنال را همراهی می کند جدا می کند.
برای برآوردن این الزامات، سیستم های تشخیص گفتار از دو نوع مدل استفاده می کنند:
- مدل های آکوستیک اینها نشان دهنده رابطه بین واحدهای زبانی گفتار و سیگنال های صوتی است.
- مدل های زبان در اینجا، صداها با توالی کلمات تطبیق داده می شوند تا بین کلماتی که به نظر شبیه هستند، تمایز قائل شوند.
تشخیص گفتار برای چه کاربردهایی استفاده می شود؟
سیستم های تشخیص گفتار کاربردهای بسیار کمی دارند. در اینجا نمونه ای از آنها آورده شده است.
دستگاه های موبایل. گوشی های هوشمند از دستورات صوتی برای مسیریابی تماس، پردازش گفتار به متن، شماره گیری صوتی و جستجوی صوتی استفاده می کنند. کاربران می توانند بدون نگاه کردن به دستگاه خود به یک متن پاسخ دهند. در آیفونهای اپل، تشخیص گفتار به صفحه کلید و سیری، دستیار مجازی قدرت میدهد. عملکرد در زبان های ثانویه نیز موجود است. تشخیص گفتار را میتوان در برنامههای پردازش کلمه مانند Microsoft Word نیز یافت، جایی که کاربران میتوانند کلمات را دیکته کنند تا به متن تبدیل شوند.
تحصیلات. در آموزش زبان از نرم افزار تشخیص گفتار استفاده می شود. این نرم افزار صحبت های کاربر را می شنود و برای تلفظ کمک می کند.
خدمات مشتری. دستیارهای صوتی خودکار به سؤالات مشتری گوش می دهند و منابع مفیدی را ارائه می دهند.
برنامه های کاربردی مراقبت های بهداشتی پزشکان می توانند از نرم افزار تشخیص گفتار برای رونویسی یادداشت ها در زمان واقعی در پرونده های مراقبت های بهداشتی استفاده کنند.
کمک به معلولیت نرمافزار تشخیص گفتار میتواند کلمات گفتاری را با استفاده از زیرنویسهای بسته به متن ترجمه کند تا به فردی که دچار کم شنوایی است قادر به درک آنچه دیگران میگویند، شود. تشخیص گفتار همچنین میتواند افرادی را که از دستهایشان محدود استفاده میکنند، قادر میسازد تا با استفاده از دستورات صوتی به جای تایپ کردن، با رایانه کار کنند.
گزارش دادگاه نرمافزار را میتوان برای رونویسی جلسات دادگاه استفاده کرد و نیاز به رونویسکنندههای انسانی را از بین برد.
تشخیص احساسات این فناوری می تواند ویژگی های صوتی خاصی را تجزیه و تحلیل کند تا مشخص کند گوینده چه احساسی دارد. همراه با تجزیه و تحلیل احساسات، این می تواند نشان دهد که شخص در مورد یک محصول یا خدمات چه احساسی دارد.
ارتباط بدون هندز. به عنوان مثال، رانندگان از کنترل صوتی برای ارتباطات هندزفری، کنترل تلفن، رادیو و سیستم های موقعیت یابی جهانی استفاده می کنند.
ویژگی های سیستم های تشخیص گفتار چیست؟
برنامه های تشخیص گفتار خوب به کاربران اجازه می دهد آنها را مطابق با نیازهای خود سفارشی کنند. ویژگی هایی که این امکان را فراهم می کند عبارتند از:
- وزن دهی زبان این ویژگی به الگوریتم میگوید که به کلمات خاصی مانند کلماتی که مکررا گفته میشوند یا منحصر به مکالمه یا موضوع هستند، توجه ویژه داشته باشد. به عنوان مثال، نرم افزار را می توان برای گوش دادن به مراجع خاص محصول آموزش داد.
- آموزش آکوستیک. این نرم افزار نویزهای محیطی را که صدای گفتاری را آلوده می کند، تنظیم می کند. برنامههای نرمافزاری با آموزش آکوستیک میتوانند سبک، سرعت و حجم صحبت را در میان هیاهوی بسیاری از افراد که در یک دفتر صحبت میکنند، تشخیص دهند.
- برچسب زدن بلندگو این قابلیت یک برنامه را قادر میسازد تا تک تک شرکتکنندگان را برچسبگذاری کند و مشارکتهای خاص آنها را در یک مکالمه شناسایی کند.
- فیلتر کردن فحاشی در اینجا، نرم افزار کلمات و زبان نامطلوب را فیلتر می کند.
الگوریتم های مختلف تشخیص گفتار چیست؟
قدرت پشت ویژگی های تشخیص گفتار از مجموعه ای از الگوریتم ها و فناوری ها ناشی می شود. آنها شامل موارد زیر است:
- مدل مارکوف پنهان. HMM ها در سیستم های مستقلی که وضعیت تا حدی قابل مشاهده است یا زمانی که تمام اطلاعات لازم برای تصمیم گیری فوراً در دسترس حسگر نیست (در مورد تشخیص گفتار، میکروفون) استفاده می شود. نمونه ای از این در مدل سازی آکوستیک است، جایی که یک برنامه باید واحدهای زبانی را با سیگنال های صوتی با استفاده از احتمال آماری مطابقت دهد.
- پردازش زبان طبیعی. NLP فرآیند تشخیص گفتار را آسان و تسریع می کند.
- N-گرم. این رویکرد ساده به مدلهای زبان، توزیع احتمال را برای یک دنباله ایجاد میکند. یک مثال می تواند الگوریتمی باشد که به چند کلمه آخر گفته شده نگاه می کند، تاریخچه نمونه گفتار را تقریب می زند و از آن برای تعیین احتمال کلمه یا عبارت بعدی که گفته می شود استفاده می کند.
- هوش مصنوعی. روشهای هوش مصنوعی و یادگیری ماشین مانند یادگیری عمیق و شبکههای عصبی در نرمافزارهای تشخیص گفتار پیشرفته رایج هستند. این سیستم ها از دستور زبان، ساختار، نحو و ترکیب سیگنال های صوتی و صوتی برای پردازش گفتار استفاده می کنند. سیستمهای یادگیری ماشینی با هر استفاده دانش به دست میآورند و آنها را برای تفاوتهای ظریف مانند لهجهها مناسب میسازد.
مزایای تشخیص گفتار چیست؟
استفاده از نرم افزار تشخیص گفتار مزایای متعددی دارد که از جمله آنها می توان به موارد زیر اشاره کرد:
- ارتباط ماشین با انسان این فناوری دستگاه های الکترونیکی را قادر می سازد تا با زبان طبیعی یا گفتار محاوره ای با انسان ارتباط برقرار کنند.
- سریع و به راحتی قابل دسترس. این نرم افزار به طور مکرر در رایانه ها و دستگاه های تلفن همراه نصب می شود و به آن دسترسی پیدا می کند.
- آسان برای استفاده. نرم افزاری که به خوبی طراحی شده است کارکرد ساده ای دارد و اغلب در پس زمینه اجرا می شود.
- بهبود مستمر و خودکار. سیستمهای تشخیص گفتار که هوش مصنوعی را در خود جای میدهند با گذشت زمان کارآمدتر و آسانتر میشوند. همانطور که سیستم ها وظایف تشخیص گفتار را کامل می کنند، داده های بیشتری در مورد گفتار انسان تولید می کنند و در کاری که انجام می دهند بهتر می شوند.
معایب تشخیص گفتار چیست؟
در حالی که فناوری تشخیص گفتار راحت است، هنوز چند مشکل برای حل کردن دارد. محدودیت ها عبارتند از:
- عملکرد ناسازگار به دلیل تفاوت در تلفظ، عدم پشتیبانی از برخی زبانها و ناتوانی در مرتبسازی نویز پسزمینه، ممکن است سیستمها نتوانند کلمات را بهطور دقیق ضبط کنند. سر و صدای محیط می تواند به ویژه چالش برانگیز باشد. آموزش آکوستیک می تواند به فیلتر کردن آن کمک کند، اما این برنامه ها کامل نیستند. گاهی اوقات نمی توان صدای انسان را جدا کرد.
- سرعت. برخی از برنامه های تشخیص گفتار برای استقرار و تسلط به زمان نیاز دارند. پردازش گفتار ممکن است نسبتا کند احساس شود.
- مشکلات فایل منبع موفقیت تشخیص گفتار به تجهیزات ضبط مورد استفاده بستگی دارد نه فقط نرم افزار.
سخن پایانی
تشخیص گفتار یک فناوری در حال تکامل است. این یکی از راههایی است که افراد میتوانند با کامپیوترها با تایپ کم یا بدون تایپ ارتباط برقرار کنند. انواع برنامه های کاربردی تجاری مبتنی بر ارتباطات بر راحتی و سرعت ارتباطات گفتاری که این فناوری امکان پذیر می کند، سرمایه گذاری می کنند.
برنامههای تشخیص گفتار در طول 60 سال توسعه بسیار پیشرفت کردهاند. آنها هنوز در حال بهبود هستند، به ویژه توسط هوش مصنوعی.