تشخیص گفتار

  • از
تصویر تشخیص گفتار

تشخیص گفتار ، که به عنوان تشخیص خودکار گفتار (ASR) ، تشخیص گفتار رایانه ای یا گفتار به متن نیز شناخته می شود ، توانایی ای است که برنامه را قادر می سازد تا گفتار انسان را به صورت نوشتاری پردازش کند. تشخیص گفتار بر ترجمه گفتار از قالب کلامی به متن متمرکز است در حالی که تشخیص صدا فقط به دنبال شناسایی صدای یک کاربر است.

تشخیص گفتار ، توانایی دستگاه ها در پاسخ به دستورات گفتاری. تشخیص گفتار امکان کنترل بدون دست دستگاه ها و تجهیزات مختلف (یک مزیت خاص برای بسیاری از معلولان) را فراهم می کند ، ورودی خودکار را فراهم می کند و دیکته آماده چاپ را ایجاد می کند.

قبل از اینکه هر دستگاهی بتواند گفتار را تفسیر کند ، میکروفون باید ارتعاشات صدای شخص را به سیگنال الکتریکی موج دار تبدیل کند. این سیگنال به نوبه خود توسط سخت افزار سیستم – به عنوان مثال ، کارت صدای رایانه – به سیگنال دیجیتال تبدیل می شود. این سیگنال دیجیتالی است که یک برنامه تشخیص گفتار برای تشخیص واج های جداگانه ، بلوک های اساسی گفتار ، تجزیه و تحلیل می کند. سپس واج ها در کلمات ترکیب می شوند.

با این حال ، بسیاری از کلمات یکسان به نظر می رسند ، و برای انتخاب کلمه مناسب ، برنامه باید بر زمینه متکی باشد. بسیاری از برنامه ها زمینه را از طریق تجزیه و تحلیل سه ضلعی ایجاد می کنند ، روشی مبتنی بر پایگاه داده از خوشه های سه کلمه ای مکرر که در آن احتمال داده می شود که هر دو کلمه با یک کلمه سوم مشخص شده دنبال شود. به عنوان مثال ، اگر یک گوینده بگوید “من کی هستم” ، کلمه بعدی به جای ضرب المثل “من” به عنوان ضمیر “من” شناخته می شود. با این وجود ، گاهی اوقات برای تصحیح خطاها به مداخله انسان نیاز است.

READ  یادگیری عمیق

تشخیص گفتار یک زیر شاخه بین رشته ای از علوم رایانه و زبان شناسی محاسباتی است که روش ها و فناوری هایی را توسعه می دهد که تشخیص و ترجمه زبان گفتاری به متن توسط رایانه ها را امکان پذیر می کند. همچنین به عنوان تشخیص خودکار گفتار (ASR) ، تشخیص گفتار رایانه ای یا گفتار به متن (STT) شناخته می شود. این شامل دانش و تحقیقات در زمینه علوم کامپیوتر ، زبان شناسی و مهندسی کامپیوتر است.

رایج ترین کاربردهای تشخیص گفتار شامل استفاده از تشخیص گفتار در دستگاه های تلفن همراه است. به عنوان مثال ، افراد می توانند از این قابلیت در تلفن های هوشمند برای مسیریابی تماس ، پردازش گفتار به متن ، شماره گیری صوتی و جستجوی صوتی استفاده کنند. یک کاربر تلفن هوشمند می تواند از عملکرد تشخیص گفتار برای پاسخ دادن به متن بدون نیاز به نگاه کردن به تلفن خود استفاده کند.

در مورد مزایا و محدودیت های تشخیص گفتار می توان به موارد زیر اشاره کرد:

در حالی که فناوری تشخیص گفتار راحت است ، هنوز چند مشکل برای حل آن وجود دارد ، زیرا به طور مداوم در حال توسعه است. از مزایای نرم افزار تشخیص گفتار اینست که استفاده از آن آسان و در دسترس است. نرم افزار تشخیص گفتار در حال حاضر اغلب در رایانه ها و دستگاه های تلفن همراه نصب شده است و دسترسی آسان را امکان پذیر می کند.

جنبه منفی تشخیص گفتار شامل ناتوانی آن در ضبط کلمات بعلت تغییرات تلفظ ، عدم پشتیبانی از برخی زبانها و ناتوانی در مرتب سازی سر و صدای پس زمینه است. این عوامل می توانند منجر به عدم دقت شوند. برخی از نرم افزارهای تشخیص گفتار نیز ممکن است زمان ببرد و نسبتاً کند در پردازش گفتار احساس می شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.