كامپیوترها هم حرف انسان را خواهند فهمید!
انجمن ناجی، اگر كامپیوترها قادر به تشخیص زبان گفتاری انسان ها باشند، شاید روزی بتوانیم برای وارد كردن دستورات از صدا و دستورات گفتاری به جای صفحه كلید استفاده كنیم.
اما اینكه كامپیوتر بتواند گفتار انسان را بخوبی تشخیص دهد، امری بسیار سخت به نظر میرسد، چراكه زبان محاوره ای تفاوت بسیار زیادی با زبان نوشتاری داشته و تنوع زبان گفتاری و اینكه هر زبانی هم دارای لهجههای متفاوتی است، خود معضل دیگری است (گردآوری : انجمن ناجی)
به گزارش انجمن ناجی هماكنون با سرمایهگذاری موسسه VERDIKT تحت نظارت شورای تحقیقاتی نروژ، پروفسور اسوندسن از دانشگاه NTNU نروژ و همكارانش در حال تست رویكرد ابداعی ـ ابتكاری برای خلق نسل بعدی تكنولوژی تشخیص گفتار هستند. محققان نروژی نشان دادهاند كه اساس تولید گفتار در همه زبانها یكسان است (گردآوری : انجمن ناجی) به این ترتیب این تكنولوژی بدون اتكا به دادههای گفتاری هر زبان قابل توسعه و به كار بردن برای تمرین ماشینهاست (گردآوری : انجمن ناجی)
محققان تحقیقاتشان را براساس مطالعه فونتیك یا مطالعه اصوات گفتار انسان انجام میدهند. همچنین اطلاعات اضافی دیگری همچون دانش زبان و گویشهای مختلفی را در بانك اطلاعاتی سیستم گنجاندند. تاكنون به منظور تشخیص گفتار دو رویكرد متفاوت شایعتر از بقیه بوده است؛ هر دو براساس استفاده از دادههای گفتاری و متون منبع، جهت آموزش به كامپیوتر برای تشخیص زبانهای مختلف بنا شده است (گردآوری : انجمن ناجی)
یك رویكرد انتقال قوانین استنتاجی در مورد كلمات و صداها به كامپیوتر است (گردآوری : انجمن ناجی) محققان معتقدند كه با آنالیز بخش كوچكی از یك سخنرانی میتوان تعیین كرد، صدای خاصی كه با تشدید بین 750 تا 1200 هرتز تلفظ شده مربوط به حرف A است و اگر میزان تشدید بین 350 تا 800 مگاهرتز باشد این صدا مربوط به حرف U است (گردآوری : انجمن ناجی)
رویكرد دوم این است كه آموزش به ماشین را فراموش كرده و با خوراندن نمونههای مختلف آوایی و گفتاری بتوان از طریق مقایسه و نمونهبرداری كامپیوتر را قادر به تشخیص گفتار كرد. در ابتدا ماشین تمام پیشامدهای صوتی محتمل را دریافت میكند، در این میان احتمال تفسیر رخدادهایی با فركانس بالاتر توسط ماشین و تفسیر آن به صوت نمونه بیشتر است (گردآوری : انجمن ناجی)
گروه تحقیقاتی رویكردی را انتخاب كرد كه بین این دو رویكرد سنتی قرار میگیرد، آنها اطمینان زیادی به رویكرد آماری دارند، از طرفی نیاز به توجه به الگوهای قابل پیشبینی در گفتار در دنیای واقعی نیز وجود دارد. در سیستم جدید شاهد تركیبی از یادگیری دادهمحور و رویكرد مبتنی بر قواعد هستیم.
الگوهای گفتار با توجه به فیزیولوژی، گویش، فرهنگ و سلامت افراد متفاوت بوده و همه اینها بر اصوات و تولید جملات تاثیر میگذارد. برای اینكه یك ماشین چگونگی درك این گفتار را بیاموزد باید قادر به تشخیص شایعترین تغییرات و اختلافات بین گفتار و زبان باشد.