Здравствуйте Николай,
хотел спросить - как определять количество seno's нужное для создания
акустической модели?
например, если записать 3 дорожки "да нет да нет нет да да нет да нет нет нет"
(длиной по секунд 6) то 1 seno ему кажется слишком много:
ERROR: "gauden.c", line 1670: Variance (mgau= 2, feat= 0, density=1, component=2) is less then 0. Most probably the number of senones is too high for such a small training database. Use smaller $CFG_N_TIED_STATES.
,
если те же три дорожки записать по 12 секунд (с тем же текстом, но с бОльшими
паузами) то теперь 1 seno подходит, но возникает небольшое предупреждение:
Current Overall Likelihood Per Frame = 3.16763457968709
Convergence ratio = -3.17805621850967
*WARNING*: NEGATIVE CONVERGENCE RATIO! CHECK YOUR DATA AND TRASNCRIPTS
Likelihoods have converged! Baum Welch training completed!
если записать 35 дорожек до 1 секунды каждая, (17 "да" и 18 "нет") - то можно
и 10 и 50 выставить, ругаться не будет, но при этом возникает ошибка при
проверке только что созданной акустики:
Debug Error!
Program:
.......\pocketsphinx_batch.exe
HEAP CORRUPTION DETECTED: after Normal block (#967) at
0x01E2FD70.
CRT detected that the application wrote to memory after end of heap buffer.
хотя когда это окно закрываю, пишет результат, как обычно.
подскажите пожалуйста, что не так
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
А если цель просто сделать распознавалку именно для "да" и "нет" - чтобы
другие произнесенные слова игнорировались - как это лучше сделать? я использую
параметр -jsgf и файл грамматики
-hmm msu_ru_nsh.cd_cont_1000_8gau_16000 -jsgf my.gram -dict yesno.dic
результат хороший достаточно. тоесть получается чтобы свести к нулю влияние
других слов и фраз на распознавание- нужно делать как можно большую мусорную
модель?
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
Здравствуйте Николай,
хотел спросить - как определять количество seno's нужное для создания
акустической модели?
например, если записать 3 дорожки "да нет да нет нет да да нет да нет нет нет"
(длиной по секунд 6) то 1 seno ему кажется слишком много:
,
если те же три дорожки записать по 12 секунд (с тем же текстом, но с бОльшими
паузами) то теперь 1 seno подходит, но возникает небольшое предупреждение:
если записать 35 дорожек до 1 секунды каждая, (17 "да" и 18 "нет") - то можно
и 10 и 50 выставить, ругаться не будет, но при этом возникает ошибка при
проверке только что созданной акустики:
хотя когда это окно закрываю, пишет результат, как обычно.
подскажите пожалуйста, что не так
Перед тем, как приступить к тренировке модели нужно ознакомиться с
руководством
http://cmusphinx.sourceforge.net/wiki/tutorialam
Кажется имеется в виду адаптация базовой акустической модели...спасибо, буду
пробовать..странно что не заметил, хотя читал несколько раз)
Если цель тренировки состоит в создании общей мусорной модели для обработки
слов не из словаря, то адаптация тут не поможет.
А если цель просто сделать распознавалку именно для "да" и "нет" - чтобы
другие произнесенные слова игнорировались - как это лучше сделать? я использую
параметр -jsgf и файл грамматики
-hmm msu_ru_nsh.cd_cont_1000_8gau_16000 -jsgf my.gram -dict yesno.dic
результат хороший достаточно. тоесть получается чтобы свести к нулю влияние
других слов и фраз на распознавание- нужно делать как можно большую мусорную
модель?
да