aisound5用户简单文本标记手册,被语音代码烦到的朋友可以进来看一看

科大讯飞为了TTS合成效果更好,用户可自行控制合成效果,我们提供了一套标记设置,通过这些标记可完善我们的TTS合成效果,用户也可以自行设置如何合成,例:123合成数值还是数字,通过文本标注[n*],用户即可设置朗读方式了。详细情况如下:


1.设置文本范围为非受限集


格式:[]


说明:默认为没有特殊处理。


2.保留


格式:[c*](*=数值)


说明:请勿在文本中包含这样的标记。


3.恢复默认的合成参数


格式:[d]


说明:不能恢复语种和发音人,其他参数都可以恢复。


4.设置音效模式


格式:[e*](*=0/1/2/3/4/5/6/7)


参数:0–关闭


1–忽远忽近


2–回声


3–机器人


4–合唱


5–水下


6–混响


7–阴阳怪气


说明:默认为关闭。


5.设置发音风格


格式:[f*](*=0/1/2)


参数:0–一字一顿


1–平铺直叙


2–有声有色


默认为平铺直叙风格。


6.选择语种


格式:[g*](*=0/1/2)


参数:0–自动判断


1–汉语普通话


2–英语语种


3–法语


说明:默认语种为自动判断。


7.设置单词发音方式


格式:[h*](*=0/1/2)


参数:0–自动判断单词发音方式


1–字母发音方式


2–单词发音方式


说明:默认单词为自动判断。


8.设置输入文本对汉语拼音/英语音标的识别


格式:[i*](*=0/1)


参数:0–不识别汉语拼音/英语音标


1–将“英文单词+1位数字”识别为汉语拼音,其他字母和


音标形式识别为英语音标


说明:默认为不识别汉语拼音/英语音标。


9.保留


声调用后接一位数字1~5分别表示阴平、阳平、上声、去声和轻声5个声调。有些拼音的标注方法和正常写法不一致,如下:ê–ehm–fmn–fnng–fng英语音标采取当前代码页的音标字母编码。


格式:[j*](*=数值)


说明:请勿在文本中包含这样的标记。


10.模式控制标记


格式:[k*](*=0/1/2/3)


参数:0–设置为普通模式


1–设置为导航模式


2–设置为手机模式


3–设置为教育模式


说明:默认设置为客户定制模式。


如果客户购买的资源里面有“普通模式”的资源,那么就能设置成功。


如果客户购买的资源里面有“导航模式”的资源,那么就能设置成功。


如果客户购买的资源里面有“手机模式”的资源,那么就能设置成功。


如果客户购买的资源里面有“教育模式”的资源,那么就能设置成功。


如果给定的应用模式的资源不存在,那么使用[k*]设置该应用模式无效。例如不存在手机模式资源,但是其他3个模式的资源都存在,那么设置、、有效,设置无效。


11.选择发音人


格式:[m*](*=1~25/51~56/99)


参数:1–天畅


2–文静


3–晓燕


4–小峰


5–Sherri


6–晓晋


7–楠楠


8–晓婧


9–嘉嘉


10–玉儿


11–晓倩


12–老马


13–Bush14–晓蓉15–晓美16–安妮17–John18–Anita19–Terry20–Catherine21–TerryW22–晓琳23–晓梦24–小强25–小坤51–许久52–许多53–晓萍54–唐老鸭55–许宝宝56–大龙99–用户自定义


说明:默认的发音人根据配置确定。


12.选择中文发音人


格式:[mc*](*=1~25/51~56/99)


说明:设置中文(包括中英文混读)发音人,默认的发音人根据配置确定。


13.选择英文发音人


格式:[me*](*=1~25/51~56/99)


说明:设置英文发音人,默认的发音人根据配置确定。


14.设置数字处理策略


格式:[n*](*=0/1/2)


参数:0–自动判断


1–数字作号码处理


2–数字作数值处理


默认为自动判断。


15.英文数字0的朗读设置


格式:[o*](*=0/1)


参数:0–英文数字0读做“O”


1–英文数字0读做“zero”


说明:默认为英文数字0读做“zero”。


注意:0只有作为号码朗读时,标记才会生效,0处理为数值时,一律读作zero。


16.静音一段时间


格式:[p*](*=无符号整数)


参数:*–静音的时间长度,单位:毫秒(ms)


17.设置姓名读音策略


格式:[r*](*=0/1)


参数:0–自动判断姓名读音


1–强制使用姓名读音规则


说明:默认为自动判断姓名读音。


18.设置语速


格式:[s*](*=0~10)


参数:*–语速值


对应到参数设置的值为6553*(值-5),即0对应到-32765,5对应到0,10对应到+32765。


说明:默认语速值为5,语速的调节范围为默认语速的一半到两倍,


即0的值比默认语速慢一半,10的值比默认语速快一倍。


19.设置语调


格式:[t*](*=0~10)


参数:*–语调值


对应到参数设置的值为6553*(值-5),即0对应到-32765,5对应到0,10对应到+32765。


默认语调值为5,语调的调节范围为默认语调基频下64Hz到


上128Hz。


20.设置音量


格式:[v*](*=0~10)


参数:*–音量值


对应到参数设置的值为6553*(值-5),即0对应到-32765,5对应到0,10对应到+32765。


说明:音量的调节范围为静音到音频设备支持的最大值,默认值5为


中间音量。


21.设置提示音处理策略


格式:[x*](*=0/1)


参数:0–不使用提示音


1–自动使用提示音


说明:默认为自动使用提示音。


22.设置汉语号码中“1”的读法


格式:[y*](*=0/1)


参数:0–合成号码时“1”读成“yāo”


1–合成号码时“1”读成“yī”


说明:默认合成号码时“1”读成“yāo”。


23.设置韵律标注处理策略


格式:[z*](*=0/1)


参数:0–不处理韵律标注


1–处理韵律标注


说明:默认不处理韵律标注。韵律标注使用“*”标出音步划分位置,


使用“#”标出呼吸群划分位置。


24.为单个汉字/单词强制指定拼音/音标


格式:[=*](*=拼音/音标)


参数:*–为前一个汉字/单词设定的拼音/音标


汉字:声调用后接一位数字1~5分别表示阴平、阳平、上声、


去声和轻声5个声调。该标记只能放在非汉语拼音的汉语音节


之后指定拼音,连续出现时以最后一个为准。


PS:文本标记符全部是半角,字母必须是小写的英文字母,不符合要求的不作为文本标记。设置文本标记时,标记的位置很重要,如“读作800”就比“读


作800”的合成效果好,所以在使用时需注意,尽量放在朗读中有停顿的位置。有些拼音的标注方法和正常写法不一致,如下:ê–ehm–fmn–fnng–fng单词:音标格式为国际音标(IPA)。示例:“着[=zhuo2]手”,“着”字将读作“zhuó”,hello[=h?'lo]。


--------------------

发表于:2023-01-17 21:59
2个回复
您还没有登录,登录后才可回复。 登录 注册