检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

docinfo
IdentifierCN202410458774.2
DateStamp2024-09-11T21:01:36.900Z
setSpec

Title

一种用于机床调试的语音辅助系统及其控制方法


Creator
黄家坤刘立全孙萌张海英王绍群郭梓琳仲丹丹赵亚莉

Description

本发明公开了一种用于机床调试的语音辅助系统及其控制方法,涉及机床维护技术领域,该系统包括以下组成部分:语音识别模块:用于接收用户的语音指令,并将语音指令转化为文字信息;数据库模块:用于存储机床的各种操作指令、调试流程、故障信息,以便系统快速获取相关信息,本发明通过语音辅助系统使得操作人员能够通过语音向机床发出指令,而无需手动输入或查找相关操作,这种直接的语音交互方式极大地简化了操作流程,减少了操作步骤,从而提高了操作效率,同时,系统能够快速地从数据库中获取相关信息,减少了操作人员查找资料的时间,进一步提高了工作效率。

1.一种用于机床调试的语音辅助系统,其特征在于,该系统包括以下组成部分: 语音识别模块:用于接收用户的语音指令,并将语音指令转化为文字信息; 数据库模块:用于存储机床的各种操作指令、调试流程、故障信息,以便系统快速获取相关信息; 机床控制模块:根据识别出的用户指令,向机床发送相应的控制指令; 语音合成模块:将机床的当前状态、操作结果信息以语音的形式反馈给用户。 2.根据权利要求1所述的用于机床调试的语音辅助系统,其特征在于,所述语音识别模块的具体实施步骤: (1)声音采集:通过麦克风或其他声音采集设备接收用户的语音指令; (2)预处理:对采集到的语音信号进行降噪、去回声的预处理操作; (3)特征提取:利用语音信号处理技术提取语音信号的声学特征; (4)语音识别:将提取的声学特征与预先训练的语音识别模型进行比对,识别出语音指令对应的文字信息。 3.根据权利要求2所述的用于机床调试的语音辅助系统,其特征在于,所述语音识别模块中采用MFCC算法进行特征提取,其中MFCC算法涉及傅里叶变换、Mel滤波器组和离散余弦变换,其中数学公式为:和其中,X”k”是语音信号的傅里叶变换,M”i”是Mel滤波器组的输出,C”n”是MFCC系数。 4.根据权利要求2所述的用于机床调试的语音辅助系统,其特征在于,所述语音识别模块中利用RNN模型进行语音识别,其中RNN模型数学公式为:ht=σ(Whhht-1+Whxxt+bh)和yt=softmax(Wohht+bo),其中,ht是RNN在时刻t的隐藏状态,xt是输入特征,yt是输出概率分布,σ是激活函数(如tanh或ReLU),softmax是用于多分类输出的函数。 5.根据权利要求1所述的用于机床调试的语音辅助系统,其特征在于,所述数据库模块具体实施步骤: (1)数据收集:收集机床的各种操作指令、调试流程、故障信息,对收集到的数据进行清洗和整理,确保数据的准确性和一致性; (2)数据存储:将收集到的数据存储到数据库中,通常使用关系型数据库(如MySQL、Oracle),建立相应的数据表,并设计合理的字段和数据类型,为了加速查询,建立必要的索引,如B树索引; (3)数据维护:定期对数据库进行备份,以防数据丢失,监控数据库的性能和健康状况,及时处理潜在的问题,根据需要更新和优化数据库结构。 6.根据权利要求1所述的用于机床调试的语音辅助系统,其特征在于,所述机床控制模块具体实施步骤: (1)指令解析:从语音识别模块接收文字指令,使用自然语言处理(NLP)技术解析指令的含义和参数; (2)指令映射:根据预设的规则或查表方式,将解析后的文字指令映射为机床的实际控制指令,映射规则可能涉及指令的格式转换和参数调整; (3)指令发送:将映射后的控制指令通过机床的通信接口(如串口、网口)发送出去,遵循特定的通信协议(如Modbus、TCP/IP)确保指令的正确传输。 7.根据权利要求1所述的用于机床调试的语音辅助系统,其特征在于,所述语音合成模块具体实施步骤: (1)文本分析:分析机床的当前状态和操作结果的文本信息,提取需要合成的语音内容的关键信息; (2)语音合成:使用基于深度学习的文本到语音(TTS)模型进行语音合成,将文本信息作为输入,模型输出对应的语音波形。 8.根据权利要求7所述的用于机床调试的语音辅助系统,其特征在于,所述TTS模型进行语音合成包括如下步骤: (1)文本编码:文本编码是将输入的文本序列转换为模型能够处理的数值表示,这通常涉及到字符或词的嵌入(embedding)技术,数学公式:假设文本序列为W=(w1,w2,…,wN),其中N是文本序列的长度。每个词wi通过嵌入层转换为向量表示ei,ei=Embedding(wi),嵌入层通常是一个查找表(lookuptable),它将每个词映射到一个固定维度的向量; (2)声学模型:声学模型负责预测文本序列对应的声学特征,如音素、音调、时长,这通常使用循环神经网络(RNN)、长短时记忆网络(LSTM)、Transformer结构来实现,数学公式:假设文本嵌入序列为E=(e1,e2,…,eN),声学模型逐步处理这些嵌入向量,并输出声学特征序列A=(a1,a2,…,aM),其中M是声学特征序列的长度,对于RNN或LSTM,每一步的隐藏状态更新可以表示为:ht=RNN/LSTM(ht-1,et),声学特征的预测通常基于当前和之前的隐藏状态:at=OutputLayer(ht),其中,OutputLayer是一个全连接层,用于将隐藏状态映射到声学特征空间。 9.根据权利要求8所述的用于机床调试的语音辅助系统,其特征在于,所述TTS模型进行语音合成还包括如下步骤: (1)声码器:声码器根据声学特征生成语音波形,现代的声码器如Tacotron、WaveNet能够生成高质量的语音信号,数学公式:声码器通常使用复杂的神经网络结构来生成语音波形,以WaveNet为例,它使用因果卷积和门控单元来生成波形样本,对于每个时间步t,WaveNet预测下一个样本点xt的概率分布:P(xt∣x1:t-1)=WaveNet(x1:t-1),其中,x1:t-1是之前生成的样本序列,WaveNet通过堆叠多个因果卷积层来捕捉语音信号的长期依赖关系; (2)语音合成:声码器生成的语音波形经过后处理(如降噪、音质改善)后,输出为可听的语音。 10.根据权利要求1所述的用于机床调试的语音辅助方法,其特征在于,所述该方法包括如下步骤: (1)用户通过语音向系统发出调试指令; (2)语音识别模块接收用户的语音指令,并将其转化为文字信息; (3)系统将转化后的文字信息与数据库中的指令进行比对,识别出用户的具体需求; (4)根据识别出的用户需求,机床控制模块向机床发送相应的控制指令; (5)机床执行控制指令,完成相应的调试操作; (6)语音合成模块将机床的当前状态、操作结果信息以语音的形式反馈给用户。


Publisher

山东金精智能制造有限公司


Date

2024-06-21

2024-04-17


Type

专利


Identifier

https://d.wanfangdata.com.cn/patent/CN202410458774.2

CN202410458774.2

CN118230739A


Language

zh


Source

万方数据库


Coverage

G10L15/26(2006.01)

G10L15/22(2006.01)

G10L25/24(2013.01)

G10L15/16(2006.01)

G10L19/16(2013.01)

G

G10

G10L

G10L15

G10L25

G10L19

G10L15/26

G10L15/22

G10L25/24

G10L15/16

G10L19/16