专利 一种基于内窥相机的口腔识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211121977.X (22)申请日 2022.09.15 (71)申请人上海机器人产业技术研究院有限公司地址 200063 上海市普陀区武宁路5 09号18 楼 (72)发明人周梅杰　曹俊　熊学胜　王立刚　 (74)专利代理机构上海璀汇知识产权代理事务所(普通合伙) 31367 专利代理师王文颖 (51)Int.Cl. G06T 7/00(2017.01) G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/77(2022.01)G06V 10/82(2022.01) (54)发明名称一种基于内窥相机的口腔识别方法 (57)摘要本发明提供了一种基于内窥相机的口腔识别方法，从内窥镜采集的口咽图像中语义分割得到具体的组织图像，进而进行相应部位的空间精定位。本发明预先对少量采集的口咽样本图像进行标注，并使用注意力机制对感兴趣区域图像中关联像素进行标注得到标注集。本发明仅根据口咽组织空间结构的先验知识，高效率地进行推理计算；改进了神经网络结构，对口咽部位特征信息进行全局性提取和整合，从而全局地感知不同口咽部位的关联度，使得解析结果的精度更高，有效地消除分割误差；采用改进的单次标签分割结果，提高整体输出的分割结果精度，可满足口腔采样对于临床识别定位精度的要求。权利要求书2页说明书4页附图1页 CN 115471471 A 2022.12.13 CN 115471471 A 1.一种基于内窥相机的口腔识别方法，通过内窥相机对口腔进行识别和定位，其特征在于，包括以下步骤：步骤1：通过内窥镜相机获得原始口咽图像，同时，获得经过少量标注后的分割真值图；步骤2：对预处理后的原始口咽图像，使用图神经网络生成粗定位结构解析图，并计算得到各个口咽特征部位的分割子掩码；步骤3：根据口咽先验的层次结构组织知识，定义出语义类目和标签层次结构信息，进一步定义出邻接变换矩阵，作为输入图神经网络结构的掩膜。步骤4：利用各个口咽特征部位的分割子掩码，以及步骤3定义的语义类目和标签层次解构结构信息，将高维的粗解析图嵌入表示为具有空间关联关系的图特征。步骤5：利用步骤4获得的图特征和步骤3获得的邻接变换矩阵，通过图神经网络结构对全局语义信息进行进一步推理、传播，提取出新的分解图特征；步骤6：使用步骤5获得的新的分解图特征和各个口咽特征部位的分割子掩码，得到中间层的结构解析图，将其与步骤2得到的粗定位结构解析图进行融合得到精定位结构解析图；步骤7：利用所述预处理后的原始人体图像，在图神经网络的编码解码结构中重复上述步骤2、步骤4、步骤5以及步骤6进行训练，形成最终口咽关键结构解析模型；步骤8：输入待处理口咽图像到最终口咽关键结构解析模型中，得到需要的精解析图。 2.如权利要求1所述的一种基于内窥相机的口腔识别方法，其特征在于，步骤1中，对原始口咽图像做预处理。 3.如权利要求2所述的一种基于内窥相机的口腔识别方法，其特征在于，所述预处理包括以下步骤：步骤101：对原始口咽图像，做不同照度、对比度处理，并进行图像变换操作；步骤102：做颜色归一化处理，且将图像尺寸处理成统一大小；步骤103：做数据增强操作，使图像的左、右两边翻转，以达到处理左右两边部位位置的正确解析。 4.如权利要求1所述的一种基于内窥相机的口腔识别方法，其特征在于，所述步骤2具体包括以下步骤：将口咽图像输入到图神经网络中，由图神经网络中的卷积层处理后得到特征图；图神经网络中的空间卷积池化金字塔层对特征图以不同采样率进行空洞卷积并行采样，以不同比例捕捉特征图的上下文信息，生成粗定位结构解析图。 5.如权利要求4所述的一种基于内窥相机的口腔识别方法，其特征在于，所述图神经网络具体机制为：给定一维的嵌入序列作为输入，使用一个基于纯Transformer的编码器进行特征表示， Tr ansformer编码器由多头自注意力模块和多层感知机组成。在第一层中，自注意力的输入是一个从输入计算得到三维元组(query,key,value)： query＝Zl‑1WQ key＝Zl‑1WK value＝Zl‑1WV 其中， WQ、 WK、 WV为三个线性投影层的可学习参数， Zl‑1表示Transformer编码器的第l ‑1 层的输出；权　利　要　求　书 1/2 页 2 CN 115471471 A 2自注意力表示为：而多头自注意力则是由多个自注意力操作拼接起来然后投影得到，然后多头自注意力的输出被一个带有残差跳跃连接的多层感知机块进行转换： Zl＝MSA(Zl‑1)+MLP(MSA(Zl‑1))∈RL×C 从而得到Transformer各层的输出：其中， MSA表示利用多个查询，平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分，然后再进行拼接， MLP表示多层感知器，映射一组输入向量到一组输出向量。权　利　要　求　书 2/2 页 3 CN 115471471 A 3

专利 一种基于内窥相机的口腔识别方法

专利一种基于内窥相机的口腔识别方法