说明:最全电力标准
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211121977.X (22)申请日 2022.09.15 (71)申请人 上海机器人产业 技术研究院有限公 司 地址 200063 上海市普陀区武宁路5 09号18 楼 (72)发明人 周梅杰 曹俊 熊学胜 王立刚  (74)专利代理 机构 上海璀汇知识产权代理事务 所(普通合伙) 31367 专利代理师 王文颖 (51)Int.Cl. G06T 7/00(2017.01) G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/77(2022.01)G06V 10/82(2022.01) (54)发明名称 一种基于内窥相机的 口腔识别方法 (57)摘要 本发明提供了一种基于内窥相机的口腔识 别方法, 从内窥镜采集的口咽图像中语义分割得 到具体的组织图像, 进而进行相应部位的空间精 定位。 本发 明预先对少量采集的口咽样本图像进 行标注, 并使用注意力机制对感兴趣区域图像中 关联像素进行标注得到标注集。 本发 明仅根据口 咽组织空间结构的先验知识, 高效率地进行推理 计算; 改进了神经网络结构, 对口咽部位特征信 息进行全局性提取和整合, 从而全局地感知不同 口咽部位的关联度, 使得解析结果的精度更高, 有效地消除分割误差; 采用改进的单次标签分割 结果, 提高整体输出的分割结果精度, 可满足口 腔采样对于临床识别定位精度的要求。 权利要求书2页 说明书4页 附图1页 CN 115471471 A 2022.12.13 CN 115471471 A 1.一种基于内窥相机的口腔识别方法, 通过内窥相机对口腔进行识别和定位, 其特征 在于, 包括以下步骤: 步骤1: 通过内窥镜相机获得原 始口咽图像, 同时, 获得 经过少量标注后的分割真值图; 步骤2: 对预处理后的原始口咽图像, 使用图神经网络生成粗定位结构解析图, 并计算 得到各个口咽特 征部位的分割子掩码; 步骤3: 根据口咽先验的层次结构组织知识, 定义出语义类目和标签层次结构信息, 进 一步定义出邻接变换矩阵, 作为输入图神经网络结构的掩膜。 步骤4: 利用各个口咽特征部位的分割子掩码, 以及步骤3定义的语义类目和标签层次 解构结构信息, 将高维的粗 解析图嵌入表示 为具有空间关联关系的图特 征。 步骤5: 利用步骤4获得的图特征和步骤3获得的邻 接变换矩阵, 通过图神经网络结构对 全局语义信息进行进一 步推理、 传播, 提取 出新的分解图特 征; 步骤6: 使用步骤5获得的新的分解图特征和各个口咽特征部位的分割子掩码, 得到中 间层的结构解析图, 将其与步骤2得到的粗定位结构解析图进行融合得到精定位结构解析 图; 步骤7: 利用所述预处理后的原始人体图像, 在图神经网络的编码解码结构中重复上述 步骤2、 步骤4、 步骤5以及步骤6进行训练, 形成最终口咽关键结构解析模型; 步骤8: 输入待处 理口咽图像到最终口咽关键结构解析模型中, 得到需要的精解析图。 2.如权利要求1所述的一种基于 内窥相机的口腔识别方法, 其特征在于, 步骤1中, 对原 始口咽图像做预处 理。 3.如权利要求2所述的一种基于内窥相机的口腔识别方法, 其特征在于, 所述预处理包 括以下步骤: 步骤101: 对原 始口咽图像, 做不同照度、 对比度处 理, 并进行图像 变换操作; 步骤102: 做颜色归一 化处理, 且将图像尺寸处 理成统一大小; 步骤103: 做数据增强操作, 使图像的左、 右两边翻转, 以达到处理左右两边部位位置的 正确解析。 4.如权利要求1所述的一种基于内窥相机的口腔识别方法, 其特征在于, 所述步骤2具 体包括以下步骤: 将口咽图像输入到 图神经网络中, 由图神经网络中的卷积层处理后得到特征图; 图神 经网络中的空间卷积池化金字塔层 对特征图以不同采样率进 行空洞卷积并行采样, 以不同 比例捕捉特 征图的上 下文信息, 生成粗定位结构解析图。 5.如权利要求4所述的一种基于内窥相机的口腔识别方法, 其特征在于, 所述图神经网 络具体机制为: 给定一 维的嵌入序列作为输入, 使用一个基于纯Transformer的编码器进行 特征表示, Tr ansformer编码器由多头自注意力模块和多层感知机组成。 在第一层中, 自注 意力的输入是一个从输入计算得到三维元组(query,key,value): query=Zl‑1WQ key=Zl‑1WK value=Zl‑1WV 其中, WQ、 WK、 WV为三个线性投影层的可学习参数, Zl‑1表示Transformer编码器的第l ‑1 层的输出;权 利 要 求 书 1/2 页 2 CN 115471471 A 2自注意力表示 为: 而多头自注意力则是由多个自注意力操作拼接起来然后投影得到, 然后多头自注意力 的输出被一个带有残差 跳跃连接的多层感知机块进行转换: Zl=MSA(Zl‑1)+MLP(MSA(Zl‑1))∈RL×C 从而得到Transformer各层的输出: 其中, MSA表示利用多个查询, 平行 地计算从输入信息中选取多个信息, 每个注意力 关注输入信息的不同部分, 然后再进行拼 接, MLP表示多层感知器, 映射 一组输入向量到一组输出向量。权 利 要 求 书 2/2 页 3 CN 115471471 A 3

.PDF文档 专利 一种基于内窥相机的口腔识别方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于内窥相机的口腔识别方法 第 1 页 专利 一种基于内窥相机的口腔识别方法 第 2 页 专利 一种基于内窥相机的口腔识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生 于 2024-02-07 20:38:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。