声学模型与模式匹配 - 程序员宅基地

MetaAI语音翻译大模型Seamless登场，主打AI无缝同声传译

MetaAI发布的Seamless模型为我们展现出了惊人的同声传译效果，并且支持近 100 种语言，其中的多任务基础模型SeamlessM4T v2在多个语音基线上实现了SOTA性能，Seamless Expressive可以保证翻译时保留说话人的韵律和...

"声学非视线成像：便宜、快速捕获隐藏物体的3D形状

标签： 5个标签幅度声学非视线成像大学时间分辨光电探测器

1幅度声学非视线成像David B. 斯坦福大学戈登·韦茨斯坦斯坦福大学VladlenKoltun ... 我们引入了Az声学NLOS成像，它比大多数光学系统便宜几个数量级，并且以更短的采集时间在更长的范围内捕获隐藏的x3D几何形状与最先进

基于多目标多模板匹配的列车车辆自动化监测系统

标签：沙特国王大学学报列车车辆监测系统

沙特国王大学学报基于多目标多模板匹配自适应算法的N. Sasikalaa，P.V.V.基肖尔湾a电子和通信工程系，K.L....利用基于颜色和纹理的计算机视觉模型和可变形曲线分割模型识别运动列车的部件是一个具有挑

【NLP】语音识别 — GMM， HMM

标签：自然语言处理语音识别人工智能

现在，有将HMM与深度学习相结合的混合系统，并且有些系统是免费的HMM。我们现在有更多的设计选择。然而，对于许多生成模型来说，HMM仍然很重要。但无论状态如何，语音识别都有助于我们更好地理解HMM和GMM在ML环境中...

人工智能推测黑洞合并的高阶引力波模式：基于物理快报B 835（2022）137505的研究

标签：物理快报B 835 合并的高阶引力波模式国际理论科学中心

物理快报B 835（2022）137505人工智能和极端规模计算来学习和推断准圆形，旋转，非旋进黑洞合并的Asad Khana，b，c，E.A.Huertaa，b，d，Prayush Kumarea数据科学和学习部，阿贡国家实验室，Lemont，IL 60439，美国b...

大模型相关概念

标签：人工智能自然语言处理计算机视觉

一直在说大模型，虽然对大模型有一定的认知，但是一直没有很清晰的定位。这次我重新整理学习了一下，给大家分享一下。主要是一些名词的含义和应用场景。大家一起看一下。

LAS模型

标签：语音识别深度学习

1.论文出处 W. Chan, N. Jaitly, Q. Le and O. Vinyals, “Listen, attend and spell: A neural network for large vocabulary conversational speech recognition,” 2016 IEEE International Conference on ...

进阶课1——声纹识别

标签：人工智能语音识别深度学习

声纹识别是一种生物识别技术，也称为说话人识别，包括说话人辨认和说话人确认两种技术。该技术通过将声信号转换成电信号，再使用计算机进行识别，不同的任务和应用会使用不同的声纹识别技术

光学视觉的立体匹配问题具有搜索空间有限和遮挡区域的挑战

标签：线索走向可靠立体声佐治亚州立大学自监督双目深度估计单目深度估计

1939ChiTransformer：从线索走向可靠的立体声佐治亚州立大学[email protected]佐治亚州立大学[email protected]摘要当前的立体匹配技术受到搜索空间有限、遮挡区域和绝对尺寸的挑战。虽然单个图像深度估计免于这些挑战并且可以...

3D子断层图像对齐和平均化的几何无监督匹配网络

标签：文件的作者和机构

[email protected]@cs.cmu.edu摘要我们提出了一种几何无监督匹配网络（口香糖网），用于寻找两个图像之间的几何对应关系，并应用于3D亚断层图像对齐和平均。亚断层图像对齐是冷冻电子断层扫描（cryo-ET）...

深度神经网络模型压缩与加速研究综述

深度神经网络模型压缩与加速研究综述前言深度卷积神经网络(CNNs)近年来在许多视觉识别领域取得了巨大的成功。然而，现有的深度神经网络模型在计算上是昂贵的且内存是密集型的。这限制了他们在低配置的硬件上的...

语音识别的基础知识与CMUsphinx介绍

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。基于语音识别芯片的嵌入式产品也越来越多，如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音...

遗传算法在模式识别中的高效应用

标签：人工智能

# 1. 引言 ## 1.1 研究背景和意义模式识别是一种重要的信息处理技术，...在模式识别领域，通过将遗传算法与模式识别算法相结合，可以提高模式识别的性能和效果。 ## 1.2 文章结构概述本文将首先介绍遗传算法的基

语音识别的基本过程

标签：语音识别模式识别计算机

计算机语音识别过程与人对语音...2、声学模型与模式匹配：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征与声学模型（模式）进行匹配与比较，得到最佳的识别结果 3、语言模型与语言处理：

语音基石模型

标签：语音识别人工智能

语音基石模型课程学后感，以及自己的理解。

2023年大厂秋季校招整理

标签：学习音视频求职招聘

首先声明这篇文章主要整理的是音视频领域的

学习目标导向动作的模型和算法

标签：教学视频上下文建模基于模型的策略学习人类行为模型目标导向动作学习

与传统的动作识别相反，目标导向的动作基于其结果的期望，需要动作的潜在后果的因果知识因此，将环境结构与目标集成对于解决该任务至关重要。以往的作品学习单一的世界模型将无法区分各种任务，造成潜空间模糊不清;...

声带振动的生物力学模型拟合高速视频数据

标签：医学信息学声带振动分析生物力学模型高速视频数据视觉数据记录

医学信息学解锁20（2020）100373通过baidu估计将褶皱的生物力学模型拟合到高速视频数据Carlo Drioli*，Gian Luca Foresti乌迪内大学数学、计算机科学和物理系，乌迪内，33100，意大利A R T I C L EI N FO保留字：...

【AI视野·今日Sound 声学论文速览第一期】Thu, 14 Apr 2022

标签：音视频音视频学习结构健康监测

AI视野·今日CS.Sound 声学论文速览

动画鱼类模型，研究行为，科学直接获取

标签：在线获取原始软件开源软件平台动画鱼类模型行为研究

可在www.sciencedirect.com上在线获取ScienceDirectSoftwareX 3原始软件出版物www.elsevier.com/locate/softxanyFish 2.0：一个开源软件平台，用于生成和共享动画鱼类模型，以研究行为Spencer J. Ingleya，Cheng，...

"基于Beta椭圆模型的签名隐写图像系统

标签：工程科学与技术签名隐写文档图像实验室方案文档图像保护

工程科学与技术，国际期刊23（2020）470完整文章SSDIS-BEM：一种新的基于Beta椭圆模型的签名隐写文档图像AnissaZenati，Wael Ouarda，Adel M.阿里米实验室方案：智能机器研究组，斯法克斯大学，斯法克斯国家工程学院...

基于图像的深度学习模型估计城市降雨强度的研究

标签：深度学习模型降雨强度估计水利工程研究基于图像的模型城市洪水风险

工程21（2023）162研究水利工程―文章使用基于图像的深度学习模型估计降雨强度尹航a，郑菲菲a，段焕锋b，萨维奇c，d，e，卡普兰d，fa浙江大学土木工程与建筑学院，浙江杭州310003b香港理工大学土木及环境工程系，...

声学传感技术综述 (A survey on acoustic sensing)

标签：定位传感器

A survey on acoustic sensing前言AbstractIntroduction 前言最近要开题了,多看看和翻译下相关工作的综述.有助于拓宽视野也能顺带练习英语. 今天翻译的是<< A survey on acoustic sensing>...

BERT模型对标签噪声的鲁棒性研究

标签：数据质量标签噪声噪声处理方法 NLP模型性能评估

+v：mala2277获取更多论文BERT对标签噪声鲁棒吗？文本分类作者：Michael A....已经表明，需要复杂的噪声处理技术-通过建模、清理或过滤噪声实例-来防止模型拟合该标签噪声。然而，我们在这项工作中表明，对于使用BER

虚拟现实技术知识点总结

虚拟现实技术是指采用以计算机技术为核心的现代高新技术，生成逼真的视觉、听觉、触觉一体化的虚拟环境，参与者可以借助必要的装备，以自然的方式与虚拟环境中的物体进行交互，并相互影响，从而获得等同真实...

Atitit 语音识别的技术原理

一种用于人机对话的神经检索模型

标签：跟踪认知计算 WWW 2018 法国里昂人机对话神经检索模型北京大学

跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂305一种用于人机对话的神经检索模型瑞燕北京大学中国北京[email protected]摘要建立一个人与计算机之间的自动对话系统被认为是计算机科学中最核心的问题之...

浅析多语种语音识别Multi-lingual ASR挑战

标签：语音识别机器学习人工智能

从Whisper的成功可以看出，多语种数据对于提升ASR系统的多语种识别的重要性。

人工智能术语翻译（一）