《N-Gram Unsupervised Compoundation and Feature Injection for Better Symbolic Music Understanding》
发布时间:2024-02-26       发布者:       浏览次数:

传统音乐AI技术多聚焦于音频信号的理解,而本研究的亮点在于其针对符号化音乐理解的创新方法。该论文在音乐理解领域引入了N-Gram理论,推出了一种独特的无监督复合词技术(UCW),旨在深化对符号化音乐的理解。并且在模型结构层面推出了NG-Midiformer模型,它融合了N-Gram Transformer编码器的特点,极大地增强了模型对音乐符号的识别和处理能力。


1  REMI、CP和UCW之间的关系和区别


通过应用深度学习和N-Gram技术,NG-Midiformer能够更深入地分析音乐序列,有效地捕捉音乐元素间的微妙联系。此外,本研究还引入了特征注入的方法,将额外的音乐特征信息融入到模型中。这些特征可以包括音乐的风格、情感等方面的信息,有助于提高对音乐的理解和生成。通过使用N-Gram无监督复合和特征注入的方法,本研究成功地解决了符号音乐理解和生成中的一些问题。这些方法可以提高对音乐的结构和特征的理解,从而更好地生成符合特定风格和情感的音乐。它在多个公开数据集上表现出色,达到了行业领先的效果。


图2  N-gram Transformer编码器整体架构


该论文为符号音乐理解领域提供了新的研究视角和方法。其结合自然语言处理技术和音乐领域的特殊需求,为AI在音乐理解上的应用创造了新的手段。该研究获得了国家自然科学基金、湖北省自然科学基金、中央高校基金等项目的资助。