近日,档案智能开发与服务国家档案局重点实验室研究员、武汉大学信息管理学院王平教授团队在国际计算语言学年会ACL 2024(findings)上发表题为“The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models”的人工智能音乐理解研究领域最新研究成果。ACL 年会是计算语言学和自然语言处理领域的国际排名第一的顶级学术会议,也是中国计算机学会(CCF)分类的A类会议。2023级武汉大学数据科学博士生李佳佳是论文的第一作者;王平教授是通讯作者;武汉大学为论文第一完成单位。
虽然已经提出了许多基准来评估LLM的能力,但缺乏专门用于评估其音乐能力的基准。为了弥补这一空白,我们推出了ZIQI-Eval,这是一个全面且大规模的音乐基准,专门设计用于评估LLM的音乐相关能力,为全面评估LLM提供新的维度。ZIQI-Eval涵盖了广泛的问题,包括10个主要类别和56个子类别,最终产生了超过14,000条精心策划的数据条目。通过利用ZIQI-Eval,我们对16个基于 API 的模型和开源模型进行了全面评估,以分析LLM在音乐领域的表现。

图1: ZIQI-Eval任务概述

图2:LLM在性别偏见和种族偏见方面的表现。
图3:ZIQI-Eval中音乐理解测试和音乐生成测试的主要结果(%)
结果表明,只有GPT-4能够有效地理解和生成音乐,达到了平均准确率,这表明现有的LLM还有很大的改进空间。通过ZIQI-Eval提供一个标准化且稳健的评估框架,该基准测试的开发将有助于推动LLM在音乐领域的发展和应用。
该研究获得了国家自然科学基金、湖北省自然科学基金、中央高校基金等项目的资助。