新闻资讯
「译」 用 Word2vec 表现音乐?
发布时间:2021-03-25 07:19
  |  
阅读量:
字号:
A+ A- A
本文摘要:[译] 用 Word2vec 表现音乐?原文地址:Representing music with Word2vec?原文作者:Dorien Herremans译文出自:翻译计划本文永久链接:github.com/xitu/gold-m…译者:Minghao23校对者:lsvih机械学习算法在视觉领域和自然语言处置惩罚领域已经带来了很大的改变。可是音乐呢?近几年,音乐信息检索(MIR)领域一直在飞速生长。我们将会看到 NLP 的一些技术是如何移植到音乐领域的。

华体会

[译] 用 Word2vec 表现音乐?原文地址:Representing music with Word2vec?原文作者:Dorien Herremans译文出自:翻译计划本文永久链接:github.com/xitu/gold-m…译者:Minghao23校对者:lsvih机械学习算法在视觉领域和自然语言处置惩罚领域已经带来了很大的改变。可是音乐呢?近几年,音乐信息检索(MIR)领域一直在飞速生长。我们将会看到 NLP 的一些技术是如何移植到音乐领域的。在 Chuan、Agres、和 Herremans 于 2018 年揭晓的一篇论文中,探寻了一种使用盛行的 NLP 技术 word2vec 来表现复调音乐的方法。

让我们来探究一下这是如何做到的……Word2vec词嵌入模型使我们能够通过有意义的方式表现词汇,这样机械学习模型就可以更容易地处置惩罚它们。这些词嵌入模型让我们可以用包罗语义的向量来表现词汇。Word2vec 是一个盛行的词向量嵌入模型,由 Mikolov 等人于 2013 年开发,它能够以一种十分有效的方式建立语义向量空间。

Word2vec 的本质是一个简朴的单层神经网络,它有两种结构方式:1)使用一连词袋模型(CBOW);或 2)使用 skip-gram 结构。这两种结构都很是高效,而且可以相对快速地举行训练。在本研究中,我们使用的是 skip-gram 模型,因为 Mikolov 等人在 2013 年的事情中提到,这个方法对于较小的数据集越发高效。

Skip-gram 结构使用当前词 w_t 作为输入(输入层),并实验预测在窗口规模内与之前后相邻的词(输出层):图片来自 Chuan et al (2018). 单词 t 和它上下文窗口的插图。由于一些在网上流传的图片,人们对于 skip-gram 结构的样子存在一些疑惑。网络的输出层并不包罗多个单词,而是由上下文窗口中的一个单词组成的。

那么它如何才气表现整个上下文窗口呢?当训练网络时,我们实际会使用抽样对,它由输入单词和一个上下文窗口中的随机单词组成。这种类型的网络的传统训练目的包罗一个用 softmax 函数来盘算 (_{+}|_) 的历程,而它的梯度盘算价格是十分大的。

幸运的是,诸如噪音对比预计(Gutmann 和 Hyvärine 于 2012 揭晓论文)和负采样(Mikolov 等人于 2013 年揭晓论文)等技术为此提供了一个解决方案。我们用负采样基当地界说一个新的目的:最大化真实单词的概率并最小化噪声样本的概率。一个简朴的二元逻辑回归可以用来分类真实单词和噪声样本。

当 word2vec 模型训练好了,隐藏层上的权重基本上就可以表现习得的、多维的嵌入效果。用音乐作为单词?音乐和语言是存在内在联系的。它们都由遵从一些语法例则的一系列有序事件组成。更重要的是,它们都市缔造出预期。

想象一下,如果我说:“我要去比萨店买一个……”。这句话就生成了一个明确的预期……比萨。现在想象我给你哼一段生日快乐的旋律,可是我在最后一个音符前停下了……所以就像一句话一样,旋律生成预期,这些预期可以通过脑电波丈量到,好比大脑中的事件相关电位 N400(Besson 和 Schön 于 2002 年揭晓论文)。

思量语到语言和单词的相似性,让我们看看盛行的语言模型是否也可以用来对音乐做有意义的表达。为了将一个 midi 文件转换为“语言”,我们在音乐中界说“切片”(相当于语言中的单词)。我们数据库中的每个曲目都被支解成了等时长的、不重叠的、长度为一个节奏的切片。

华体会官网

一个节奏的时长可以由 MIDI toolbox 获得,且在每个曲目中可以是差别的。对于每一个切片,我们都市记载一个包罗所有音名的列表,也就是没有八度信息的音高。

下图展示了一个怎样从 Chopin's Mazurka Op. 67 №4 的第一小节中确定切片的例子。这里一节奏的长度是四分音符。图片来自 Chuan et al (2018) --- Creating words from slices of musicWord2vec 学习调性 —— 音乐的语义漫衍假设在语言模型中,语义漫衍假设是词向量嵌入背后的理论基础之一。

它表述为“泛起在同一上下文中的单词趋向于含有同样的语义”。翻译到向量空间,这意味着这些单词会在几何关系上相互靠近。让我们看看 word2vec 模型是否在音乐上也学习到了类似的表现。

数据集Chuan 等人使用的 MIDI 数据集 包罗了 8 种差别音乐类型(从古典到金属)。在总共 130,000 个音乐作品中,基于类型标签,我们只选择了其中的 23,178 个。这些曲目包罗了 4,076 个唯一的切片。

超参数模型的训练只使用了泛起最多的 500 个切片(即单词),并使用一个伪造单词来替代所有其他的情况。当包罗的单词含有更多的信息(泛起次数)时,这个历程提高了模型的准确性。

其他的超参数包罗学习率(设为 0.1),skip 窗口巨细(设为 4),训练步数(设为 1,000,000)和嵌入维度(设为 256)。和弦为了评估音乐切片的语义是否被模型捕捉,让我们来看看和弦。在切片词库中,所有包罗三和弦的切片都市被识别出来。

然后用罗马数字标注这些切片的音级(就像我们在乐理中经常做的那样)。好比,在C调中,C和弦为 I,而G和弦表现为 V。

华体会

之后我们会使用余弦距离来盘算在嵌入中差别音级的和弦之间有多远。在 n 维空间中,两个非零向量 A 和 B 的余弦距离 Ds(A, B) 盘算如下:D(A,B)=1-cos()=1-D(A,B)其中 是 A 和 B 的夹角,Ds 是余弦相似度:从乐理视角看,和弦 I 和 V 之间的“音调距离”应该比和弦 I 和 III 之间的小。下图展示了C大三和弦与其他和弦之间的距离。图片来自 Chuan et al (2018) --- Cosine distance between triads and the tonic chord = C major triad.从三和弦 I 到 V、IV 和 vi 的距离相对比力小!这与他们在乐理中被认为的“音调靠近”是一致的,同时也表现 word2vec 模型简直学习到了切片之间有意义的关系。

在 word2vec 空间下,和弦之间的余弦距离似乎反映出了乐理中和弦的功效作用!调通过视察巴赫的《平均律钢琴曲集》(WTC)的 24 首前奏曲,其中包罗了全部的 24 个调(大和谐小调),我们可以研究新的嵌入空间是否捕捉到了调的信息。为了扩凑数据集,每个曲子都被转换为其他每一种大调或小调(基于原调),这样每个曲子都市有 12 个版本。每个调的切片都市被映射到预先训练好的向量空间里,并使用 k-means 聚类,这样我们就能获得一些中心点,把它们作为新数据集中的曲子。

通过把这些曲子变调,我们可以保证这些中心点之间的余弦距离只会受到一个元素的影响:调。下图展示了差别调的中心点曲子之间的余弦距离效果。

和预期的一样,差五度音程的调在音调上是靠近的,它们被表现为对角线旁边较暗的区域。音调上较远的调(好比 F 和 F#)呈橙色,这验证了我们的假设,即 word2vec 空间反映了调之间的音调距离关系!图片来自 Chuan et al (2018)--- similarity matrix based on cosine distance between pairs of preludes in different keys.类推这张图片展示了 word2vec 的一个突出的特性,它可以在向量空间中找出类似于「国王 -> 皇后」和「男子 -> 女人」这样的转化关系(Mikolov 等人 于 2013 年揭晓论文)。

这说明寄义可以通过向量转化向前通报。那么对音乐来说是否也可行呢?我们首先从多音切片中检测到一些和弦,并视察一对和弦向量,C大调到G大调(I-V)。可以发现,差别的 I-V 向量对之间的夹角都很是相似(如右图所示),甚至可以被想成一个多维的五度圈。这再一次证明晰类推的观点可能也存在于音乐 word2vec 空间上,只管要想发现更明确的例子还需要做更多的观察研究。

图片来自 Chuan et al (2018) --- angle between chord-pair vectors.其它应用 —— 音乐生成?Chuan 等人于 2018 年简要地研究了如何使用该模型替换音乐切片以形成新的音乐。他们表现这只是一个开端的实验,可是该系统可以作为一个表现方法而用于更庞大的系统,例如 LSTM。在论文中可以找到更多相关细节,但下图可以让你对其效果有一个开端的相识。

图片来自 Chuan et al (2018) --- Replacing slices with geometrically close slices.结论Chuan、Agres 和 Herremans 于 2018 年建立了一种 word2vec 模型,这种模型可以捕捉到复调音乐的音调属性,而无需将实际的音符输入模型。文章给出了一些令人信服的证据,说明和弦与调的信息可以在新的嵌入中找到,所以可以这样回覆标题中的问题:是的,我们能够使用 word2vec 表现复调音乐!现在,将这个表现方法嵌入到其他能够捕捉到音乐的时间信息的模型,这条门路也已经打开了。参考Besson M, Schön D (2001) Comparison between language and music. Ann N Y Acad Sci 930(1):232--258.Chuan, C. H., Agres, K., & Herremans, D. (2018). From context to concept: exploring semantic relationships in music with word2vec. Neural Computing and Applications --- Special issue on Deep Learning for Music and Audio, 1--14. Arxiv preprint.Gutmann MU, Hyvärinen A (2012) Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics. J Mach Learn Res 13(Feb):307--361Harris ZS (1954) Distributional structure. Word 10(2--3):146--162.Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.Mikolov T, Sutskever I, Chen K, Corrado GS, Dean J (2013b) Distributed representations of words and phrases and their compositionality. In: Proceedings of advances in neural information processing systems (NIPS), pp 3111--3119Mikolov T, Yih Wt, Zweig G (2013c) Linguistic regularities in continuous space word representations. In: Proceedings of the 2013 conference of the North American chapter of the association for computational linguistics: human language technologies, pp 746--751如果发现译文存在错误或其他需要革新的地方,接待到 翻译计划 对译文举行修改并 PR,也可获得相应奖励积分。

文章开头的 本文永久链接 即为本文在 GitHub 上的 MarkDown 链接。翻译计划 是一个翻译优质互联网技术文章的社区,文章泉源为 上的英文分享文章。内容笼罩 Android、iOS、前端、后端、区块链、产物、设计、人工智能等领域,想要检察更多优质译文请连续关注 翻译计划、官方微博、知乎专栏。参考文献:K码农-http://kmanong.top/kmn/qxw/form/home?top_cate=28。


本文关键词:「,译,」,用,Word2vec,表现,音乐,译,用,Word2vec,华体会

本文来源:华体会-www.xjcwzx.com