数据、数据、数据
如何合法地构建酷炫的东西!
每当我们说自己在构建一个生成式AI音乐工具时,总是被问到的第一个问题是:"那么,你们从哪里偷取数据的?"尽管在这个时代这似乎是常识,人们仍然不理解拥有干净数据的重要性。随着Suno、Udio等公司与各大唱片公司之间重大诉讼案的增多,这个话题对所有关心音乐行业和艺术家权利的人来说变得非常有趣。我们的观点非常明确:如果你创造了它,它就是你的!但显然,行业中很多人并不这么想。
当我们决定是时候结束市场调研、开始实际动手时,我们决定首先解决的是数据问题。我们知道这将是我们旅程中最大的挑战之一,但我们也认识到这场战斗是一个将自己与其他工具区分开来的机会。如果我们能真正花时间策划完美的数据集——一个只有我们拥有的数据集——我们就能训练出世界上没有人能复制的模型。这正是我们所做的。我们决定我们的第一个模型应该是一个底鼓生成工具,贴切地命名为"Just 4 Kicks",然后立即开始工作。
Our first few pieces of training data - live recordings trimmed in Bitwig.
接下来的几周是在鼓机和电脑屏幕前度过的漫长夜晚。我从我和朋友们拥有的所有硬件开始。我会将一台机器连接到我的接口,设置一个非常简单的4x4底鼓循环,然后开始录制。通过调整不同的调制、效果和设置,我录制了大约1,000个底鼓。直接从硬件传输到DAW,我修剪了每个采样,然后对声音应用了另一系列效果和变换,将我的数据集扩大到四倍。就在那一刻,我意识到我正坐在我们的宝箱上。
然后我用我拥有的允许二次数据使用的鼓插件执行了同样的任务。我再次创建、修剪和转换了采样,又得到了2,000个底鼓。但我信任的朋友兼机器学习巫师Henning提醒我,我们需要远不止6,000个数据点才能开始。所以,不情愿地,我转向了互联网。在最后一轮底鼓搜索中,我翻遍了所有存在的开源声音库,寻找高质量、无版权的声音。在那一刻,我大概听了约15,000个底鼓,直到放弃,把找到的内容导入到我的DAW,然后开始修剪和转换过程。
总的来说,整个经历花费了我几天时间,但我毫不后悔。现在,我们已经用这个拥有9,000多个底鼓的数据集来训练我们的第一个端到端ML工作流,我再次认识到数据的重要性,以及为什么那么多人会走捷径。话虽如此,如果你认真对待自己在构建的东西,并且想构建不仅真正有用、而且公平、合乎道德和合法的东西,那么以爱和尊重对待你的数据应该始终是第一步。
唠叨结束了。再次感谢你聆听这些文字,给了我一个比我的治疗师更便宜的出口 :)
一如既往——欢迎随时联系我们!
— Max (max@just4noise.com)