Stability AI正式推出音频生成工具Stable Audio

Stability AI 发布的免费音频生成工具 Stable Audio 受到了广泛的关注和讨论。该工具基于用户输入的文本内容，能够自动生成音乐或者音频，这一技术的出现无疑为音乐创作领域带来了新的变革。以下是对 Stable Audio 工具的综合评价：

创新性：Stable Audio 代表了音频生成研究的前沿水平。它采用了与 Stable Diffusion 类似的扩散模型技术，这是一种创新的尝试，将自然语言处理与音频生成相结合，为用户提供了一个全新的音乐创作途径。
易用性：Stable Audio 简化了用户生产音频的模式，用户只需输入关键词，如乐器名称、风格、情境等，就可以一键生成音频。这种简化的操作流程使得即使没有专业音乐背景的用户也能够轻松创作音乐。
音质与多样性：Stable Audio 能够生成丰富多彩、高质量的音频，涵盖了音乐、对话、环境音和特效声等范围3。用户可以指定音乐的流派、速度、配器、情绪等，工具能够根据这些参数生成相应的音频内容1。不过，也有报道指出，在音乐的配器上，Stable Audio 仍显得有些杂乱，尤其是在爵士、摇滚等注重器乐的音乐上表现较为薄弱。
商业化与订阅模式：Stable AI 为 Stable Audio 设定了免费与付费两种订阅模式。免费版允许用户每月生成20条音频，持续时长45秒，且不可商用；而付费版则提供更多的生成次数和时长，并可用于商业项目2。这种商业模式既满足了普通用户的需求，也为专业用户提供了更多的可能性。
技术挑战与前景：尽管 Stable Audio 在音质和可用性上取得了一定的进步，但它对中文 Prompt 的识别能力仍有待提高。此外，Stable Audio 并未开源，这与 Stability AI 一贯拥抱开源社区的作风不一致，可能与训练集的授权协议有关。然而，公司承诺将在未来开源另一款使用不同数据训练的模型，这表明 Stability AI 仍致力于推动技术的开放和发展。