中国天才青年为何在日本创业,让AI歌声合成软件一炮而红?专访SynthV开发者华侃如先生

   日期:2024-12-21    作者:hubinusb 浏览:92    移动:http://w.yusign.com/mobile/quote/2630.html

文章来源:https://www.dtmstation.com/archives/45880.html

(由于能力有限借助了翻译工具,在细节上请多多包涵指正,请以原文表达的意思为准,文章版权归原作者所有。)

文章作者:藤本健 专注于 DTM、数字录音和数字音频的撰稿人。 从 2001 年开始给 Impress AV Watch 连载“数字音频实验室(Digital Audio Laboratory)”,同时出版了《Cubase 彻底操作指南》(Rittor Music)、《VOCALOID 技术理论》(雅马哈音乐媒体)等多部书籍。对太阳能发电感兴趣,从 2004 年起就用太阳能给自己家供电,同时他也是三家发电厂的厂长。       

       在 2018 年圣诞节像是彗星一般诞生的全新歌声合成软件 Synthesizer V,对国内外的歌声合成界产生了巨大影响,这款软件由现时 23 岁的上海天才青年工程师华侃如开发。华侃如于 2019 年前往日本,在日本创立了 Dreamtonics 株式会社。与此同时 Synthesizer V 的功能与性能得到了进一步提高,在 2020 年 7 月由 AHS 株式会社以盒装软件的形式发售了新版本。

       我在 DTM 站写过几篇关于它的文章,应该有很多人知道 Synthesizer V 在发布之后积极更新,增加了 AI 歌声合成引擎,并且还在不断成长。前些日子《歌声合成软件 Synthesizer V 用户指南》(三才图书)出版了,这是 Synthesizer V 的使用说明书,在这本书的最后刊登了对华侃如先生的采访文章,但由于它被定位为一本入门书,所以没有太过深入的内容。因此我想在 DTM 站发表采访的特别版本,包含一些没有写在书中的狂人故事。

Synthesizer V 开发者兼 Dreamtonics 株式会社董事代表华侃如先生

从小学二年级开始编程

——在进入 Synthesizer V 的话题之前,我想了解一下侃如先生的童年,您是从什么时候开始对电脑感兴趣的?

侃如:三岁时父亲给的一个玩具让我对电的机制产生兴趣,在上小学的时候我就开始制作收音机。跟收音机一样,电脑也是在差不多的时期,在小学二年级时开始使用 Adobe (当时是 Macromedia) Flash 进行编程。当时我的朋友都在玩游戏,但是父母非常严格,不让我玩游戏,于是我就用 Flash 去模仿同学们在玩的电脑游戏,我的父母觉得自己做游戏是可以的。

简介 华 侃如 (Kanru Hua)

——那么您是从 Flash 开始编程的。

侃如:初二之前一直在用 Flash 编程。Flash 和 JAVAScript 从思维方式来说是一样的,所以并不是什么坏事。不过我想做出更实用的东西,于是就开始使用 VB.NET,然后在那个时候迷上了初音未来(笑)。我很感动,想试着做一下这个的中文版。

——Synthesizer V 的起源就在这里。

侃如:由于我完全没有语音合成与歌声合成的相关知识,所以也不知道从哪里开始才好。于是我把声音以图形的方式显示出来,声音会在调整图形之后产生变化……就这样反复试错。其实可以通过移动频谱来改变音质,但是我当时还不知道,所以我一边看着图形,一边尝试改变图形的顺序而改变声音,同时根据经验记住这些特征,比如元音的重复部分……一直在做徒劳无功的事情。

在哔哩哔哩上传初中时做的中文歌声合成软件 Demo

——这就是说,当您还是初中生而且在没有人教的情况下,就能以图形的方式编辑声音……这非常令人惊讶。

侃如:当时我甚至连滤波器是什么都不知道,不过我发现如果使用窗口函数求平均值的话,声音会变得沉闷。如果没有基础技能和编程技术,我只能增加声音的数据量,尝试把 VOCALOID 发出的声音一个一个采样,然后把它们拼接在一起让声音更像中文。确实它比起原来的初音未来更有中文的感觉,但是声音太过于死板了,让人无法接受。虽然我也在网上发布了这个软件,但是没有多少人对它感兴趣。因为即使再继续摸索也无法提高音质,在读高一的时候就放弃了。

高中时期读了很多论文培养技能

——然而您没有真正放弃。

侃如:我意识到我的知识远远不够,所以我开始认真学习,想要自学语音合成和歌声合成。这听起来非常难,刚开始以高一学生的知识我根本理解不了。不过我注意到 2000 年发布的软件是以 1992 年左右的论文为基础,经过相当长时间开发而成的。于是我从早期论文开始看起,一点一点地理解。这些论文在网上有发表,可以到各种网站上研究学习。

——高中生读那样的论文,是一般人做不到的!那个时候您是在上海读高中吧?

侃如:是的,我在上海的一所国际文凭(IBDP)学校就读,在那里所有的课程都是用英语授课。几乎所有人毕业后都会去海外,所以我觉得阅读海外论文也是正常的。我的转折点是在高三的时候,本来我想去在语音合成方面最先进的大学——美国卡耐基梅隆大学,但是在暑假时提交了申请,到 11 月的时候被拒绝了,我受到了很大打击。虽然还有很多其他的大学,但我都不太感兴趣,然后就算上不了大学,我也可以自己努力学习……于是就在高中最后半年认真学习,以“斯巴达”式的训练,每周阅读三篇论文,然后把论文付诸实践。根据 1970 年代到 2015 年左右的论文,我制作并运行了数十个程序。

在 GitHub 上传的 SHIRO 程序

——比如编写了什么样的程序?

侃如:我基于 CeVIO 也在用的 HMM(隐马尔可夫模型)做了个歌声合成系统,没有使用其他人编写的代码库而是完全从零开始。另外在毕业后的暑假期间,我写了 SHIRO 程序,作为编辑声库的标记工具,并在 GitHub 上以开源的形式发布。

大学中途退学致力于 Synthesizer V 的开发

——虽然是自学成才,最后也进了美国大学。

侃如:我没能去卡内基梅隆大学,但我进了伊利诺伊大学的数学与计算机科学xi, 这是我能上的最好的大学。我在上大学以后学习变得非常忙,很难进行大规模的程序开发,所以我尝试做小工具。毕竟还是非常想做歌声合成的,所以给 UTAU 写了个插件,在 2016 年发布了 Moresampler,这是迄今为止最强大的 UTAU 插件。

https://www.slideshare.net/khuasw/how-to-use-moresampler-japanese

中国天才青年为何在日本创业,让AI歌声合成软件一炮而红?专访SynthV开发者华侃如先生

Moresampler 架构(摘自华侃如先生制作·Eji 先生翻译的 Moresampler 使用方法资料)

——Moresampler 的评价怎么样?

侃如:我以为自己做出了非常好的软件,但是似乎和用户们喜欢的东西有所差距,我切身体会到了制作大家喜欢的软件的困难。一开始软件出现了很多问题,如闪退等等,不过在得到用户反馈后,我对软件不断更新,从 5.0 版本开始程序变得更稳定,评价也变好了。正是在这个时候,我开始在脑海中形成 Synthesizer V 的构想。

——当时您的想法是什么?

侃如:在 2016 年前后有两种不同的语音合成方法。一种是基于样本的,比如常规的 VOCALOID;另一种是基于人工智能的,可以说是现代 AI 的前身。然而当时基于人工智能的东西有很大的问题,虽然有真人化的表现,但是音质很差,声音难免闷闷的。AI 听起来像是最新的技术,但实际上并不是什么新鲜事物,神经网络诞生于 1990 年前后,至今已有 25 年以上历史。虽然在一般人看来是一项新技术,但是读论文就会发现,它已经存在很长时间了。我不知道 AI 的极限在哪里,我想就从现在开始做 AI 吧,但是在音质方面基于样本会更好,因此 Synthesizer V 的理念就是走两者互相融合的路线。

——但是在大学的学习很辛苦,应该很难进行开发吧。

侃如:上课很辛苦,作业也很多……本来伊利诺伊大学的重点在于理论,而我想做的是应用,实话说大学并不有趣。不过我也利用在读大学的机会参加瑞典举行的语音合成学会,2018 年我被在那里认识的雅马哈的人邀请去日本,在雅马哈实习一个月,这很有意思。在雅马哈实习期间我呆在滨松,实际上相比雅马哈的工作,真正激励我的是与当地人的交流。 这对我的生活产生了很大的影响,如果没有这一点,我现在就不会来日本了。

——和滨松当地人的交流指的是?

侃如:在当地人与外国人的交流会上,我们用英语进行 15 分钟的交流,之后再用日语交流 15 分钟。那个时候对日本完全不了解,想知道普通人的生活是怎样的……怀着这样的好奇心参加了活动,那里有形形色色来自各行各业的人,我惊讶地发现许多人的生活方式与我完全不同。日本和滨松的生活是无拘无束的,当然必须遵守法律,除此之外大家可以按自己的想法生活,这引起了我的兴趣。

2016 年在黑客松的华侃如先生(右),左起分别是小南千明先生、渡部高士先生、江夏正晃先生

——另一方面,我也是在那时初次见到侃如先生吧,于涉谷举办的音乐人黑客松……我一个人参加了,像是去砸场的,还取得了胜利(笑)。

侃如:那是在 2016 年 7 月,在我实习的两年前。本来是朋友邀请我和他一起参加的,但是不知道为什么那个朋友没有来……(苦笑)。 那个黑客松也很有意思,通常黑客松是为那些对编程很了解的人举办的,但是惊讶的是里面有很多完全不懂编程的人,结果却做出了各种高质量的作品。鼓舞人心的是那里还有很多专业的音乐人,我觉得我看到了日本的另一面。

华侃如团队赢得了黑客松比赛

——无论是实习还是黑客松,对日本都没有坏印象吧。

侃如:当然啦,特别是如果没有在滨松生活过,我想我的生活会完全不同。实习结束后,我不得不在读大学和 Synthesizer V 之间做出选择。虽然不知道结果如何,但我决定先把东西做好再考虑,于是我选择了后者,暂时回上海的父母老家专心编程。到了 11 月,初步成型的产品完成了,并且在 12 月圣诞节开始发售。

迁往日本并成立公司

——我对 2018 年底突然发布 Synthesizer V 的消息感到很惊讶,他在发布前与我联系,用邮件交流并拿到测试版本进行测试,并在发布日当天我写了一篇《它将成为 VOCALOID 的竞争者吗?中国天才少年开发的歌声合成软件,Synthesizer V 的破坏力》的文章。

侃如:在此之前 Synthesizer V 已经公开技术预览版,到圣诞节的时候它作为下载版的产品发售。它的用户界面还支持英文、中文、日文,因此我联系了藤本先生,希望日本能有更多人使用它。那是一个先前版本,看起来与现在的 Synthesizer V 非常不同,但这是我事业的开始。

——大约在发售三个月后你就马上来日本了吧?既然可以继续在中国发展,也可以选择在美国创业,那为什么来日本呢?

侃如:实习确实对我有很大的影响,不过实际上我从小就来过日本好几次了。第一次是 2012 年全家乘船旅行,在福冈大宰府逛了一天,然后去了韩国。第二次是高中毕业旅行,去了京都、奈良、大阪等地。之后是去美国的大学,在回来的时候顺便去日本,这是留学生的固定路线。虽然说日本签证很难拿,但持美国留学签证对于申请日本长期旅游签证是有帮助的。由于这样的经历,也因为我喜欢日本和当地 VOCALOID 文化,所以决定如果要做歌声合成业务的话就去日本。

2019 年来到日本,创立 Dreamtonics 株式会社

——我对他选择来日本感到高兴和惊讶,因为许多日本人觉得日本不适合创业而选择了海外。

侃如:我认为日本的歌声合成软件市场很大,软件在日本取得成功是至关重要的,考虑到日本的环境和在日本遇到的人,我觉得应该能做得很好。

——之后在销售方面由 AHS 负责,但这一切都始于和 AHS 代表尾形友秀先生与赤迫竜一先生他们一起参加的酒会吧(笑)。

侃如:来日本开公司感觉不错,但我也不太了解这边的商业习惯,一直在烦恼如何开展业务。不仅仅是在日本,并不是说做出了好东西放到网上就能卖得好,商业上也有很多东西我也不太懂。正好那个时候藤本先生邀请我“和 VOCALOID P 的人一起去喝一杯吧”,在不了解的情况下满怀期待地参加了。我第一次见到大家,从他们的意见中学到了很多东西,而且在那里与尾形友秀先生相谈甚欢。

在日本刚创立公司的侃如先生

——然后就是咚咚作响地决定在 AHS 上销售了。

侃如:几天后尾形先生联系我,给了我一些 AHS 的样本,以及关于 Synthesizer V 未来的各种想法。另一方面,他还教我日本的商业习惯,比如纯英文产品很难在日本进行推广,不用日语宣传许多人就会感到畏惧等等,这些与美国和中国都不同。因为自己还是想专注于技术开发,所以很难花时间在市场、销售、经营、服务上。我想这些方面的问题如果让 AHS 来处理的话,应该会更加顺利……虽然过程不同,在北京台湾也找到了愿意销售产品的合作伙伴,因此决定把商业部分拜托给各公司。最终销售和宣传这些需要耗费人力的事情都交给了合作企业,心情也轻松了许多。然而在那个时候,爆发了新冠疫情……

华侃如先生(左)和 AHS 株式会社代表尾形友秀先生(右)

——正好我要给你介绍一个能帮忙开发的人,在联络面试这样……的过程中也回不去日本了。

侃如:我本来打算 2020 年 2 月去上海,但由于中国方面情况不好而推迟了回国,之后日本也宣布了紧急事态……从那以后我就再也没出过日本(苦笑)。本来我和 AHS 商量是在 4 月发布新产品,5 月进行销售,但是情况变得很棘手,英文声库爱莲娜·芙缇也由于这次新冠疫情被推迟开发,最终新产品是在 6 月发布,7 月销售,晚了两个月。

在 2020 年 6 月 26 日举行的 Synthesizer V 发布会

——AHS 在日本正式发布该产品已经已经一年了,在反响和销售方面感觉如何?

侃如:把工作交给 AHS 和其他合作企业确实受益良多,最重要的是用来开发的时间大大增加了。商业方面的事情我一个人是做不好的,所以我真的很感激。我们在东京、北京和台湾销售产品,各个地区的反响都不一样。在日本有很多人想自己创作歌曲,实际销量也是最高的;而在中国有很多听众,使用 Synthesizer V 的歌曲播放量远远高于日本,在哔哩哔哩上有超过 500 万次播放的歌曲。另一方面我听 AHS 说可能由于是下载版产品的原因,它在日本以外的地方也卖得很好,不仅是美国和欧洲,也收到从沙特阿拉伯等中东地区发来的订单,据说已经有来自 60 个国家的人购买了。

哔哩哔哩上超过 500 万次播放的歌曲

AHS 发售的盒装 Synthesizer V Studio Pro 和 Saki 声库

——Synthesizer V 在发售后一年内就增加了 AI 功能,并发布了很多声库,侃如先生以后还想做些什么呢?

侃如:Dreamtonics 一直想挑战别人没有做过的事情,正因为是谁都没做过的事情才有意义,还有很多在头脑中构想而尚未实现的东西。今后我会让软件变得更加强大,可以做更多有趣的事情,所以请大家务必期待。

歌声合成软件 Synthesizer V 用户指南

歌声合成软件 Synthesizer V 用户指南

       正如我在文章开头提到的,这篇对华侃如先生的采访是从三才图书前些日子出版的《歌声合成软件 Synthesizer V 用户指南》中摘录的一部分,并经过重新编辑的特别版本。本书由华侃如和 AHS 监制,讲解了基本的使用方法和操作步骤,即使是初次使用 Synthesizer V 的用户也能立即上手。这本 160 页的书除了可以从书店和亚马逊等地方购买之外,AHS 还销售“带有指南书的 Synthesizer V Studio Pro”的包装版本。由于 Synthesizer V Studio Pro 编辑器没有包含手册,所以特别对初学者推荐附加这本指南书!

    带有指南书的 Synthesizer V Studio Pro

    本文地址:http://w.yusign.com/quote/2630.html    述古往 http://w.yusign.com/static/ , 查看更多

    特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


    举报收藏 0评论 0
    0相关评论
    相关行情
    推荐行情
    点击排行
    {
    网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号