中国天才青年为何在日本创业，让AI歌声合成软件一炮而红？专访SynthV开发者华侃如先生_行业动态_行情

文章来源：https://www.dtmstation.com/archives/45880.html

（由于能力有限借助了翻译工具，在细节上请多多包涵指正，请以原文表达的意思为准，文章版权归原作者所有。）

文章作者：藤本健专注于 DTM、数字录音和数字音频的撰稿人。从 2001 年开始给 Impress AV Watch 连载“数字音频实验室（Digital Audio Laboratory）”，同时出版了《Cubase 彻底操作指南》（Rittor Music）、《VOCALOID 技术理论》（雅马哈音乐媒体）等多部书籍。对太阳能发电感兴趣，从 2004 年起就用太阳能给自己家供电，同时他也是三家发电厂的厂长。

在 2018 年圣诞节像是彗星一般诞生的全新歌声合成软件 Synthesizer V，对国内外的歌声合成界产生了巨大影响，这款软件由现时 23 岁的上海天才青年工程师华侃如开发。华侃如于 2019 年前往日本，在日本创立了 Dreamtonics 株式会社。与此同时 Synthesizer V 的功能与性能得到了进一步提高，在 2020 年 7 月由 AHS 株式会社以盒装软件的形式发售了新版本。

我在 DTM 站写过几篇关于它的文章，应该有很多人知道 Synthesizer V 在发布之后积极更新，增加了 AI 歌声合成引擎，并且还在不断成长。前些日子《歌声合成软件 Synthesizer V 用户指南》（三才图书）出版了，这是 Synthesizer V 的使用说明书，在这本书的最后刊登了对华侃如先生的采访文章，但由于它被定位为一本入门书，所以没有太过深入的内容。因此我想在 DTM 站发表采访的特别版本，包含一些没有写在书中的狂人故事。

Synthesizer V 开发者兼 Dreamtonics 株式会社董事代表华侃如先生

从小学二年级开始编程

——在进入 Synthesizer V 的话题之前，我想了解一下侃如先生的童年，您是从什么时候开始对电脑感兴趣的？

侃如：三岁时父亲给的一个玩具让我对电的机制产生兴趣，在上小学的时候我就开始制作收音机。跟收音机一样，电脑也是在差不多的时期，在小学二年级时开始使用 Adobe (当时是 Macromedia) Flash 进行编程。当时我的朋友都在玩游戏，但是父母非常严格，不让我玩游戏，于是我就用 Flash 去模仿同学们在玩的电脑游戏，我的父母觉得自己做游戏是可以的。

简介华侃如 (Kanru Hua)

——那么您是从 Flash 开始编程的。

侃如：初二之前一直在用 Flash 编程。Flash 和 JAVAScript 从思维方式来说是一样的，所以并不是什么坏事。不过我想做出更实用的东西，于是就开始使用 VB.NET，然后在那个时候迷上了初音未来（笑）。我很感动，想试着做一下这个的中文版。

——Synthesizer V 的起源就在这里。

侃如：由于我完全没有语音合成与歌声合成的相关知识，所以也不知道从哪里开始才好。于是我把声音以图形的方式显示出来，声音会在调整图形之后产生变化……就这样反复试错。其实可以通过移动频谱来改变音质，但是我当时还不知道，所以我一边看着图形，一边尝试改变图形的顺序而改变声音，同时根据经验记住这些特征，比如元音的重复部分……一直在做徒劳无功的事情。

在哔哩哔哩上传初中时做的中文歌声合成软件 Demo

——这就是说，当您还是初中生而且在没有人教的情况下，就能以图形的方式编辑声音……这非常令人惊讶。

侃如：当时我甚至连滤波器是什么都不知道，不过我发现如果使用窗口函数求平均值的话，声音会变得沉闷。如果没有基础技能和编程技术，我只能增加声音的数据量，尝试把 VOCALOID 发出的声音一个一个采样，然后把它们拼接在一起让声音更像中文。确实它比起原来的初音未来更有中文的感觉，但是声音太过于死板了，让人无法接受。虽然我也在网上发布了这个软件，但是没有多少人对它感兴趣。因为即使再继续摸索也无法提高音质，在读高一的时候就放弃了。

高中时期读了很多论文培养技能

——然而您没有真正放弃。

侃如：我意识到我的知识远远不够，所以我开始认真学习，想要自学语音合成和歌声合成。这听起来非常难，刚开始以高一学生的知识我根本理解不了。不过我注意到 2000 年发布的软件是以 1992 年左右的论文为基础，经过相当长时间开发而成的。于是我从早期论文开始看起，一点一点地理解。这些论文在网上有发表，可以到各种网站上研究学习。

——高中生读那样的论文，是一般人做不到的！那个时候您是在上海读高中吧？

侃如：是的，我在上海的一所国际文凭（IBDP）学校就读，在那里所有的课程都是用英语授课。几乎所有人毕业后都会去海外，所以我觉得阅读海外论文也是正常的。我的转折点是在高三的时候，本来我想去在语音合成方面最先进的大学——美国卡耐基梅隆大学，但是在暑假时提交了申请，到 11 月的时候被拒绝了，我受到了很大打击。虽然还有很多其他的大学，但我都不太感兴趣，然后就算上不了大学，我也可以自己努力学习……于是就在高中最后半年认真学习，以“斯巴达”式的训练，每周阅读三篇论文，然后把论文付诸实践。根据 1970 年代到 2015 年左右的论文，我制作并运行了数十个程序。

在 GitHub 上传的 SHIRO 程序

——比如编写了什么样的程序？

侃如：我基于 CeVIO 也在用的 HMM（隐马尔可夫模型）做了个歌声合成系统，没有使用其他人编写的代码库而是完全从零开始。另外在毕业后的暑假期间，我写了 SHIRO 程序，作为编辑声库的标记工具，并在 GitHub 上以开源的形式发布。

大学中途退学致力于 Synthesizer V 的开发

——虽然是自学成才，最后也进了美国大学。

侃如：我没能去卡内基梅隆大学，但我进了伊利诺伊大学的数学与计算机科学xi，这是我能上的最好的大学。我在上大学以后学习变得非常忙，很难进行大规模的程序开发，所以我尝试做小工具。毕竟还是非常想做歌声合成的，所以给 UTAU 写了个插件，在 2016 年发布了 Moresampler，这是迄今为止最强大的 UTAU 插件。

https://www.slideshare.net/khuasw/how-to-use-moresampler-japanese

中国天才青年为何在日本创业，让AI歌声合成软件一炮而红？专访SynthV开发者华侃如先生

Moresampler 架构（摘自华侃如先生制作·Eji 先生翻译的 Moresampler 使用方法资料）

——Moresampler 的评价怎么样？

侃如：我以为自己做出了非常好的软件，但是似乎和用户们喜欢的东西有所差距，我切身体会到了制作大家喜欢的软件的困难。一开始软件出现了很多问题，如闪退等等，不过在得到用户反馈后，我对软件不断更新，从 5.0 版本开始程序变得更稳定，评价也变好了。正是在这个时候，我开始在脑海中形成 Synthesizer V 的构想。

——当时您的想法是什么？

侃如：在 2016 年前后有两种不同的语音合成方法。一种是基于样本的，比如常规的 VOCALOID；另一种是基于人工智能的，可以说是现代 AI 的前身。然而当时基于人工智能的东西有很大的问题，虽然有真人化的表现，但是音质很差，声音难免闷闷的。AI 听起来像是最新的技术，但实际上并不是什么新鲜事物，神经网络诞生于 1990 年前后，至今已有 25 年以上历史。虽然在一般人看来是一项新技术，但是读论文就会发现，它已经存在很长时间了。我不知道 AI 的极限在哪里，我想就从现在开始做 AI 吧，但是在音质方面基于样本会更好，因此 Synthesizer V 的理念就是走两者互相融合的路线。

——但是在大学的学习很辛苦，应该很难进行开发吧。

侃如：上课很辛苦，作业也很多……本来伊利诺伊大学的重点在于理论，而我想做的是应用，实话说大学并不有趣。不过我也利用在读大学的机会参加瑞典举行的语音合成学会，2018 年我被在那里认识的雅马哈的人邀请去日本，在雅马哈实习一个月，这很有意思。在雅马哈实习期间我呆在滨松，实际上相比雅马哈的工作，真正激励我的是与当地人的交流。这对我的生活产生了很大的影响，如果没有这一点，我现在就不会来日本了。

——和滨松当地人的交流指的是？

侃如：在当地人与外国人的交流会上，我们用英语进行 15 分钟的交流，之后再用日语交流 15 分钟。那个时候对日本完全不了解，想知道普通人的生活是怎样的……怀着这样的好奇心参加了活动，那里有形形色色来自各行各业的人，我惊讶地发现许多人的生活方式与我完全不同。日本和滨松的生活是无拘无束的，当然必须遵守法律，除此之外大家可以按自己的想法生活，这引起了我的兴趣。

2016 年在黑客松的华侃如先生(右)，左起分别是小南千明先生、渡部高士先生、江夏正晃先生

——另一方面，我也是在那时初次见到侃如先生吧，于涉谷举办的音乐人黑客松……我一个人参加了，像是去砸场的，还取得了胜利（笑）。

侃如：那是在 2016 年 7 月，在我实习的两年前。本来是朋友邀请我和他一起参加的，但是不知道为什么那个朋友没有来……（苦笑）。那个黑客松也很有意思，通常黑客松是为那些对编程很了解的人举办的，但是惊讶的是里面有很多完全不懂编程的人，结果却做出了各种高质量的作品。鼓舞人心的是那里还有很多专业的音乐人，我觉得我看到了日本的另一面。

华侃如团队赢得了黑客松比赛

——无论是实习还是黑客松，对日本都没有坏印象吧。

侃如：当然啦，特别是如果没有在滨松生活过，我想我的生活会完全不同。实习结束后，我不得不在读大学和 Synthesizer V 之间做出选择。虽然不知道结果如何，但我决定先把东西做好再考虑，于是我选择了后者，暂时回上海的父母老家专心编程。到了 11 月，初步成型的产品完成了，并且在 12 月圣诞节开始发售。

迁往日本并成立公司

——我对 2018 年底突然发布 Synthesizer V 的消息感到很惊讶，他在发布前与我联系，用邮件交流并拿到测试版本进行测试，并在发布日当天我写了一篇《它将成为 VOCALOID 的竞争者吗？中国天才少年开发的歌声合成软件，Synthesizer V 的破坏力》的文章。

侃如：在此之前 Synthesizer V 已经公开技术预览版，到圣诞节的时候它作为下载版的产品发售。它的用户界面还支持英文、中文、日文，因此我联系了藤本先生，希望日本能有更多人使用它。那是一个先前版本，看起来与现在的 Synthesizer V 非常不同，但这是我事业的开始。

——大约在发售三个月后你就马上来日本了吧？既然可以继续在中国发展，也可以选择在美国创业，那为什么来日本呢？

侃如：实习确实对我有很大的影响，不过实际上我从小就来过日本好几次了。第一次是 2012 年全家乘船旅行，在福冈大宰府逛了一天，然后去了韩国。第二次是高中毕业旅行，去了京都、奈良、大阪等地。之后是去美国的大学，在回来的时候顺便去日本，这是留学生的固定路线。虽然说日本签证很难拿，但持美国留学签证对于申请日本长期旅游签证是有帮助的。由于这样的经历，也因为我喜欢日本和当地 VOCALOID 文化，所以决定如果要做歌声合成业务的话就去日本。

2019 年来到日本，创立 Dreamtonics 株式会社

——我对他选择来日本感到高兴和惊讶，因为许多日本人觉得日本不适合创业而选择了海外。

侃如：我认为日本的歌声合成软件市场很大，软件在日本取得成功是至关重要的，考虑到日本的环境和在日本遇到的人，我觉得应该能做得很好。

——之后在销售方面由 AHS 负责，但这一切都始于和 AHS 代表尾形友秀先生与赤迫竜一先生他们一起参加的酒会吧（笑）。

侃如：来日本开公司感觉不错，但我也不太了解这边的商业习惯，一直在烦恼如何开展业务。不仅仅是在日本，并不是说做出了好东西放到网上就能卖得好，商业上也有很多东西我也不太懂。正好那个时候藤本先生邀请我“和 VOCALOID P 的人一起去喝一杯吧”，在不了解的情况下满怀期待地参加了。我第一次见到大家，从他们的意见中学到了很多东西，而且在那里与尾形友秀先生相谈甚欢。

在日本刚创立公司的侃如先生

——然后就是咚咚作响地决定在 AHS 上销售了。

侃如：几天后尾形先生联系我，给了我一些 AHS 的样本，以及关于 Synthesizer V 未来的各种想法。另一方面，他还教我日本的商业习惯，比如纯英文产品很难在日本进行推广，不用日语宣传许多人就会感到畏惧等等，这些与美国和中国都不同。因为自己还是想专注于技术开发，所以很难花时间在市场、销售、经营、服务上。我想这些方面的问题如果让 AHS 来处理的话，应该会更加顺利……虽然过程不同，在北京和台湾也找到了愿意销售产品的合作伙伴，因此决定把商业部分拜托给各公司。最终销售和宣传这些需要耗费人力的事情都交给了合作企业，心情也轻松了许多。然而在那个时候，爆发了新冠疫情……

华侃如先生（左）和 AHS 株式会社代表尾形友秀先生（右）

——正好我要给你介绍一个能帮忙开发的人，在联络面试这样……的过程中也回不去日本了。

侃如：我本来打算 2020 年 2 月去上海，但由于中国方面情况不好而推迟了回国，之后日本也宣布了紧急事态……从那以后我就再也没出过日本（苦笑）。本来我和 AHS 商量是在 4 月发布新产品，5 月进行销售，但是情况变得很棘手，英文声库爱莲娜·芙缇也由于这次新冠疫情被推迟开发，最终新产品是在 6 月发布，7 月销售，晚了两个月。

在 2020 年 6 月 26 日举行的 Synthesizer V 发布会

——AHS 在日本正式发布该产品已经已经一年了，在反响和销售方面感觉如何？

侃如：把工作交给 AHS 和其他合作企业确实受益良多，最重要的是用来开发的时间大大增加了。商业方面的事情我一个人是做不好的，所以我真的很感激。我们在东京、北京和台湾销售产品，各个地区的反响都不一样。在日本有很多人想自己创作歌曲，实际销量也是最高的；而在中国有很多听众，使用 Synthesizer V 的歌曲播放量远远高于日本，在哔哩哔哩上有超过 500 万次播放的歌曲。另一方面我听 AHS 说可能由于是下载版产品的原因，它在日本以外的地方也卖得很好，不仅是美国和欧洲，也收到从沙特阿拉伯等中东地区发来的订单，据说已经有来自 60 个国家的人购买了。

哔哩哔哩上超过 500 万次播放的歌曲

AHS 发售的盒装 Synthesizer V Studio Pro 和 Saki 声库

——Synthesizer V 在发售后一年内就增加了 AI 功能，并发布了很多声库，侃如先生以后还想做些什么呢？

侃如：Dreamtonics 一直想挑战别人没有做过的事情，正因为是谁都没做过的事情才有意义，还有很多在头脑中构想而尚未实现的东西。今后我会让软件变得更加强大，可以做更多有趣的事情，所以请大家务必期待。

歌声合成软件 Synthesizer V 用户指南

歌声合成软件 Synthesizer V 用户指南

正如我在文章开头提到的，这篇对华侃如先生的采访是从三才图书前些日子出版的《歌声合成软件 Synthesizer V 用户指南》中摘录的一部分，并经过重新编辑的特别版本。本书由华侃如和 AHS 监制，讲解了基本的使用方法和操作步骤，即使是初次使用 Synthesizer V 的用户也能立即上手。这本 160 页的书除了可以从书店和亚马逊等地方购买之外，AHS 还销售“带有指南书的 Synthesizer V Studio Pro”的包装版本。由于 Synthesizer V Studio Pro 编辑器没有包含手册，所以特别对初学者推荐附加这本指南书！

带有指南书的 Synthesizer V Studio Pro

本文地址：http://w.yusign.com/quote/2630.html 述古往 http://w.yusign.com/static/ , 查看更多