科大讯飞胡郁：AI 不止是技术，更是一种思维方式

陈昕·2017-04-27

关注

科大讯飞

安徽人工智能

智能语音技术提供商

最近融资：上市公司定增|未披露|1999-12-30

我要联系

每个行业、每个领域乃至每个企业都会有自己的人工智能

科大讯飞执行总裁、消费者事业群总裁胡郁作为新智元2016人工智能年度人物（产业界别），在新智元开源·生态AI技术峰会上，发表演讲《人工智能新纪元，共创商业新生态》。

胡郁从智能演化讲起，谈了人工智能的发展阶段，落实到产业里的方式，以及如何推动商业转型。胡郁认为：AI 不止是技术，更是一种思维方式；未来每个行业、每个领域、每个企业都会有自己的人工智能，这些不同的人工智能将在一个大的商业背景下构成混合正交的生态系统。超级马太效应不再，产业里各方都将拥有更多的机会，需要不同类型的公司和全新的思维。

“我认为人工智能是一种思维方式，你要知道在消费者领域人工智能能够产生什么交互，用户行为会发生什么改变。而在行业里面，什么时间、什么地点、人的技能会被人工智能取代，一旦被人工智能取代，整个商业游戏规则就会发生变化。这种情况下，我相信每个行业里面的厂商都需要自己的人工智能，但是这些人工智能的方向不一样——它们会形成正交混合的战略生态系统。”

而在这种混合正交和相应的利益分配机制的环境下，企业和机构将迎来哪些机会，又该怎样抓住这些机会？

胡郁在下面的演讲中提供了答案。

人工智能的诞生

回想一下，人类发展过程中有很多阶段，不同阶段产生了很多成功的公司、英雄，留下非常多的记忆。从科技文明进化的历史来看，在能源时代、电子时代、互联网时代都有其客观规律，这之间有因果性。

如果没有能源的突破，我们很难能够进入电子时代，如果没有电子时代，后面的互联网和人工智能则不能逐步走向高峰。

140亿年宇宙的历史，45亿年的地球历史，才孕育出到300~400万年的猿人历史和7万年人类的认知革命，自然宇宙里诞生了人类的智能。人工智能不在自然宇宙里产生，而是产生在数字宇宙里，而这个数字宇宙的起点是1946年 ENIAC 被发明。

在这里不得不提到当时的四个人，哥德尔数学证明了可计算性，还有冯·诺伊曼，图灵，毕格罗。在数字宇宙被提出10年以后，人工智能的概念才出现。而图灵和冯·诺伊曼是真正开始考虑在数字宇宙里是否能够产生生命，是否能够产生智能的人。不过很可惜，他们还没有深入探索，就早早去世。

智能与意识能够分开吗？

我们现在做的是弱人工智能。机器每实现一点智能，都有别于人类的实现方法。正是这种差异使机器在模仿人的智能上有先有后，有难有易。

在运算方面，智能机器逐步做得比人类好，1993年在象棋上战胜人类，2006年在国际象棋战胜人类。

过去几年我们一直讨论感知智能。现在很多机械手很灵活，KUKA的机械手可以和波尔打乒乓球，并且可以打赢他。但是，为什么家里面打扫卫生的机器人现在还没有被开发出来？根本原因是我们的感知智能综合与感知智能、运动功能的交联做得不够好，一系列传感器达不到动物和人类控制动作的程度。

如果期望机器在这个层面上有进一步的突破，必须将我们现在熟知的弱人工智能的成功要素，包括深度神经网络、大数据以及迭代优化应用于运动控制中，相信这会是下一代突破的地方。

基于认知智能这一点，尤瓦尔·赫拉利写的一本书《人类简史》，语言对人类非常重要，认知革命非常重要，要攻克认知智能，必须在语言理解、语言表达取得突破，这样才能在很多方面进一步提升。

人类的每个职业中对应的每个技能会逐步被智能的组合所取代，但这将是一步步的，而不是职业全部消亡。现在脑科学人工智能研究有可能帮我们找到大脑中的动力学，将来我们可以制作出在家里打扫卫生的机器人，而不用担心机器人会闹情绪，或者要不要增加机器人权。

在自然宇宙里，我们看到智能和自我意识捆绑到一起，自我意识越强，智能越高。但是，在数字宇宙里面这两个有可能分开。

赫拉利的新书《未来简史》里面的观点也非常类似。特别是书中提出了一个问题，我们有没有可能在最后把智能和意识分开？我觉得这是一个有挑战性的事情，脑科学将来如果在研究中能取得这个进步，会对我们人类的未来产生很大的影响。

人工智能三次浪潮：中美在 AI 领域已经拥有绝对领导权

人工智能三次浪潮非常重要，大家慢慢意识到中国和美国之所以能够成为世界上两个在人工智能领域起绝对领导权的国家，有两方面的原因。

第一，中国和美国的基础研究或者高科技研究非常厉害，中国主要得益于863计划等一系列的研究工作。2014年8月，科大讯飞的发布会提出做讯飞超脑计划，能听、会说、能理解、会思考，也取得一系列成绩。在2017年这次两会期间，我们的刘庆峰董事长跟克强总理汇报过，在语音合成识别、知识图谱建立和逻辑推理方面，我们都取得了世界突出的成绩，这些成绩得益于刚才讲的能力储备，也得益于包括国内有一批像周志华老师一样做世界最顶级研究的科学家。

借此机会，向大家汇报一下我现在领导的863高考机器人重点项目，今年在中期检查以后能够看到一些初步的结果。这些初步结果包括我们在数学和语文里面分别考到110分、90分（总分150分）；在历史、地理考到40、50分（总分100分）。因此，我们看到这个题目是可以被攻克的，但是难度非常大。

第二，中国和美国都有世界上最先进的互联网和移动互联网的产业体系，而这个体系直接促成人工智能技术的发展，并且对人工智能的产业化应用起到决定性作用。正是因为拥有在人工智能领域的学习内容和在互联网得到的大数据和涟漪效应的迭代，我们现在处在同一起跑线上。至于商业，离不开商业模式创新，但是互联网和移动互联网时代商业模式创新也保证了这一点，在人工智能领域所需要的商业创新可以从很多的互联网和移动互联网时代创新当中得到。

人工智能+：AI 不止是技术，更是一种思维方式

“人工智能+”用在什么方面？

产业应用上有两个明确的方向，一是改变我们和机器交互的方式，不管视觉、语音还是触觉；二是人工智能将在教育、医疗等很多行业的知识工程体系里面逐渐代替很多人类的技能。

这两种方式的应用，各自的产品、模式，推广方式特别是商业模式会相当不一样。前面一种商业模式与 to C 有非常强的关系，但是后面一种可能需要与政府打交道，可能需要与大客户打交道，需要与每一个需要使用人工智能技术的公司打交道。我们可以看到，人工智能有可能已经变成一种思维方式，而不仅仅是一种技术。每一个行业，各行各业它们都会找到自己需要的人工智能的地方。

视觉呈现下的语音交互将逐渐成为主流

从交互的方式来讲，大家已经讨论过很多次，从键盘输入到图形界面到后来的触摸屏，机器越来越聪明，人需要做的操作越来越简单。如果机器聪明到跟专家一样，这个界面可以非常简单，你跟它讲一句话，它就可以把后面的所有事情都做完。

现在问题是机器没聪明到这种程度，只能像助理一样，在交互以后你还要做决策、做选择。2011年Siri推出引起一波做语音交互的热潮，从2011年到2015年有非常多类似Siri的产品出现，但是并不好用。为什么？在Siri使用模式下，也就是在使用手机的模式下，语音的效率没那么高。当然，这几年亚马逊推出Echo、Alexa，谷歌推出Google Home，效果就比当初的Siri要好。

科大讯飞也做了这方面的尝试，根据我们的经验，在远场、移动和无屏情况下，语音确实能够成为主要的交互手段。很多人有疑问，为什么不是图像而是语音？我们经常说，人类获取信息的80%来自于眼睛。但是，对机器而言不是这样，机器可以显示图形，因为它可以用数字化的方法把图形展示出来，而人不行。人可以非常好地理解图形里面的语义含义，但现在的机器还不行。机器现在要想理解一张图片或者一个场景里面的语义其实是很难的。

但是，机器已经发展到可以理解人讲话中间的这些文字中间的语义，这有可能接近突破点。这种可能会产生一种新的方式，叫做在视觉呈现下的语音交互。我们的手机实际是在强视觉呈现下的触摸交互，这使得触摸交互变得非常有意义。而原来的电视机图像是强视觉呈现的鼠标交互、点击交互。这个过程之所以出现，正是因为人可以快速理解机器显示的图像的含义，而人的反馈不能够用图像的方式表达。随着电视、车载、机器人、玩具、VR、智能家居一系列产品出现，视觉呈现下的语音交互会逐步成为主流。

在很多环境中，图像不是起到主要作用，靠语音就能完成一些简单的事情。但是，借助图像的展示，这个交互闭环可以完成很多复杂的事情，而这些复杂的事情将会帮助我们改变我们的使用习惯。过去几年里，正因为有了这样的理念，科大讯飞提出 AIUI。目前，连接的设备数达到十亿，服务的次数达到35亿次/天，连接的第三方创业团队达到30万+的申请号，这些都表明行业呈爆发式增长的态势。同时，也出现了一系列的产品，包括语音输入、翻译等，在智能家居、车载里已经大规模进行使用。这些方面的改变与 toC 有紧密关系。

人工智能改变行业

另外，有一大类人工智能还将改变我们的行业和政府行为。利用大数据、云计算、迭代优化的方式，不是改变交互，而是替代人的职业中的某一技能。我们都知道优秀的老师是较为稀缺的资源。老师有很多的技能，其中一项是批改学生的作业，优秀的老师在改完作业之后，心里就大概知道这个学生能力如何，并会有针对性地给这个学生布置单独的作业，从而使学生快速提高。试想，如果每个学生都有一个这样的老师，得到专家级的培训和辅导，学生的成绩一定提高很快。

十年树木百年树人，每个行业里最具专家知识的老师就是最稀缺的资源。随着人工智能的出现，这种情况将发生颠覆性的改变。目前，人工智能的本质是通过学习，达到或接近一般专家的水平，超越一般人，而且人工智能复制、使用边际扩张成本极低。

问题在于，不是所有职业里的所有技能都能因为运算、感知、运动、认知智能的突破而被追平乃至替代，这需要技术经历逐步成熟。所以，我们需要看某个行业、某个职业、某一个技能在什么时候逐渐被人工智能替代，合适地使用它，再用这些数据来改变整个行业。

现在，在教育行业已经做到了。在黄冈中学广州分校里，学校给每个学生请一个机器人老师，作业是机器人改的，缺点是机器人分析的，作业是机器人布置的，一个学期之后，两个班的同学使用了个性化学习推荐系统，变成16个班级里面的前30名。

在医疗等领域，可以做同样的事情。2013年IBM最早推认知计算的时候，讲的都是类似的概念，Watson就是典型的知识系统，其实思路和趋势是一样的。

人工智能服务三大形态

总而言之，机器不能干所有的事情！

如今人机关系有三大类型：

第一，若所有的信息都是透明的，比如说下棋是非常典型的完全信息公开的博弈系统，机器肯定能够战胜人类。

第二，Information—Incomplete，人机协同。打仗时，需要预测、猜测，甚至在商战中还会提供很多虚假的信息，人要做出判断。机器可以帮你分析，对于缺失的部分要发挥人的主观能动性，我认为这是人机辅助。

第三，Information—Free，人类主导。从0到1，艺术的源泉，还有突发奇想，这些是否与意识有关？人类主导，机器作为辅导，人类与机器是共生的关系。

每个行业、每个领域、每个企业都会有自己的人工智能

新的技术体系都会带来整个商业生态的变化，将来的商业形态是什么样的情况？

也许在人工智能生态迎来新的商业生态格局，这种格局叫做 Hybrid Orthogonal Business System（混合正交商业系统）。

今年年初罗振宇有一个演讲《时间的朋友》，其中提到一点，每个人的商业时间是固定的，现在连你在坐马桶的时间都变成商用时间。

这个时间不能再被扩展，但是会被转移。

刚才讲到交互的方式，原来都是看手机，将来可能转移到你跟机器人的交互，你跟智能家居的交互，时间会从手机上挪开一部分。在这个过程中我们可以看到，整个生态与原来的互联网完全不一样。在原来的互联网里面，BAT和门户网站占到绝对的主导，形成了马太效应，形成了超级利润的来源。

但是，从互联网进入到移动互联网，原来的信息和时间的占用被碎片化。我们在手机上可以看到手机厂商的应用，手机厂商的决定权在提升，还有移动运营商的运营权也有提升。我们会发现，从单纯PC交互到手机交互，到各种各样的交互，智能家居、智能硬件、机器人、玩具……会分散整个商用可用时间。而分散的过程中有一个特点，拥有控制权的厂商或者单位越来越多，已经不能够再用原来超级马太效应烧钱。不是用钱把所有的用户都烧到这边来就一定能够在你的圈定范围之内筑起壁垒，你还会受到其它力量的阻碍，当你停止投入之后，用户觉得没有价值就会散去。

人工智能可能带来的效应是什么？它会是一个交互平台，同时也会改变行业运行的方式。将来人工智能是掌握在少数厂商手里面，还是会是一个多样化的、分散化的使用体系和商业生态系统？

对此，我的看法是——每个行业、每个领域乃至每个企业都会有自己的人工智能。

我认为人工智能是一种思维方式，你要知道在消费者领域人工智能能够产生什么交互，用户行为会发生什么改变。而在行业里面，什么时间、什么地点、人的技能会被人工智能取代，一旦被人工智能取代，整个商业游戏规则发生变化。这种情况下，我相信每个行业里面的厂商都需要自己的人工智能，但是这些人工智能的方向不一样——它们会形成正交混合的战略生态系统。

在混合正交和相应的利益分配机制的环境下，公司和新智元这样的中间团体，才能够在将来的商业生态中占据更有利、更核心的位置。在这个过程中需要不同类型的公司，一种是登山型的公司，一种是冲浪型的，抓住风口，实现在这个行业里的垄断。在这个过程中需要创新性思维，需要全新的思路。

这个过程历经坎坷，但是人工智能是非常有意思的方向。人工智能的生态会使大家有更多公平的机会去竞争努力，而不像原来超级马太效应，赢者通吃，很多小创业者没有太多机会。正是在这样的背景下，我们每个人可以用更好的心态去享受创业的过程。如果，我们把创业看成是玩耍，你就不会仅仅看中它的结果，还会看中它的过程。你在玩耍的时候会尝试你喜欢的东西，会找志同道合的人一起去玩。你的心态是放松的，是全力以赴的，反而更容易成功——放松能够最终决定你的心理。

在这个过程中，我非常期待和新智元一起努力。虽然新智元成立只有几年，但是已经发生了很多新的变化。借此机会，预祝新智元能够在将来人工智能的不断变化中，引领行业中专家、企业家、媒体、一般大众，一起塑造整个生态。

谢谢大家！