语音识别距人类只差0.4%?
日前,美国一家公司宣称专业速记员在记录对话时,转录词错率为5.1%,而该公司最新研发的语音识别系统词错率已达到5.5%,超越之前的历史最佳水平,树立了新的里程碑。语音识别,是人工智能领域的核心问题之一,0.4%的差距似乎意味着机器即将比肩人类。
已过“甲子”之年
其实,对于人工智能子项目之一的语音识别来说,它的历史甚至比60年还要久。
语音识别的研究源头可追溯至1950年,计算机科学之父阿兰·图灵在《思想》(Mind)杂志上发表了题为“计算的机器和智能”的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了,这就是后来鼎鼎有名的人工智能图灵测试。
图灵测试的概念极大影响了人工智能对于功能的定义,以此为途径,卡内基梅隆大学的两位科学家希尔伯特·西蒙和曼纽尔·布卢姆做了大量的前期工作,非常精妙地证明了罗素《数学原理》52道中的38道。西蒙甚至宣称在10年之内,机器就可以达到和人类智能一样的高度。
从“模拟”人脑到开创统计方法
当20世纪50年代明确了人工智能要模拟人类智慧这一大胆目标后,这一领域经历了近20年的辉煌。研究人员开展了一系列项目,表明计算机能够完成一系列原本只属于人类能力范畴之内的任务,例如证明定理、求解微积分、通过规划来响应命令、履行物理动作,甚至是模拟心理学家心理实验、作曲家谱曲这样的活动。
但是,过分简单的算法以及计算能力的限制,严重阻碍了人们使用人工智能来解决更加困难和多样化的问题。
这一阶段在人工智能的细分领域语音识别上,科学家们也走上了同样的弯路。他们认为,计算机要完成语音识别这类只有人才能做的事情,必须先让计算机理解自然语言,导致研究局限在人类学习语言的方式上了,即电脑模拟人脑,语言学者参与了大量的研究工作,但最后的成果却近乎为零。伴随着对未来继续努力的失望,人工智能包括语音识别都于20世纪70年代中期逐渐淡出公众视野。
转机出现在统计语言学的创立上。这不得不提一个关键性人物——德里克·贾里尼克和他领导的IBM华生实验室,他们创新的使用统计方法,将当时的语音识别率从70%迅速提升到90%,同时语音识别的规模从几百个单词上升到几万个单词,使得语音识别就有了从实验室走向实际应用的可能。
在贾里尼克之前,科学家们都把语音识别问题的核心归结为语言学中的规则问题,而贾里尼克将它当作通信问题后,用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别重新概括清楚了。
这个框架结构至今仍对语音识别影响深远,它不仅从根本上使得语音识别有使用的可能,而且奠定了今天自然语言处理的基础。贾里尼克后来也因此当选美国工程院院士,并被某杂志评为20世纪100名发明家之一。
大进步的催化剂
在互联网大爆发的20世纪90年代,人工智能的相关研究又一次停滞了。直到21世纪前10年,出现了一系列复兴人工智能研究进程的要素,尤其是下面这些重要的因素和核心技术:
大数据。得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生的数据量急剧增加。大数据是人工智能发展的助推剂,这是因为有些人工智能技术使用统计模型来进行数据的概率推算,如语音识别,通过数据的海洋中丰富的语料,使得技术不断优化。
新算法。算法是解决一个设计程序或完成任务的路径方法。在一个完整的工业界语音识别系统里,最关键的是深度学习算法,还有很多工作是专业领域相关的算法,以及海量数据收集和工程系统架构的搭建。这些算法本身很重要,同时也是其他技术的推动者,比如机器学习算法Google的TensorFlow目前就被开源使用。
可以说,任何技术都有蓄能阶段和爆发阶段,人工智能包括语音识别技术的爆发都得益于以上条件。这也不难理解,从语音识别来看,它是需要经验、数据和用户反馈共同作用来提升表现的。需要利用用户的反馈总结出一些特点。
谷歌是最早在全球范围内大规模使用深度学习算法的公司,也最早开创了用互联网思维做语音识别。在这方面,科大讯飞受到谷歌的启发,迅速跟进成为国内第一个在商用系统里使用深度学习的公司。
现有成绩和待解难题一样多
语音识别技术已经发展了几十年,因为大数据和深度学习的应用,这一领域的传统强者成了谷歌、亚马逊、苹果和微软这些美国科技巨头,据统计,美国至少有26家公司在开发语音识别技术,而中国则有近50家公司研究这一领域。
尽管谷歌这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难以望其项背,但因为一些政策和市场方面的原因,当然也有部分原因是中文的复杂程度高于英语,所以国际巨头的语音识别主要偏向于英语,中文领域的语音智能机会则留给了科大讯飞、百度、搜狗等中国公司。在国内,这些本土化产品更为用户所熟知。
中文领域的识别难度在哪里?举个简单的例子,鲁迅《孔乙己》中的孔乙己之问:茴香豆的“茴”有几种写法?或者一个更有时代感的案例,如何形容物流很快?据说,在汉语里回答这个问题竟然至少有3600种说法,比如第二天就到了、物流很给力、给快递点赞等不尽其详。尽管语音识别在近些年来取得了巨大的进步,但其实仍然还有很多的工作要做。
此外,还有确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或在高速路上驾驶的时候;还有在多人交谈环境中将不同的说话人区分开。
还有一个更深层次的难题是,如果需要实现人机对话、人机写作,不只是需要用机器转录来自人类嘴巴的声音信号,更要理解人们所说的话。
从语音识别来看,下一个前沿是从识别走向理解,真正的人工智能仍然还在遥远的地平线上,在机器能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,有很长的路要走。
或许也可以说,我们正在从一个人类必须理解计算机的世界,迈向一个计算机必须理解我们的世界。亚里士多德曾说过,如果机器能干很多活,岂不能让人类解放出来,或许这一解放的起点就是“理解”。(姜姝姝)
- 为你揭开ICU的神秘面纱
- 糖炒栗子为什么要用黑砂?
- 研究称母海狮可凭视觉辨别其幼崽
- 想打喷嚏别忍着 伤了鼓膜划不来
- 经典的魅力:大数学家的混沌史话
- 故宫里如何做研究
- 虚虚实实说鲁班
- 为什么说 “一鸽胜九鸡”
- 特斯拉发布最快电动跑车 未来也许会飞
- 多肽涂层技术突破细胞培养“瓶颈”
- 血液干细胞逆转Ⅰ型糖尿病新疗法
- 中医治疗血管性抑郁症
- 防治流脑切莫“重少轻老”
- 羊奶为何被称为“奶中之王”
- “和合二仙”
- “美人鱼”——儒艮
- 飞天航路越千年
- 那只会敬礼的猴子
- 为什么要以地球标准去寻找地外生命
- 掰响手指容易 掰清原因很难
- 源远流长的机器人
- 当科学与艺术相遇
- 克隆猴“姐妹”为多种疾病诊疗带来希望
- 辽阔海疆守安宁 舰艏行处是长城
- 人类制造的最后一台机器?
- 准确预报天气还是件挺难的事
- 北豆腐南豆腐和内酯豆腐哪种营养价值更高
- 呵护你的小心肝儿 别让脂肪霸占
- 山桃一枝报春来
- “春捂”得法 可有效减少发病几率
- 腿上的“小蚯蚓”
- 点数钞票或是心灵慰藉强心针
- 太阳要变“冷美人”
- 这10种病都犯在一个“饱”字上!
- 心脏为何很少得癌
- 用micro:bit打造区块链
网友关注
- 他走了,留给未来四千万颗种子
- 点数钞票或是心灵慰藉强心针
- 首个实体商业数字化开放平台诞生
- 许传森:把“泡沫”做成“面包”
- 特斯拉发布最快电动跑车 未来也许会飞
- 陈庆:“土专家”的猿情
- 故宫里如何做研究
- 防治流脑切莫“重少轻老”
- 辽阔海疆守安宁 舰艏行处是长城
- 血液干细胞逆转Ⅰ型糖尿病新疗法
- 许映龙: 破译台风密码
- 牙膏牙刷品种多 怎么买有讲究
- 羊奶为何被称为“奶中之王”
- 血压高,准备10个问题去看病
- 世界一流的民办大学会是什么样
- 猎豹为什么跑得快
- 源远流长的机器人
- 这10种病都犯在一个“饱”字上!
- 不紧跟前车可减少“幽灵堵车”
- 为什么要以地球标准去寻找地外生命
- 海量支付 网联平台兜得住吗
- 中医治疗血管性抑郁症
- 山桃一枝报春来
- 人类制造的最后一台机器?
- 南仁东:“一口气”领中国迈向星辰大海
- 飞天航路越千年
- 廉价药去哪儿了 大数据或可出力
- 细菌基因扩散将会带来什么后果
- 故宫“掌门人”谈遗产如何重塑生活
- 关灯玩手机可能诱使青光眼发作
- 防治流行性感冒从日常做起
- “和合二仙”
- 太阳要变“冷美人”
- 将“快乐教育” 融入车模教学之中
- “美人鱼”——儒艮
- 植物学家钟扬:他给未来留下科学的种子
- 南北半球冰火两重天 地球到底怎么了?
- 腿上的“小蚯蚓”
- 为什么混血儿的相貌更好看?
- 去非洲旅行要警惕哪些“怪病”
- 四瓶矿泉水重量背起就走 “空调背心”投放市场
- 呵护你的小心肝儿 别让脂肪霸占
- 心脏为何很少得癌
- 经典的魅力:大数学家的混沌史话
- 动物卫士刘秀梵:“擒”病于未然
- 用micro:bit打造区块链
- 杨军: “开垦”太阳系外宜居星球
- 克隆猴“姐妹”为多种疾病诊疗带来希望
- 掰响手指容易 掰清原因很难
- 想打喷嚏别忍着 伤了鼓膜划不来
- 千里之行 始于足下
- “春捂”得法 可有效减少发病几率
- 基因真的能决定性格吗?
- 漫长岁月,鸟类怎么搞丢了牙
- 为什么说 “一鸽胜九鸡”
- 有种自恋叫过度自责
- 人体生物电与预防物理污染
- 靠输液预防脑卒中靠谱吗?
- 那只会敬礼的猴子
- 一颗邻近恒星有4颗类似地球大小的行星
- 虚虚实实说鲁班
- 为啥总觉得饿? 都是激素惹的祸
- 打破物理规律的怪石头
- 模拟联合国活动学习资料
- 研究称母海狮可凭视觉辨别其幼崽
- 两害相权取其轻
- 新血液检测法能诊断多种早期癌症
- 吃花胶补胶原蛋白吗?真相是:还不如吃鸡蛋!
- 博观约取 厚积薄发
- 水,这东西……
- 黄士松:慧眼识风云
- 助眠产品真能让你睡个好觉?
- 多肽涂层技术突破细胞培养“瓶颈”
- 为你揭开ICU的神秘面纱
- 电梯惊魂为何源源不断?安全乘坐你需要知道这些
- 糖炒栗子为什么要用黑砂?
- 准确预报天气还是件挺难的事
- 当科学与艺术相遇
- 能不能吃“苦” 基因说了算
- 你经常被负面情绪困扰吗?
- 北豆腐南豆腐和内酯豆腐哪种营养价值更高
精品推荐
- 五指山市05月30日天气:多云,风向:无持续风向,风力:<3级,气温:35/23℃
- 拜城县05月30日天气:晴,风向:无持续风向,风力:<3级,气温:25/9℃
- 昌吉05月30日天气:阴,风向:东北风,风力:3-4级转<3级,气温:24/11℃
- 民和县05月30日天气:小雨转中雨,风向:东南风,风力:3-4级转<3级,气温:27/13℃
- 琼中县05月30日天气:多云,风向:无持续风向,风力:<3级,气温:35/23℃
- 曲麻莱县05月30日天气:多云,风向:西南风,风力:3-4级转<3级,气温:18/0℃
- 卓尼县05月30日天气:阵雨转中雨,风向:东北风,风力:<3级,气温:21/9℃
- 阿勒泰区05月30日天气:小雨转晴,风向:无持续风向,风力:<3级,气温:17/6℃
- 甘德县05月30日天气:小雨转多云,风向:南风,风力:3-4级转<3级,气温:18/2℃
- 迭部县05月30日天气:阵雨转小雨,风向:东北风,风力:3-4级转<3级,气温:24/10℃