语音识别技术包括哪些_简述语音识别技术的典型应用

作为一名产品经理,超自然地满足用户需求,用户体验就会更好。在日常中,大家很难将自己看不懂的文字或者不同APP的一些信息直接转化到这个APP中,这时候使用一点AI是我们的最佳选择。本文带你快速地了解到如何应用AI到你的产品里,希望对你有所帮助。

语音识别技术包括哪些_简述语音识别技术的典型应用

作为一个产品经理,让我们负责的产品成功的关键在于场景、需求和痛点——越自然地满足用户的需求,用户的体验就会越好。

比如我们看看这几个例子——

  • 在快递、闪送这个场景下,用户的收件人地址信息通常在另外一个App里,想要有时甚至复制和粘贴都做不到。是否能对收件人的姓名、地址这些信息进行截图、识别、智能填写?至少我们需要把这个截图里的文字识别出来。
  • 在旅游的过程中,用户如何快速看懂身边的文字?有时用户不只是看不懂——大概率连输入都做不到(日语的假名、泰语的文字),至少我们要先把它转成文字,然后再进行翻译,对吧?

为了解决这些痛点问题,人工智能(AI)能力很有可能是你最佳的选择,而做一个“懂一点AI”的产品经理很可能在这个新的时代里是PM的必备技能。在这篇博客里,我们会探索三种特定的人工智能功能——图像文本识别(OCR)、语音识别(ASR)和机器翻译——以及如何应用它们来增强我们的产品并为用户提供价值。

当然,值得注意的是,还有很多其它的AI能力,在日后的文章中我们会一一介绍。在这篇博客中,我会只关注这些和文字、识别和快速理解相关的三个能力,而这三个作为整个AI世界里最容易理解的基础能力,能快速地带你了解到如何应用AI到你的产品里。

目录:

  1. I. 图像文字识别(OCR)
  2. II. 语音识别 (ASR)
  3. III. 机器翻译
  4. IV. 总结
  5. V. 一些额外的阅读建议

一、图像文字识别 (OCR)

很多人应该都有这样的困扰,比如在逛淘宝的时候,想要去搜索详情页的大图里的文字简直难于上青天,因为图片里的文字是没法复制的。一些不太懂一些“歪门斜道技术”的人也很难破解那些“禁止右键”或“禁止复制”的破网站的限制,拿到想要的文字。有时你也可能需要从截图里获取文字,或者快速扫描手头的文档、电子化课堂里的板书。 这些场景正是OCR的用武之地。OCR是Optical Character Recognition(光学字符识别)的缩写,更多的我们会叫它“文字识别”或者“图像文字识别)。在现在的手机App里很容易找到OCR的身影,如微信最近的更新使得你可以在聊天记录中搜索文字,会找到提到这个文字的图片;iOS的实况文本功能可以在输入框中快速录入现实生活中的文字等等。

OCR是一种让计算机能识别和提取图像中的文字的AI技术。它的工作原理(简化到六岁小孩能理解的难度的话)可以认为是AI通过研究各种图片里文字的形状和模式,学会了在图片里“找文字”并把每个文字与已知的字符去匹配,最后告诉你“字在哪”和“这些字是什么”的技术(当然这个解释非常地不科学,你就将就看吧)。有了这个技术,再加上一些非常简单的交互和UI就可以做到根据需要去编辑、搜索或存储你提取的文本了。

如引入部分提到的,OCR的一个常见用例是在快递行业。在填写收件人信息时,用户通常会截取表单的截图并提取文本以便快速填写。OCR使这个过程更快更有效,因为用户不必手动输入所有的信息。而且在截图场景下,像手机号的识别准确率会非常非常高。

OCR还可用于各种其他行业,如医疗保健、金融和教育。例如,OCR可用于从医疗记录、财务文档和学生成绩单中提取和组织信息。在一些特殊的模版下,OCR能力结合一些图像处理的技术,也可以把一些固定格式的内容快速提取出来,形成结构化的信息并录入到数据库中;当结合一些自然语言处理(NLP)技术时,也可以做到一些非结构化的信息提取。

然而,在使用OCR时还是会有一些需要考虑的问题的。其中一个挑战是,你想让OCR识别得准,你的图片就得很高清优质。如果图像模糊或扭曲,OCR可能就没办法很准确地识别了。有一个比较容易理解的评估方式就是,如果人能轻松认出这个字是什么,机器的准确率通常会很高;但如果人需要费很大的劲,甚至需要结合上下文去猜测,那么机器一般就不是很能准确地进行识别。

另外,像一些潦草的手写,用通用的OCR有时也会识别困难。当然,通用的AI能力在特殊的场景下,一般比不过对这个场景做专门优化的能力。比如在有道智云这个AI开放平台里,通用文字识别、手写文字识别和公式识别是三个不同的接口。比如在教育场景下的公式识别,可以识别出LaTeX格式的公式,让在客户端渲染公式时更轻松容易。在我们的产品中如果有相应的场景,可以去接入试试看。

二、语音识别 (ASR)

语音识别,或者说ASR(Automatic Speech Recognition,自动语音识别),则是让计算机听懂“语音”的技术。它能将语音转换为文本,使用户无需打字就能更方便地输入信息或发出命令。

ASR通常用于智能语音助手,如Siri和小爱同学,以及各种叫“转录”或“听写”的软件。还是拿微信举例子,微信的语音转文字就是一个非常典型的ASR能力的例子,没有它你可能每天都被(你讨厌的)某些朋友进行60s轰炸。其它的例子比如如语音输入法、语音导航等等。它还可以用于各种行业,包括客户服务、教育、音视频行业等等。

例如,在客户服务行业,ASR可用于创建交互式语音应答(IVR)系统,让用户可以用语音就和“外呼机器人”对线。当然更早期还没有现在这么智能的机器人,早期其实是做一些简单的“回答”就可以让用户找到他们需要的信息,有效减少了(某些公司——合理怀疑——根本就不存在的)人工客服。在教育行业,ASR应用还是很广泛的,比如在线课程的字幕识别、学生的课文背诵和语音问答等等。最新的B站也终于加了“字幕自动识别”,结合后文的机器翻译就可以快速理解原本不懂的外文影片了。

在产品里集成ASR的好处可太多了。主要的原因其实就是它能解放双手,不需要再去打字,这样无论是输入速度还是精确性都会提高不少,产品的可用性也会有提升。

和所有其它AI能力一样,在使用语音识别能力的时候,要特别注意使用场景,同时也会搭配一些额外的能力使用。如实时交流的过程中,需要加入VAD能力来判断用户的一段话是否已经说完(在有道智云这些能力都已经集成进了接口中),同时对时延的要求非常高,通常要求时延在200ms以内。相对的,在长语音文件转写的场景里,用户等待的时间就可以适当放宽,在产品设计上可以批量提交后系统转写再通知用户完成(异步处理)。一般来说,一个商用的ASR系统的加速比一般是在1:30、1:50甚至更高,即半小时的音频,在一分钟就可以转写完毕,大家可以在产品设计的过程中参考这一数字。

然而,在使用ASR时也有一些问题需要考虑。其中一个挑战是,这项技术可能并不总是能准确识别不同的口音或方言。此外,背景噪声会干扰ASR过程的准确性。当然,和OCR一样,如有道智云这种面向开发者的AI平台一方面会充分考虑通用性,在系统内部进行了对噪声的处理,同时兼容不同的方言和口音,有必要的时候还可以考虑通过声纹识别等新的技术进行优化,另一方面如果有特殊的需求(如对某种特定方言的准确识别),也可以和他们的商务联系来获得更积极的支持和优化。

三、机器翻译

机器翻译是一种让计算机将文本内容从一种语言转换成另一种语言的技术。它可以用来实时翻译网站、文档,甚至是对话。

机器翻译适用于各种行业和场合。例如,在社交相关的产品上,跨语种的交流总是会有语言障碍。加入了机器翻译后,跨语种的交流就成为了可能。同时像产品描述或客户服务查询这种官方提供的文档,也可以在低成本的条件下可以轻易拓展更多国家的用户群。同时,翻译能力可以让我们的产品更容易为说不同语言的人所接受,从而使我们能够接触到更广泛的受众,也可以提高沟通的效率和信息传递的速度。

和上文我们提到的OCR、ASR能力结合在一起,会起到更奇妙的化学反应。

当输入是图片时,可以进行图片翻译,这种翻译方式除了结合了OCR、机器翻译外,还使用了多种新技术(如对抗生成网络、篇章语义理解等等),使得不仅能让用户快速理解图片中的文字,甚至可以把文字直接绘制在背景上,就好像原本照片上就是目标语种的文字一样,这样能大大降低用户的理解难度。

而当输入是语音时,又有一些新的玩法。比如可以实时地进行会议场景下的字幕翻译,还可以和一些其它的语音技术相融合。比如可以直接把翻译后的内容读出来(TTS技术),甚至可以用你自己的声音读出来(声音复刻的PR稿,链接)。

当输入是PDF这类文档时,由于文档有可能是图片格式、有可能是文字格式,需要配合针对性的解析服务(pdf转word)来使用。有道智云也提供了“文档翻译”这样的能力(可以公有云接入,也可以私有化部署),直接上传pdf、excel、ppt等格式的文档,就可以下载对应的译文。

然而,在使用机器翻译时,也有一些需要考虑的问题。翻译的质量不一定在任何情况下都很好,特别是对于那些更复杂或有很多习语和文化参考的语言。 在这种情况下,有可能需要一些术语库(链接)甚至是专业领域模型的支持。比如有道智云提供了医学、金融、计算机等多个领域的专有领域模型。 此外,机器翻译过程有时会改变原文的语气或意图。比如日语中的敬体、敬语,在和中文互译时,受限于语言本身的差异,有时就会丢失掉原本听话人的感受(比如中文很难表述出日本人花样繁多的敬语之间的细微差异)。当然,随着技术的发展,这些问题也在慢慢地解决中

四、总结

在这篇博客文章中,我们探讨了如何将图像文本识别(OCR)、语音识别(ASR)和机器翻译应用于识别信息并为不同行业的用户解决他们的痛点。作为产品经理,重要的是在了解这些AI能力之后,考虑这些技术如何提高产品的价值和吸引力。有了像有道智云(链接)这样的AI开放平台,将这些AI功能集成到产品中是很容易的。他们提供了所需的基础设施和算法,因此你就可以专注于改善用户体验并为客户解决挑战。

如果你有兴趣将这些AI功能集成到你的产品中,接下来你可以采取以下几个步骤:

  • 研究各种可用的人工智能功能,并确定哪些功能最相关,对你的产品和用户最有益。
  • 探索像有道智云这样的AI PaaS平台,他们可以提供将这些技术轻松集成到你的产品所需的基础设施和算法。
  • 考虑在集成AI能力时一些潜在挑战和限制,并相应地制定计划,通过产品设计规避他们,甚至把它变成产品的亮点。
  • 测试和迭代以确保你实现的AI功能能够为用户增加价值并解决挑战。

不要让集成AI的“难度”成为了阻止你成为一个AI时代的产品经理的问题,当然,更容易的方法是直接联系他们平台的商务(链接)人员,获取更加直接的支持。

本文由@王也弱 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash, 基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

本文【语音识别技术包括哪些_简述语音识别技术的典型应用】由作者: 前端后端 提供,本站不拥有所有权,只提供储存服务,如有侵权,联系删除!
本文链接:https://www.cuoshuo.com/blog/4197.html

(0)
上一篇 2023-03-10 08:31:02
下一篇 2023-03-10 08:43:12

相关推荐

  • 华为win10关闭自动更新方法(怎么设置windows不自动更新)

    目前大多数人所使用的电脑还是Win10系统,但是它有一个让我们非常头疼的问题,就是系统总会自动更新。如果我们不想要自动更新,有什么方法可以帮到我们吗?win10怎么关闭自动更新?那就看看本文的三大方法! 操作环境: 演示机型:Dell optiplex 7050 系统版本:Windows 10 一、Windows设置 我们想要关闭系统的自动更新,win10更…

    2023-03-14
    100
  • poi是什么意思

    对于我们咫尺同城圈的运营者来说,POI这个词一定不陌生,想要进行商品的添加,商家的入驻,都必须提到POI。 那么POI是什么,如何进行POI的认领,以及如何能快速的通过POI的商品审核呢?今天用这篇文章跟你们讲清楚! 一、POI是什么 POI是“Point of Interest”的缩写,意即兴趣点,可以简单理解为非地理意义的有意义的点,一个POI可以是一栋…

    2023-03-20
    000
  • 正弦函数图像面积怎么求(正弦函数一个拱的面积)

    用“曲线下的面积”来描述积分,就像用一串单词来描述一本书。 正弦函数的积分是其曲线下的面积。几何直觉就是:“正弦的积分是沿圆周路径的水平距离。”这句话第一次听说感觉比较抽象,当你理解了就会觉得它非常的美妙 一般的思维模式求正弦函数的积分就是:用黎曼和原理 在这里我们想象一下sinx的变化 X是我们当前的弧度角。在单位圆上(半径= 1),角度就是沿圆周的距离。…

    2023-03-17
    300
  • 嵌入式fpga是什么意思_fpga取代嵌入式

    数字集成电路有两种类型:ASIC和FPGA(现场可编程门阵列)。专用集成电路(ASIC)有一个预先定义的特定硬件功能,在生产后不能重新编程。但FPGA可以在制造后可无限编程。 FPGA是一种集成电路,一种可编程芯片,它允许工程师对定制的数字逻辑进行编程,可以根据程序改变其硬件逻辑。主要目的是允许工程师重新设计和重新配置他们的芯片更快,更便宜,只要他们想要,然…

    2023-03-09
    900
  • qq互联授权管理为什么不全(qq授权管理在哪里设置)

    如今个人信息泄露事件频频出现 在使用不同的APP或者网站注册新账号时 相信不少人都会图个方便 直接用微信或者QQ授权登入 不过在使用授权登入的同时 这些 App 以及网站都通过微信( QQ ) 读取到我们的一些个人信息 这样的习惯或多或少存在一些信息安全隐患 不要怕,这个是可以解决滴~ 今天蜀黍就和大家分享下 如何检查那些年自己的微信、QQ 以及微博、小程序…

    2023-03-19
    100
  • while循环至少执行几次_while循环常见错误

    循环:有些事情可以反复执行 算法里面三大结构之循环结构。 while 循环 do…While循环 For循环 一、while循环 1、形式: while (表达式) // { //语句 } 表达式 每一次循环都要判定表达式的值 如果为真(表达式的值为1)执行循环 否则不再执行循环 为假的时候不循环(跳出循环),执行后面的代码。 执行流程:(1)第…

    实用教程 2023-03-14
    100
  • linux系统基础入门教程

    一 Linux简介 Linux是基于Unix的开源免费的操作系统 由于系统的稳定性和安全性几乎成为程序代码运行的最佳系统环境 Linux是由Linus Torvalds(林纳斯 托瓦兹) 起初开发的 由于源代码的开放性 现在已经衍生出了成千上百种不同的Linux系统 最最最常见的发行版本是CentOS 二 Linux目录结构 三 Linux基本命令 1. 目…

    2023-03-12
    300
  • 如何用随机数表产生随机数_生成随机数的方法

    今天跟大家分享一下如何利用Excel生成和为指定数的随机数 1.如下图我们想要生成和为100的12个随机数。 2.选中D2:F5单元格区域 3.点击下图选项(Excel工具箱,百度即可了解详细的下载安装信息,本文这里就不做具体解说) 4.依次点击【随机重复】、【随机分摊】 5.点击【按总和分摊】,然后在【目标总和】中录入100. 6.调节离散程度选项,设置随…

    2023-03-09
    600
  • mysql有哪些数据库引擎

    执行如下指令查看所有mysql所有的存储引擎 InnoDB存储引擎 InnoDB是事务型数据库的首选引擎,支持事务安全表(ACID),支持行锁定和外键,上图也看到了,InnoDB是默认的MySQL引擎。InnoDB主要特性有: 1、InnoDB给MySQL提供了具有提交、回滚和崩溃恢复能力的事物安全(ACID兼容)存储引擎。InnoDB锁定在行级并且也在SE…

    2023-03-09
    800
  • QQ数据库可以查到什么

    扁平化设计已经成为一种流行趋势,无论是操作系统还是应用软件,各个方面都有所体现。最新版本的QQ软件中,也增加了几个全新的头像,这些头像就是采用的扁平化设计,看上去非常可爱。那么如何将这些全新的头像提取出来呢? 深挖QQ数据库文件 QQ头像等信息,都集中在一个名为Data.rdb的数据库文件中。如果用户已经安装最新版本的QQ软件,那么进入到X:\Program…

    2023-03-21
    000

发表回复

登录后才能评论
返回顶部
错说博客上线啦!