语音交互、及时打断,VIVO看见AI对话模式如何提升效率

数码小果酱
熬夜修仙。法力无边。我命由我。不由天。

随着2022下半年


ChatGPT


的横空出世,短短两年时间内,各种AI大模型便百花齐放。面对千模百态,人们也从刚开始的惊叹、盲从,逐渐趋于理性,开始更多地审视各种大模型的优劣和特点,从中精选出自己满意的产品。


在视障辅助领域,目前使用最多,知名度较高的,除了“Be My Eyes”,就应该是Vivo看见了。


Vivo看见升级到3.0版本后,在原有综合模式中,增加了


AI对话


模式。在综合模式界面下方中间,会摸到一个定格按钮。点击这个按钮后,就会在定格按钮左边,摸到一个对话按钮。点击对话,就进入了AI识别模式。


Vivo看见选用的是, Vivo自己开发的蓝心大模型。这个模型又有什么优势呢?


图为:用VIVO看见对一幅画进行识别


根据vivo宣传,蓝心大模型在C-Eval、CMMLU、


SuperCLUE


三个榜单中都名列前茅,号称中文能力行业第一。


被社会毒打多次的老鸟们都不会把商家的宣传太当回事。在凰家评测最新一期手机AI能力测试中,vivo X100s、vivo X100 Ultra分别位于前两名。看来蓝星大模型还是有点东西的。


对于我们视障人来说,把识别出来的描述作为重要的参考依据,AI能力越强显然得到的反馈肯定是更好。实际使用中,除细节描述略逊于“Be My Eyes”外,识别准确性能力相差不大。


然而,除了识别信息的准确性,识别速度,同样也是视觉辅助AI,比较重要的衡量指标,毕竟准确率再高,等待时间过长依然是一种煎熬。这也是本文想着重讨论的vivo看见的速度优势。


现今AI工具以在线为主,需要传送至服务器分析,再反馈结果,存在等待时间是难以避免的,但这个时间肯定是越短越好。这方面Vivo蓝星就体现出了本土优势,一般3~5秒就有了回复,基本比“Be My Eyes”快3~4倍。


同样一个回复,vivo5秒以内就能返回,“be my eyes”却要十几秒,有时候可能会更慢,应该跟同时使用人数有关联。但人总是贪心的,总希望能越快越好。Ok,如您所愿,下面就讲讲,如何加快 Vivo看见 AI识别速度的技巧。


1.使用语音对话


与Be My Eyes只有单一文本输入不同, Vivo看见对话模式既可文字输入,也能语音交互。相对于通过输入法进行文字录入,直接下达语音指令,效率肯定更为快捷。当一段场景语音描述完成,软件会提示您下达指令,您就可以直接语音对话,然后等待AI回答。这样,减少了触摸屏幕,找寻对话框,输入文字等步骤,让人机交互更精炼、快速。


曾经看到有朋友使用蓝牙遥控器,控制Be My Eyes拍照进行识别, Vivo看见 AI对话,可以直接通过语音指令,实现同等效果。


当 AI对话描述完毕,若无需再次提问,可直接呼喊重新拍照,这是一个语音指令,软件接收以后,会结束对话,回到 Vivo看见综合模式界面,这个时候听到的又将是综合模式识别语音,这个离线语音库和 AI对话语音存在明显差异,很容易分辨。听到离线语音后,就可以再次呼叫拍照,软件就会自动拍照,然后进入下一轮识别程序。


全程语音,无需手动,无论提问,还是拍照指令,都可随机下达,无限循环,让人机交互更为流畅。


2.及时打断,问我想问


因为AI对话语速较慢,如果是熟悉场景,会发觉整段场景描述有些多余,是在浪费时间。这个时候,我们就可以用软件提供的打断功能,直接中断AI描述,进行针对性提问,快速得到相应答案,这样,就可以将一次问答时间,缩短到十几秒,已基本和问询他人相当。


比较遗憾的是,目前点击打断功能,还需要接触屏幕,摸索到按钮,进行手动干预。势必会耽误时间,让进程变得不那么流畅完美。希望vivo看见能在后续版本更新时,尽量能实现全程语音交互。而且现在AI对话语音描述语速无法调节,如果赶时间,汇集的人上火。也希望能增加调节AI对话语速的选项


以下是利用Vivo看见蓝星AI识别具体应用上述指令功能的视频:


行文至此,也还有话要说,很多人对于AI描述的利用还不太充分,除了我视频中掩饰的描述、查找物品、分辨颜色外,下面我举几个生活场景的应用例子给大家打开一下思路。


1.看指示灯


多数充电宝采用的是,几颗led指示灯显示电量,这对视障者很不友好。选择带语音的款式,既增加了选择难度,又限制了选择品种。但现在可以通过AI识别,解决这个问题。


用手机对着充电宝电量显示 Led灯珠拍张照,直接询问亮灯数量,就可以知晓具体电量。这种方法,适用于所有依靠 Led指示灯变色,或者根据指示灯数量多少,显示状态的设备。


在面对陌生的家用电器时,也可以让 AI按照指令依次描述按键名称和位置,让您能更快熟悉按键布局。


2.描述陌生环境,构建心里地图


走进一个陌生房间,掏出手机通过拍照加反复询问,就能大致知道房间的布局和有什么摆设等。


在外面独立出行的时候,在途经点选择关键位置,先期进行拍照识别,不仅能够了解周围环境,下次走到同样位置还可以对照识别来判断是否走错。


3.看各种屏幕


电脑突然不出声了,掏出手机识别一下,不仅能告诉你显示了什么文字,还能给你描述窗口有哪些按钮和提示。也可以给出相应的解决方案。


4.描述自己


我们甚至可以站在镜子前,对着镜子拍照,让 AI辅助您进行服装搭配。当然了。这时候AI可能只会捡好听的说,你可别太当真了。


图为:左边是VIVO看见的LOGO和介绍,右边是一个人露出右手拿着手机拍一束花


结语


随着AI大模型越来越强大,平时使用的频率也越来越高,不知不觉间,已深入到日常生活很多层面。


每当我走到酒店大厅,就随手拍一下,咖啡机,沙发、茶几,电梯门,等等信息不用询问他人,不用盲杖去探索,就能获取到。


每当我在窗前发呆的时候,也会随手拍一下窗户,外面的天气,树上的叶子,天空的颜色,等等信息也会传入我耳中。


通过随手拍一下,以前难以获取的信息会逐渐被我注意到。


以前,我为分清刺黄瓜和苦瓜搞得一筹莫展,因为他们摸上去好像;也曾经将赤小豆和绿豆混为一谈,闹出了不少张冠李戴的洋相;也有过将袜子颜色不分,一脚灰一脚黑出门。


但现在这些烦恼,通通都一拍解决。AI依然存在这样那样的问题,描述的效果也未能尽善尽美。但是,就这些也够我们好好玩一阵子了。

发表于:2024-09-20 10:06
3个回复
您还没有登录,登录后才可回复。 登录 注册