岁末家书:技术、成本与初心,三方读屏发展的未来之路

亲爱的点明用户朋友们:

这封信有些长,但我们仍衷心希望您能耐心读完。因为我们想把这些年藏在技术背后的话,像老朋友一样,慢慢说给您听。

“过了腊八就是年”,喝过腊八粥,年关的温度仿佛就渐渐地浓郁了起来。窗外的冬天尽管还透着寒意,但心里那份对新春的期盼,已经让周遭的一切都显得暖融融的。就在这岁末的烟火气里,我想和大家聊一个近来在盲圈里被反复提起的词——大模型语音输入。它听起来很技术,很未来,可它又真真切切关系到我们每个人手上的那个读屏软件,关系到每一次触摸和每一次聆听。所以今天,有些积攒在心里的话,想毫无保留地和大家聊一聊。

其实,这场头脑风暴在我们内部从未停止,就如点明10周年庆典时,汪总所说:“得益于AI能力的不断进步,读屏软件的能力边界一定会得到更多的拓展,无障碍体验一定会得到前所未有的变革,而点明也一定会随时关注所有能对读屏软件带来改变的科技能力。”因此,过去的四年,我们有了视觉对话、有了自然语音、有了智能面板、有了全新的点明看看、有了刚刚升级的音频编辑器,甚至有了接入了AI模型的易学管理系统及其智能测算功能。

自从接入火山自然语音之后,工程师们就一直在尝试和体验大模型加持的一些新技术,比如语音合成、语音识别、语义理解等,他们不断地在调研、测试、反复对比体验,这些工作一直在默默进行,也一直和一些大厂的技术专家在一起探讨技术方案的可行性,同时与商务探讨成本的可控性。今天之所以想敞开聊聊,是因为我们发现,当大家热切讨论一个新技术的时候,往往看到的只是它闪亮的前沿,而很少有机会了解产品背后那些现实的重量与抉择。这重量,关乎体验,更关乎成本。

说到体验,我想先跟大家回顾一些“来时路”。或许很多朋友并不知道,您手指下滑过的每一段流畅朗读,耳边听到的每一句清晰提示,背后远非简单的“集成一个接口”那样轻松。就拿大家最熟悉、也最依赖的64位讯飞语音库来说吧。为了让它的音质更干净、断句更舒适、响应更跟手,我们放弃了直接使用讯飞官网的公开基础版本,而是选择了一条更费时费力也更昂贵的路——特殊定制。点明的工程师们和讯飞的伙伴们耗时两个月,针对视障用户特有的听觉习惯和交互需求,一点点地打磨调教。这不是锦上添花,在我们看来,这是对视障用户基本尊严的守护。声音,是视障者接触数字世界的主通道,它不该是刺耳或生硬的,它应该尽可能地熨帖、自然。这份追求,让我们心甘情愿地承担了那份高昂的定制费用,和从读屏软件安装起就开始计算的额外单机授权费。

语音输入的故事则更长,也更直接地映射出一家小公司的成本困局。时间倒回2024年以前,那时候32位输入法还没有上架限制,我们还没有下定决心,投入巨额资金与搜狗合作,定制开发现在大家用的“指尖输入法”和新版本的“点明输入法”。在那之前的近十年里,点明的语音输入服务一直依赖着讯飞。那时的日均调用量,已经超过百万大关。这是一个多么惊人的数字,它代表着每天超百万次的需求,百万次的信任。我们和讯飞进行了多轮商务洽谈,争取到了他们所能给予的最大力度优惠。可即便如此,每一次语音转文字调用的成本,仍然在一厘钱以上。您可能觉得一厘钱微不足道,但请算一笔账:按一天一百万次,一年就是三亿多次。仅仅这一项,每年硬性的技术调用成本就高达三四十万元,这还仅仅是语音输入一项。

再来说说语音助手的情况。在2025年4月之前,点明语音助手一直基于讯飞的AIUI服务,其成本同样按调用次数计算,单次费用甚至比语音输入更高。尽管成本不菲,我们仍在2025年尝试推出了全新的语音引擎——它融合了AI大模型及多项聚合资源,旨在构建更智能的助手。这一尝试的主要目的并非为了节约成本(事实上,大模型调用按Token计费,部分第三方资源也需额外付费),而是希望顺应技术趋势,因为当时主流手机系统的语音助手都已陆续接入大模型。

然而经过数月的真实使用,我们发现事与愿违。新版语音助手虽然支持了大模型的推理能力,但许多基础功能——尤其是点明软件原有的特色操作,在体验上反而有所倒退,最明显的是响应速度。原因在于,云端大模型每次调用都需要经历完整的推理计算,即便最快也需约2秒,复杂情况下更久,且结果存在一定的不确定性,这导致语音指令的识别准确率下降。相比之下,手机系统自带的语音助手之所以响应迅速、结果稳定,是因为它们能将大模型能力与芯片深度集成,并与系统层进行定制化适配,这对我们这样的三方应用来说,目前难以实现。

正因如此,我们再次确认:用户体验永远是第一位的。于是在2025年9月,我们决定将语音助手重新切换回讯飞的AIUI方案。这也意味着,我们继续承担着每年近二十万元的该项成本支出。

如果再算上另一项核心服务——OCR文字识别。在早期,它同样依赖第三方的付费接口,每一次文字图像的识别,都意味着成本的流出。我们像是在小心翼翼地驾驶着一艘船,既要努力装满大家需要的货物(功能),又要时时警惕船舱的吃水线(成本)。幸运的是,航行途中我们遇到了灯塔。腾讯公司在早些年向我们慷慨地伸出了援手,免费提供了OCR服务,解决了我们的燃眉之急。这两年,vivo也以极大的善意,无偿向我们开放了他们的OCR服务、语音转文本,乃至部分大模型能力。这些来自头部企业的爱心支持,像雪中送炭,让我们在技术的洪流中得以喘息,能够继续为大家提供稳定、高质量的识别体验,而不至于让成本彻底压垮我们。

然而,这些看得见的大项支出,只是水面之上的冰山一角。水下,是更庞大、更复杂的支撑体系。比如,提供各类验证码的底层识别服务,提供各类按流量计算下载的云空间服务(如点明市场、生活伴侣等),保障几十台云服务器稳定运行的运维投入,为了让大家在不同品牌、不同型号的手机上都能顺畅使用而进行的无穷无尽的兼容性开发……这些地方没有鲜花和掌声,只有持续不断的资金投入和工程师们掉落的头发。每一个“免费”或“好用”的功能背后,都堆叠着这些沉默的成本。

现在,让我们把话题拉回到那个光鲜的“大模型语音输入”上。我们必须坦诚且由衷地承认,科技的进步是令人振奋的。在特定的、小众的场景下,比如朗读或输入一首冷僻的古诗词,比如处理一段专业的医学术语,大模型加持后的语音转写准确率,确实有了肉眼可见的提升,同时对于一些复杂环境下,语音识别的准确性也有所提升,这项技术的潜力是真实的,我们对此毫无异议。

但与此同时,作为一家必须对用户体验负责、也必须对企业生存负责的公司,我们不得不冷静下来,看清两个或许不那么“性感”的核心现实。

首先是从实际使用的角度看。经过我们长时间的测试与对比发现,这种准确率的显著优势,更多是体现在上述那些低频、小众的需求中。而对于我们日常使用频率最高的场景——聊天社交、快速搜索、书写笔记来说,当前大模型语音输入的实际体验,与我们目前使用的搜狗、vivo语音输入方案相比,差距并没有想象中那么大。很多时候,那种提升甚至是细微难察的。这意味着,如果我们为了一个在小众场景下更优的体验,去进行全面替换,对大多数用户日常的使用幸福感提升,可能相当有限。

其次,也是更现实的一环,就是成本的剧烈飙升。这可能是许多朋友未曾深入了解的。根据目前主流云服务商对大模型语音识别服务的定价标准,其单次调用成本,远超我们之前使用的传统语音服务。如果我们贸然决定,将这项服务免费向所有用户无差别地开放,那么每年新增的服务成本,将轻松逼近百万元级别。这个数字,并非危言耸听,而是基于我们现有用户规模和使用习惯的谨慎推算。

请大家理解,点明并不是一家财大气粗的互联网巨头。我们是一家员工总数不算庞大,却承载着超百万级别视障用户信赖的小公司。我们有一支20多人的全职专业客服团队,他们中绝大多数是视障伙伴,一年到头守在电话、QQ群和点明圈里,为大家排忧解难。我们还有一群埋头苦干的研发工程师,为了一个更好的交互细节绞尽脑汁。公司的运营、研发、售后保障,每一环都需要健康的资金流来维持。在如今整体市场环境充满挑战的时期,每年近百万的额外成本支出,不是一个轻易可以做出的决定。它带来的压力,最终可能会侵蚀我们持续优化核心功能、保障服务质量的能力,这和我们“体验至上”的初心,是相悖的。

回顾这些年,我们所有重要的决策,其实都围绕着一个核心:如何在有限的资源内,最大化地保障和提升大多数用户的真实体验。我们投入重金定制64位讯飞语音库、定制输入法、坚守语音助手等等,是因为这些关乎手机操作的基础体验。我们顶着压力,也坚持保留通讯、桌面、锁屏、记账、工具箱、点明看看、音频编辑器等几十项增值功能,是因为我们知道,它们已经深深织进了许多用户的生活脉络里,构成了一个完整的无障碍生活套件;我们组建并不断扩大专业的客服团队,是因为我们坚信,再好的软件也需要有温度的“人”来托底。即便再难,我们也从未想过要在研发投入和客服品质上打折扣。

但我们同时也明白,企业的善意与理想,需要建立在健康的商业循环之上。没有可持续的支撑,所有的承诺都会变成空中楼阁。今天和大家如此细致地分享这些,绝不是为了诉苦或辩解,而是希望呈现一份透明的账本。我们相信,真正的信任源于了解。了解每一个便捷功能背后的重量,了解每一次“免费”背后的权衡,也了解我们那份如履薄冰却又无比坚定的坚持。

我们知道,读屏软件对您而言,不是众多App中的一个,它可能是连接社会的一扇窗,是独立生活的一根杖,是获取知识的一盏灯。这份沉甸甸的托付,我们不敢有丝毫怠慢。因此,面对像大模型语音合成和语音识别(语音输入)这样的新技术诱惑,我们的态度是积极而审慎的。我们绝不会固步自封,忽视技术的浪潮。

恰恰相反,我们会更紧密地追踪它的发展,更深入地探索它在我们场景下的落地可能性。我们正在思考各种路径:比如,是否可以针对确有强烈专业词汇输入需求的用户,推出一个可选的、付费的增值服务包?这样,需要的人能获得升级体验,而大多数用户不必为用不上的功能分摊成本。又或者,未来是否有机会,再次携手像vivo、腾讯这样的爱心企业,共同探索普惠的技术落地方案?

前方的路不止一条,但无论选择哪一条,我们的出发点都不会变:那就是您的真实需求,和点明软件长远、健康的发展。我们不想做噱头的追随者,只想做您靠谱的同行者。

所以,在这封信的最后,我们格外渴望听到您的一些声音。这不仅仅是一次告知,更是一次诚恳的探讨,未来的读屏应该怎么走?比如:

1、广义上讲,谁都希望用上更精准、更高效的语音输入,作为读屏的一个标配,这个是最理想的一个方式。再比如大模型语音合成,如果三方技术已经达到合成更自然、音色更多样、方言更贴心,交互操作的延迟感也能接受,作为读屏软件的耳朵,谁有理由不用它?但现实就是这些新技术都是按实际使用的服务时长进行计费,使用一秒计一秒,没有任何按License的计费方式,现有的三方读屏收费模式和定价,无论是一次性串号版买断,还是会员模式,如果完全覆盖这些成本,显然已经不可能。

2、对于这样的一些新技术升级,如果直接通过软件涨价来平摊成本,对于一些不关注新技术、或者偶尔使用一下的人来说,可能也是不公平的,合理的规则是不是应该在保障读屏基础功能的前提下,对于一些按量计费的增值服务,谁使用多,谁就承担更多的成本?那么,您愿意为这样的一些个性化服务买单吗?

3、我们相信读屏发展的未来之路,一定是更多三方技术的融合,读屏软件对视障用户、对开发者来讲,也将从一个单一产品慢慢演变成服务,你同意这样的观点吗?

以上观点,欢迎大家坦诚交流,您的每一条建议,都会成为我们前进的参考。您的每一条反馈,也将成为我们产品决策会上最重要的参考依据。因为点明的未来,从来不是我们独自描绘的蓝图,而是和您,每一位用户,携手一步步走出来的道路。

寒冬虽冷,但温情常在。我们深深感谢过去无数个日夜里,您给予点明的每一次信任、每一次包容。我们也铭记着腾讯、vivo等伙伴为无障碍事业伸出的援手,这份道义,我们不敢或忘。前路或许仍有风雪,但只要我们彼此信任,相互支撑,就能一起把脚下的路走稳、走远。

点明软件会始终记得为何出发——那盏想为视障者点亮的明灯,光虽微,却求恒久。我们愿守护好这束光,在保障核心体验温暖、可靠的基础上,与您一起,耐心而满怀希望地,迎接技术进步带来的每一次真正惠及于我们的曙光。

发表于:2026-01-28 16:46
75个回复
您还没有登录,登录后才可回复。 登录 注册