岁末家书：技术、成本与初心，三方读屏发展的未来之路

点明公告 1513965

点明小五 等级:8

点明圈，看得见的社交圈！！！

更多操作

跳转楼层

只看楼主

帖子日志

打开或者下载APP，畅享极致体验，如无法打开或下载，请通过右上角更多里面的浏览器打开

亲爱的点明用户朋友们：

这封信有些长，但我们仍衷心希望您能耐心读完。因为我们想把这些年藏在技术背后的话，像老朋友一样，慢慢说给您听。

“过了腊八就是年”，喝过腊八粥，年关的温度仿佛就渐渐地浓郁了起来。窗外的冬天尽管还透着寒意，但心里那份对新春的期盼，已经让周遭的一切都显得暖融融的。就在这岁末的烟火气里，我想和大家聊一个近来在盲圈里被反复提起的词——大模型语音输入。它听起来很技术，很未来，可它又真真切切关系到我们每个人手上的那个读屏软件，关系到每一次触摸和每一次聆听。所以今天，有些积攒在心里的话，想毫无保留地和大家聊一聊。

其实，这场头脑风暴在我们内部从未停止，就如点明10周年庆典时，汪总所说：“得益于AI能力的不断进步，读屏软件的能力边界一定会得到更多的拓展，无障碍体验一定会得到前所未有的变革，而点明也一定会随时关注所有能对读屏软件带来改变的科技能力。”因此，过去的四年，我们有了视觉对话、有了自然语音、有了智能面板、有了全新的点明看看、有了刚刚升级的音频编辑器，甚至有了接入了AI模型的易学管理系统及其智能测算功能。

自从接入火山自然语音之后，工程师们就一直在尝试和体验大模型加持的一些新技术，比如语音合成、语音识别、语义理解等，他们不断地在调研、测试、反复对比体验，这些工作一直在默默进行，也一直和一些大厂的技术专家在一起探讨技术方案的可行性，同时与商务探讨成本的可控性。今天之所以想敞开聊聊，是因为我们发现，当大家热切讨论一个新技术的时候，往往看到的只是它闪亮的前沿，而很少有机会了解产品背后那些现实的重量与抉择。这重量，关乎体验，更关乎成本。

说到体验，我想先跟大家回顾一些“来时路”。或许很多朋友并不知道，您手指下滑过的每一段流畅朗读，耳边听到的每一句清晰提示，背后远非简单的“集成一个接口”那样轻松。就拿大家最熟悉、也最依赖的64位讯飞语音库来说吧。为了让它的音质更干净、断句更舒适、响应更跟手，我们放弃了直接使用讯飞官网的公开基础版本，而是选择了一条更费时费力也更昂贵的路——特殊定制。点明的工程师们和讯飞的伙伴们耗时两个月，针对视障用户特有的听觉习惯和交互需求，一点点地打磨调教。这不是锦上添花，在我们看来，这是对视障用户基本尊严的守护。声音，是视障者接触数字世界的主通道，它不该是刺耳或生硬的，它应该尽可能地熨帖、自然。这份追求，让我们心甘情愿地承担了那份高昂的定制费用，和从读屏软件安装起就开始计算的额外单机授权费。

语音输入的故事则更长，也更直接地映射出一家小公司的成本困局。时间倒回2024年以前，那时候32位输入法还没有上架限制，我们还没有下定决心，投入巨额资金与搜狗合作，定制开发现在大家用的“指尖输入法”和新版本的“点明输入法”。在那之前的近十年里，点明的语音输入服务一直依赖着讯飞。那时的日均调用量，已经超过百万大关。这是一个多么惊人的数字，它代表着每天超百万次的需求，百万次的信任。我们和讯飞进行了多轮商务洽谈，争取到了他们所能给予的最大力度优惠。可即便如此，每一次语音转文字调用的成本，仍然在一厘钱以上。您可能觉得一厘钱微不足道，但请算一笔账：按一天一百万次，一年就是三亿多次。仅仅这一项，每年硬性的技术调用成本就高达三四十万元，这还仅仅是语音输入一项。

再来说说语音助手的情况。在2025年4月之前，点明语音助手一直基于讯飞的AIUI服务，其成本同样按调用次数计算，单次费用甚至比语音输入更高。尽管成本不菲，我们仍在2025年尝试推出了全新的语音引擎——它融合了AI大模型及多项聚合资源，旨在构建更智能的助手。这一尝试的主要目的并非为了节约成本（事实上，大模型调用按Token计费，部分第三方资源也需额外付费），而是希望顺应技术趋势，因为当时主流手机系统的语音助手都已陆续接入大模型。

然而经过数月的真实使用，我们发现事与愿违。新版语音助手虽然支持了大模型的推理能力，但许多基础功能——尤其是点明软件原有的特色操作，在体验上反而有所倒退，最明显的是响应速度。原因在于，云端大模型每次调用都需要经历完整的推理计算，即便最快也需约2秒，复杂情况下更久，且结果存在一定的不确定性，这导致语音指令的识别准确率下降。相比之下，手机系统自带的语音助手之所以响应迅速、结果稳定，是因为它们能将大模型能力与芯片深度集成，并与系统层进行定制化适配，这对我们这样的三方应用来说，目前难以实现。

正因如此，我们再次确认：用户体验永远是第一位的。于是在2025年9月，我们决定将语音助手重新切换回讯飞的AIUI方案。这也意味着，我们继续承担着每年近二十万元的该项成本支出。

如果再算上另一项核心服务——OCR文字识别。在早期，它同样依赖第三方的付费接口，每一次文字图像的识别，都意味着成本的流出。我们像是在小心翼翼地驾驶着一艘船，既要努力装满大家需要的货物（功能），又要时时警惕船舱的吃水线（成本）。幸运的是，航行途中我们遇到了灯塔。腾讯公司在早些年向我们慷慨地伸出了援手，免费提供了OCR服务，解决了我们的燃眉之急。这两年，vivo也以极大的善意，无偿向我们开放了他们的OCR服务、语音转文本，乃至部分大模型能力。这些来自头部企业的爱心支持，像雪中送炭，让我们在技术的洪流中得以喘息，能够继续为大家提供稳定、高质量的识别体验，而不至于让成本彻底压垮我们。

然而，这些看得见的大项支出，只是水面之上的冰山一角。水下，是更庞大、更复杂的支撑体系。比如，提供各类验证码的底层识别服务，提供各类按流量计算下载的云空间服务（如点明市场、生活伴侣等），保障几十台云服务器稳定运行的运维投入，为了让大家在不同品牌、不同型号的手机上都能顺畅使用而进行的无穷无尽的兼容性开发……这些地方没有鲜花和掌声，只有持续不断的资金投入和工程师们掉落的头发。每一个“免费”或“好用”的功能背后，都堆叠着这些沉默的成本。

现在，让我们把话题拉回到那个光鲜的“大模型语音输入”上。我们必须坦诚且由衷地承认，科技的进步是令人振奋的。在特定的、小众的场景下，比如朗读或输入一首冷僻的古诗词，比如处理一段专业的医学术语，大模型加持后的语音转写准确率，确实有了肉眼可见的提升，同时对于一些复杂环境下，语音识别的准确性也有所提升，这项技术的潜力是真实的，我们对此毫无异议。

但与此同时，作为一家必须对用户体验负责、也必须对企业生存负责的公司，我们不得不冷静下来，看清两个或许不那么“性感”的核心现实。

首先是从实际使用的角度看。经过我们长时间的测试与对比发现，这种准确率的显著优势，更多是体现在上述那些低频、小众的需求中。而对于我们日常使用频率最高的场景——聊天社交、快速搜索、书写笔记来说，当前大模型语音输入的实际体验，与我们目前使用的搜狗、vivo语音输入方案相比，差距并没有想象中那么大。很多时候，那种提升甚至是细微难察的。这意味着，如果我们为了一个在小众场景下更优的体验，去进行全面替换，对大多数用户日常的使用幸福感提升，可能相当有限。

其次，也是更现实的一环，就是成本的剧烈飙升。这可能是许多朋友未曾深入了解的。根据目前主流云服务商对大模型语音识别服务的定价标准，其单次调用成本，远超我们之前使用的传统语音服务。如果我们贸然决定，将这项服务免费向所有用户无差别地开放，那么每年新增的服务成本，将轻松逼近百万元级别。这个数字，并非危言耸听，而是基于我们现有用户规模和使用习惯的谨慎推算。

请大家理解，点明并不是一家财大气粗的互联网巨头。我们是一家员工总数不算庞大，却承载着超百万级别视障用户信赖的小公司。我们有一支20多人的全职专业客服团队，他们中绝大多数是视障伙伴，一年到头守在电话、QQ群和点明圈里，为大家排忧解难。我们还有一群埋头苦干的研发工程师，为了一个更好的交互细节绞尽脑汁。公司的运营、研发、售后保障，每一环都需要健康的资金流来维持。在如今整体市场环境充满挑战的时期，每年近百万的额外成本支出，不是一个轻易可以做出的决定。它带来的压力，最终可能会侵蚀我们持续优化核心功能、保障服务质量的能力，这和我们“体验至上”的初心，是相悖的。

回顾这些年，我们所有重要的决策，其实都围绕着一个核心：如何在有限的资源内，最大化地保障和提升大多数用户的真实体验。我们投入重金定制64位讯飞语音库、定制输入法、坚守语音助手等等，是因为这些关乎手机操作的基础体验。我们顶着压力，也坚持保留通讯、桌面、锁屏、记账、工具箱、点明看看、音频编辑器等几十项增值功能，是因为我们知道，它们已经深深织进了许多用户的生活脉络里，构成了一个完整的无障碍生活套件；我们组建并不断扩大专业的客服团队，是因为我们坚信，再好的软件也需要有温度的“人”来托底。即便再难，我们也从未想过要在研发投入和客服品质上打折扣。

但我们同时也明白，企业的善意与理想，需要建立在健康的商业循环之上。没有可持续的支撑，所有的承诺都会变成空中楼阁。今天和大家如此细致地分享这些，绝不是为了诉苦或辩解，而是希望呈现一份透明的账本。我们相信，真正的信任源于了解。了解每一个便捷功能背后的重量，了解每一次“免费”背后的权衡，也了解我们那份如履薄冰却又无比坚定的坚持。

我们知道，读屏软件对您而言，不是众多App中的一个，它可能是连接社会的一扇窗，是独立生活的一根杖，是获取知识的一盏灯。这份沉甸甸的托付，我们不敢有丝毫怠慢。因此，面对像大模型语音合成和语音识别（语音输入）这样的新技术诱惑，我们的态度是积极而审慎的。我们绝不会固步自封，忽视技术的浪潮。

恰恰相反，我们会更紧密地追踪它的发展，更深入地探索它在我们场景下的落地可能性。我们正在思考各种路径：比如，是否可以针对确有强烈专业词汇输入需求的用户，推出一个可选的、付费的增值服务包？这样，需要的人能获得升级体验，而大多数用户不必为用不上的功能分摊成本。又或者，未来是否有机会，再次携手像vivo、腾讯这样的爱心企业，共同探索普惠的技术落地方案？

前方的路不止一条，但无论选择哪一条，我们的出发点都不会变：那就是您的真实需求，和点明软件长远、健康的发展。我们不想做噱头的追随者，只想做您靠谱的同行者。

所以，在这封信的最后，我们格外渴望听到您的一些声音。这不仅仅是一次告知，更是一次诚恳的探讨，未来的读屏应该怎么走？比如：

1、广义上讲，谁都希望用上更精准、更高效的语音输入，作为读屏的一个标配，这个是最理想的一个方式。再比如大模型语音合成，如果三方技术已经达到合成更自然、音色更多样、方言更贴心，交互操作的延迟感也能接受，作为读屏软件的耳朵，谁有理由不用它？但现实就是这些新技术都是按实际使用的服务时长进行计费，使用一秒计一秒，没有任何按License的计费方式，现有的三方读屏收费模式和定价，无论是一次性串号版买断，还是会员模式，如果完全覆盖这些成本，显然已经不可能。

2、对于这样的一些新技术升级，如果直接通过软件涨价来平摊成本，对于一些不关注新技术、或者偶尔使用一下的人来说，可能也是不公平的，合理的规则是不是应该在保障读屏基础功能的前提下，对于一些按量计费的增值服务，谁使用多，谁就承担更多的成本？那么，您愿意为这样的一些个性化服务买单吗？

3、我们相信读屏发展的未来之路，一定是更多三方技术的融合，读屏软件对视障用户、对开发者来讲，也将从一个单一产品慢慢演变成服务，你同意这样的观点吗？

以上观点，欢迎大家坦诚交流，您的每一条建议，都会成为我们前进的参考。您的每一条反馈，也将成为我们产品决策会上最重要的参考依据。因为点明的未来，从来不是我们独自描绘的蓝图，而是和您，每一位用户，携手一步步走出来的道路。

寒冬虽冷，但温情常在。我们深深感谢过去无数个日夜里，您给予点明的每一次信任、每一次包容。我们也铭记着腾讯、vivo等伙伴为无障碍事业伸出的援手，这份道义，我们不敢或忘。前路或许仍有风雪，但只要我们彼此信任，相互支撑，就能一起把脚下的路走稳、走远。

点明软件会始终记得为何出发——那盏想为视障者点亮的明灯，光虽微，却求恒久。我们愿守护好这束光，在保障核心体验温暖、可靠的基础上，与您一起，耐心而满怀希望地，迎接技术进步带来的每一次真正惠及于我们的曙光。

回复楼主(151) 点赞(29) 打赏(1) 收藏(2)

发表于：2026-01-28 16:46

本帖最后由管理员于2026-02-09 14:15:53 取消置顶

151个回复

您还没有登录，登录后才可回复。登录注册

岁末家书：技术、成本与初心，三方读屏发展的未来之路

等待播放