2024CTIS-文章详情页顶部

核酸检测系统崩溃,东软该不该背锅?

钛度号
“这么多城市已经有过前车之鉴,为什么还一个个接着出现,难道这个问题的锅只甩给软件厂商?”

图片来源@视觉中国

图片来源@视觉中国

钛媒体注:本文来源于微信公众号深蓝观(ID:mic-sh366),作者 | 谭卓曌,编辑 | 王晨,钛媒体经授权发布。

9月2日晚,一个让成都人难忘的周五。疫情又起的成都进行全民大筛时,核酸系统崩溃,群众又冷又饿在雨天中排队数小时。

其背后的软件厂商——东软集团被骂上热搜。这一医疗信息化领域的“老大”、中国第一家上市的软件公司,一夜之间被扒个底朝天,背上了“一个经不起考验的核酸系统”的骂名。

而此时,东软也被“翻旧帐”:今年4月份,上海疫情时,当由万达信息提供的“健康云”系统,在做全民核酸筛查时被切换为东软系统时,也一度陷入瘫痪。

成都这次核酸系统故障,技术层面的讨论不止。有人猜测东软没有做好数据库的分库分表,有人认为东软没有进行压力测试……

无论是哪一种分析,东软都被打上了“技术不行”的标签。

在行业人士看来,核酸检测系统并非是简单的“技术”系统,而是一个响应甲方需求的应急、而又不算规范的“项目”。在实力上,东软并非如此不堪,虽然在某些具体技术上,可能不及互联网大厂,但在项目集成上,这一老牌信息化厂商在业界口碑并不算差。

9月3日下午,东软做出回应,认为目前出现的系统响应延迟、卡顿等现象与核酸检测系统软件无关,而是网络出现故障。对于这样一份被认为是甩锅式的回应,不买账的不仅是成都人民。

在疫情下,全民核酸检测这两年里,杭州、澳门 、西安、上海等十多个城市先后有过核酸系统崩溃故障。有的软件供应商快速解决问题,而有的问题却迟迟得不到解决。“这么多城市已经有过前车之鉴,为什么还一个个接着出现,难道这个问题的锅只甩给软件厂商?

上述人士对全民指责软件厂商不解,他认为技术的漏洞向来不是最重要的症结所在。软件厂商真正难辞其咎的是在于企业管理层面,是否愿意砸资金、砸预算、砸团队?据业内人士分析,仅成都一个城市,需要的软件厂商运营人员应该有百人左右。而作为甲方,面对一个非高频使用、但一旦进入应急状态要求极高的核酸检测软件时,是否愿意加大投入?“成都的问题需要引起其它城市管理层的注意,否则随着天气变冷,出现类似的问题将非常麻烦。”

而这些问题如不厘清,东软不会是最后一个众矢之的。

技术和管理存在不足

东软被送上热搜的当天,另一个西南省份——贵州省的核酸检测系统同样出现异常。但这一新闻,在云上贵州大数据公司发布的真挚致歉信中,悄无声息地收尾了。

在使用健康码做全民核酸检测的这两年里,有更多类似信息被湮灭。

据红星新闻整理,2020年5月6日,杭州健康码无法打开;2021年5月7日,澳门健康码连续两日出现异常情况;2021年8月2日,山东健康码卡顿;2021年12月20日,西安一码通崩溃;2021年12月25日,天津健康码出现异常;2022年1月10日,广东地区日常使用的粤康码和天津市核酸检测系统相继被曝系统崩溃;2022年4月14日,上海健康云故障——这也是出现在东软系统上线时。

 “每当一个城市核酸系统出现问题,信息化领域就讨论一两天。”一家医疗信息化服务商高层对此已司空见惯。

他所在的公司原本负责地级市的医疗信息化项目,当中标西北某一个省份的健康码运营后,系统访问量从原来的几十万扩增到几百万,系统一下子出现卡顿。

核酸系统崩溃的原因几乎都是因为并发量太大。好比一个衣柜里放了鞋子、衣服、裤子,有人要穿鞋,有人拿衣服,有人拿裤子,当所有人都涌入一个衣柜门的时候,衣柜就不够用。这个时候,技术人员需要把鞋放一起,把上衣归置起来,把裤子叠一块,多开几个衣柜门。还是不够用,开更多的门,逐步去优化。

网络也是如此,在同一时间节点,当千万级别的访问量全部涌向目标服务器时候,就如早高峰时期的高速路出口,全线拥堵。行业技术控们把这种情况称为高并发。

硬件和软件上,任何一个小毛病和小细节,都会导致最终的崩盘。具体原因,需要根据“系统日志”,这一记录了系统运行状况的东西来一一排查。硬件基础设施,包括服务器的内存、网络存储,还有国家特别重视的安全问题。剩下的才是架构设计、代码、数据库这些软件应用系统。

至于东软的问题到底出在哪里,上述人士认为,没有拿到东软系统的日志情况之下,很难下判断。它的健康码中间连了多少个第三方系统、有多少接口,目前都不清楚。

看似简单的核酸码背后,有无数的第三方系统与接口,这一些看不见的链接,如毛细血管般纵横交错。一旦一方出了差错,也会影响最终运行。

毋庸置疑的是,东软在技术和管理的细节层面存有不足。“我们给医院做系统的时候,同样的系统,在别的医院可以,但到了某一个医院就不行,这里涉及到每家公司给的接口、形式不一样。虽然中间程序是一样的,但整个接口方式,提供的硬件,都是有偏差的。”一位行业人士提及,在访问量没那么大的时候,这些小毛病都被掩盖掉,但突然一秒钟就上来几十万或几百万访问的时候,是不容许企业犯错的。而东软,很显然在细节上没有处理好。

好的系统都是用出来的。不用的时候,都会觉得那些是小问题,一旦用起来,尤其是在访问量大的时候,小毛病就会以几何级数无限倍放大。

而多位业内人士认为,东软系统在多个北方城市核酸检测时应用过,没出过太大的问题,但这些运行良好的城市往往是人口在1200万以下的中小规模的城市。“一旦进入人口2000万以上的大型城市,进行全民核酸检测的时候,东软应该这方面的经验有限。”东软在上海和成都出现问题,都因为这两个城市都是人口超过2000万人的超级城市,且做的是全城大筛。

一位核酸检测企业人士回忆,后来东软在上海的问题得以解决,是让核酸检测机构在夜里某个时段不集中上传检测结果——相当于在一条马路上用分流的方式,解决了拥堵的问题。

标题:上海疫情两个系统切换

上海核酸检测,在今年4月中旬之前应用的是万达信息的健康云。健康云系统也曾在4月初上海市疫情刚起时,有过一次系统崩溃,“但很快,问题就得以解决,主要还是带宽等资源的问题。”一位业内人士回忆。

4月上旬,在上海,健康云的系统切换成了东软的核酸检测系统。东软系统刚上线时,也出现过和成都此次类似的系统崩溃。

在上海一些核酸检测企业看来,健康云系统是对核酸检测企业比较友好的系统,从用户扫码检测,到装车、运输到实验室,每一步企业都可以从后台查到。这意味着,一旦出了问题,企业很容易查到问题出在哪一步。当一些居民着急等核酸结果,电话给检测企业时,企业工作人员凭借身份证号码就能查到核酸检测结果。

而核酸检测企业和部分区和区以下的政府部门是没有权限查看东软系统内部核酸检测进展的。当有居民在未出结果时致电检测企业时,企业难以凭借居民身份证信息查询。

但另一方面,相关人士认为,虽然对核酸检测企业的服务不够开放,东软系统更有助于疫情集中管理。

东软系统条码不和居民身份证具体信息关联,意味着条码可提前印刷,采样的时候节省时间。但采样时节省下的时间,需要上传前预留信息核对的时间——这意味着压缩了核酸检测企业的检测时间。

应急软件的投入难题

“疫情总是突发,给东软的时间,并不是特别充裕,时间来不及的情况下,就会出岔子。”一位行业人士透露,这也是目前对所有的信息化厂商的考验。疫情总是突如其来,如何在应急条件之下,快速解决并发量大的问题。

2011年,12306网站刚上线时,同样因为卡顿而被喷得狗血淋头。抢票软件的加入,更加剧了它的堵塞。在春运高峰这一“极端条件”之下,网上购票的希望几乎渺茫。而这就是一个逻辑比较简单的卖票软件,而就是这么一个简单的软件,一位行业人士指出,阿里却用了好几年的时间,投入了高昂费用,系统才得以优化。

但核酸检测不可能给厂商充足的时间调试。“在好几个厂商跟平台连接的情况下,解决高并发量的问题,就如同被束住手、束住脚,非常难。”一位行业人士指出。

某些地方健康码工程,一开始只是一个独立的小项目,由某一个大公司的小团队在开发运作。但随着防疫任务越来越重要,系统也需要升级迭代。从经济角度考量,不可能再推倒重来,企业只能开着飞机换引擎。原来用以代步的小奥拓,如今承载着赛车的职能,在这种情况下,给它改装,难上加难。

这也涉及到政府和厂商是否愿意投入的问题。

核酸码系统,并不是高频用的一个软件系统。但使用的时候,对企业要求又极高,最高访问量会突破原来系统极限,这就需要一笔新的投入来维护升级。实际上,无论是作为甲方的政府,还是乙方的厂商,都不愿意在硬件上投入过多。“一旦想到平时不用,投入意味着浪费。而往往是出了问题之后,才觉得这个事情很重要。”一位医疗信息化从业人员坦言。

另外一些厂商则认为,核酸码的业务场景不复杂,因此在前期投入中,尤其不愿意在腾讯云、阿里云服务器上投入过多。

他透露,某一个GDP较为落后的省会城市在服务器上的投入,一开始只有几十万的费用,因为疫情防控,最终到了百万级别。这对于地方财政拮据的省份而言,已是一笔不菲的投入。

腾讯、阿里、华为等公司的云计算服务器,可以按月购买,扩容能力强,是应急情况之下的最佳选择。但大多数地方卫健委不会把这些高度敏感的数据交给第三方,反而更愿意购买实体服务器。

这些大铁壳子般的实体服务器,带来数据安全的同时,在应急条件之下会暴露一个缺陷:空间是否够用。

多方协同问题

扒开技术层面的这一层外衣,管理问题会逐一显现。

“每个城市疫情的应急预案里,原则上要考虑到最高峰的那个点上,到底有多大的并发量。”上述人士认为,这属于项目管理本身的细节问题。

哪怕临时通知说12点之后全员核酸,在这个情况下,管理上怎么应对,如何去协同?就小毛病而言,几个厂商一起来跑一遍系统,逐一排查软件硬件,类似这样的演练是必要的。

但事实上是,某个城市什么时候发生疫情,什么时间点做核酸,都是不可控的。核酸检测采样的调度、居民的安排,这些都是不确定因素,为急需确定性和规范化的软件设计增加了难度。

“我们之前在西北那个省份,也没做事先的排查。临时通知上线系统,真的来不及。”

这也是网民在指责东软失职的一个关键点——内部的压测是否到位?

这涉及到了与其他厂商的协同问题。一个系统工程背后,除了系统集成商之外,包括多个分包商。西安的一码通,曾集结了电信、东软、美林和安恒等公司。

大多数情况之下的压测,各个厂商有点“各自为政”的意思。一般,软件厂商会自己测试自己,鲜少几家联合起来测验。“不同厂商坐在一起的时候,大家都觉得自己没有问题,都会觉得是别人的问题。理由也会一致,我们的系统在别的地方跑过,没出岔子。”

原则上,监督管理部门要把所有厂商叫在一块协同作战。但一个厂商负责人坦言,在没有顶层统筹的强压之下,厂商之间的沟通和协调很难达成。甚至应对这一局面,各家的心思都极为微妙。

“每个厂家在系统上的投入都是一笔巨额开支,在应急状态之下,如果上面领导没表态,也没明确是公益性质还是有偿的付出,厂家相应选择也是谨慎的。”

但东软这一事件,也给一家医疗信息化厂商带来一个集体反思——在系统部署之初,根据城市规模,先测算一下最高峰值访问量,经过应急演练、压测演练之后,必须得和政府提出相应的资源配置。

在常州,一个500多万人口城市,曾经也出现过系统故障。在组织核酸检测时,大白会提示,“打开场所码,截屏即可,不要在同一时间点,大家都涌入一个系统中。”

这是技术层面之外,一个城市应急预案的管理能力问题

本文系作者 精选 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 技术管理的不足,难道不是东软的问题吗

    回复 2022.09.08 · via android
  • 这件事情东软必须要担绝对责任

    回复 2022.09.08 · via pc
  • 东软当初中标担起这个事,现在这么大的事故往后缩

    回复 2022.09.08 · via h5

快报

更多
3

扫描下载App