服务器长时间炸锅原因 何时能维护好?

时间:2017-01-18 16:10 作者:PQFitz 来源:贴吧 手机订阅 神评论

新闻导语

炉石传说近期进入了长时间维护,不明吃瓜群众都在猜测为什么要维护这么久,其次就是关心什么时候才能上,下面是前网易人员的爆料猜测。

炉石传说近期进入了长时间维护,不明吃瓜群众都在猜测为什么要维护这么久,其次就是关心什么时候才能上,下面是前网易人员的爆料猜测。

1484720423443

关于服务器

首先说说服务器。

你们以为数据都在服务器里? 服务器只有硬件而已,硬盘数据13年-16年都是用的DELL的磁盘阵列服务器,而且是双机热备+异地容灾,我这台数据丢了,我另一台会有克隆的相同的数据。就算广州整个机房炸了,我上海机房异地也会有一台克隆的数据。

所以数据丢了,数据丢了30%什么,大家就不要信了。

我在做天下3运维的时候也遇到过N种问题,不过都被总监、经理他们这些人带着解决了。

可以说,就算来个10岁的小朋友,会动电脑鼠标看得懂字,按照流程都不会出问题。 一个团队4个人,一个经理, 5个人同时犯错?怎么可能因为操作失误就丢30%数据?

另外关于过热导致的各种问题我觉得也不可能,肯定有备用的空调和供电,网易多少年都走下来了,总结了很多经验和规范,服务器这方面是没问题的。

至于啥原因维护这么久?原因千奇百怪,也可能是游戏本身问题,可能锅在暴雪身上? 我只能说数据不会丢。

任务也不用担心,几行代码就能解决的,只是日期问题而已。或者想简单点,有补偿,一定会有的。

这次事件猜测

拖这么久,我觉得昨天应该是暴雪给的补丁有问题,但是每次修改游戏都必须工信部、文化局、***三个部门来审核。

每次更新游戏一般是这样的流程:

暴雪软件部-暴雪技术支持部(测试部)-网易软件部-网易技术支持部(测试部)- ZF部门(审核)-技术支持部(运维部)-网易技术支持部(测试部)

估计是两边的测试部第一次都没发现问题,结果运维部按照流程更新之后,测试部又TM发现问题,要修改游戏,又要所有部门再走一次流程。

既然涉及到了PC端/IOS/ANDROID,根本不是一天就能解决的。

比如我这次定5个小时做运维,2个小时做测试。 我5个小时运维做完了,剩下的就是测试组干的事情了。 测试组花了1个小时发现问题,想恢复更新之前,只能再花5个小时恢复,今天就白忙活。 OK,就算我今天白忙了, 每周都有每周的目标,下周要补这周的目标,所花的时间可能就是4倍了。

有测试端,所以主要责任是测试部,第一次测试没有发现问题,次要的是软件部,主管或者总监审核代码的时候为什么没有发现问题? 也要问责。我感觉总监这个年不好过了,就算是主管的责任,总监也要被扣年总奖了,谁让这个主管是你面的? 就面这水平? 这工作态度?

大家耐心等吧。

一些猜测的答疑

还有人说是有人把代码偷走了。

每个员工入职之前都要签保密协议,竞业协议

而且每个部门的团队,负责的都是不同的项目,能接触的只是一小块代码,修改完代码上传到SVN里。 能接触整个完整SVN的,只有总监

总监每个月工资不少于15W把? 还有年总奖。 至于偷个代码? 蹲几年牢,以后还有公司要? 而且偷了代码有什么用。。。。 开玩笑。。。

至于有朋友问我容灾是什么,不是冗余吗?

异地容灾,就是我这个机房真是起火了爆炸了,我异地机房能够运行起来。

冗余是指我服务器或者数据出了问题,我有bakup,可以随时顶上去。

好比美国容不下****,迅速把机房全部占领了,想取回数据不可能,那怎么办,还好他们有容灾方案,地点在南极,请求俄罗斯帮助,俄罗斯就会帮他们保护数据。

至于有网友问那如果两台都炸了怎么办?

两台都炸了,这几率比你中彩票几率都低,应该不可能的。

另外有朋友问两地三中心,主机房将数据删除,其他中心也会瞬间删除的问题。

其实没有瞬间删除这一说,我之前可能没说详细,双机热备,同步时间5分钟(成本翻倍,之所以没有采用故障转移群集(成本低),是因为梦幻之前出过问题,导致只能回档,所以流程规定是双机热备) 异地容灾同步时间每天凌晨00:01 丢数据顶多回档一天给补偿。

另外日志精确到每一条语句,数据库Oracle 有商业解决方案。

至于有些帖子提出的BUG说。

程序员自己解决BUG? 不可能,每个程序员负责的都是一部分代码,他就算修改了,也不能编译出来,更别提他能接触到服务器了。

我之前是3-5个人一个小team,程序员应该是7-10人的样子,有了问题经理 主管都可以上报的。。。 服务器是深度定制的LINUX+密码狗。 修改了代码,SVN都有日志,要表明原因,不然代码也不会审核。

可能bug是有的,只是当时没有发现而已,他们主管就要倒霉了。

总结

总结一下吧,这次有说是误删的,有说是封脚本程序被恶意篡改的,有说是服务器物理损坏的,有说是意外bug走流程的,我个人是觉得测试的锅。

最新消息

莫非是暴雪的锅?称国服问题正在处理

目前国服维护超时事件已经超过了30个小时,忍不了的网友直接向暴雪炉石制作人Yong Woo提问。

网友:国服已经维护超过30个小时了,我们到底什么时候能上线?

Yong Woo:我对此感到非常抱歉,制作团队正在努力的修复这个问题,一旦解决问题官方就会发布消息。

相关阅读:炉石维护,网易

全球新闻