因亚马逊服务器故障服务中断 都是谁的错?

avatar
作者
筋斗云
阅读量:0

上周,亚马逊在弗吉尼亚州(Virginia)北部的云计算中心宕机,导致包括Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的众多网站都受到了影响。受影响的这些网站都依靠亚马逊的这个云计算中心提供服务。

Everyblock网站也是其中一个受影响的网站,但是令人惊讶的是,他们并没有把所有的错归咎在亚马逊上,“坦白地说,我们搞砸了,”Everyblock网站的一位技术人员Paul Smith在其博客上写道:

“AWS就明确建议开发者在设计网站架构时,应该考虑网站的弹性考虑到意外的失败和中断,比如说昨天的中断,但是我们并没有遵守这个建议……我们是否在我们跨区域的服务器都部署了,是否考虑到ASW建议的那些单独服务器和其他服务,我们可能还会在同一个地方跌倒。”

Paul Smith是比较理智的,因为如果你阅读亚马逊的“AWS网络托管最佳实例(PDF)”,你回看到里面明确的写着很多建议,帮你度过中断的建议。

当然,笔者并不认为亚马逊就无过错了。多日的宕机影响了东部众多地区的服务本身就是一个很严重的问题。他们的报告写道:“一些多排列故障转移需要的时间比预期的长”,受影响的用户有权生气发脾气。另一方面,用户也受到警告——如果他们想要容错能力,那么就需要在多个地区建立故障转移。但是他们没有这样做,网页服务被关停,这又是谁的错呢?

出现这样的问题,并不是因为云计算不能被信任。问题的关键在于正确部署一个云计算应用并不像购买一些服务器实例一样简单。但是话又说回来,在你自己的数据中心部署一个关键任务应用也没有设置一些服务器来的简单。

CSS公司的云服务部门高级副总裁Ahmar Abbas指出:“充分利用本地AWS能力的组织,例如为所有应用建立亚马逊机器镜像,优化快照,利用多个其他地区隔离的AWS,就能够成功度过这些终端。”上周并未受影响的一位亚马逊云服务用户Netflix表示。

云计算最大的优势就是能够简单轻松的进行扩展,你可以很快的部署一个非关键应用,但上周亚马逊的中断,让笔者学到了两个教训:迁移到云中并不能消除你对IT专业人士的需求,另一个教训就是如果你不遵循提供商的建议,那就等着火烧眉毛吧!

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!