推特下载为什么这么慢(世界杯是压垮 Twitter 最后一根稻草?全世界在等 Twitter 宕机)

天下杯是压垮 Twitter 最初一根稻草?全天下在等 Twitter 宕机

作者 | 褚杏娟、核子可乐

有报道称,卡塔尔天下杯约莫是压垮 Twitter 的最初一根稻草。一位去职的 Twitter 员工对外媒表现,Twitter 有 50%的概率会在为期 29 天的天下杯时期产生严重办事中缀。他以为,Twitter 在天下杯时期一定会产生一些事故,好比办事呼应缓慢或错误,用户能看到的概率有 90%。


当被问及 Twitter 有什么方案来处理天下杯时期约莫显现的成绩时,他说:“据我所知没有。我们本应该在几周前就开头准备了。”

紧张运转团队分开,Twitter 妨碍成绩初显


曾应对过 2014 年天下杯的 Twitter 前软件工程师 John Ioannidis 表现,即使拥有最好的装备和硬件,忽然涌入的流量也会形成成绩。依据 Ioannidis 先容,2014 年巴西天下杯时, Twitter 不休在监控本人的基本办法,以确保整个天下杯时期坚持在线。据悉,2010 年天下杯时期,Twitter 就因无法应对高流量而下线。


比力赛时期约莫显现的高流量,萨里大学网络宁静传授 Alan Woodward 感受十分管忧,“Twitter 如今仿佛在赌运气,依据我的履历,这不是一种可靠的办法。”


而实践上,在天下杯开头前,以前有迹象标明 Twitter 眼前错综繁复的基本办法以前显现成绩,如转发无法正常使用、双重身份验证报错致难以登岸、保存的草稿莫名被删除等。


固然,形成这些担心和成绩的直接缘故就是如今的 Twitter 的确没有充足的工程师来举行准备和维护事情。据媒体称,Twitter 卖力流量巅峰期办理网站的团队以前有三分之一的工程师去职,别的 Twitter 中心体系库的团队也以前解散,有前员工形貌“没有这个团队,你就无法运营 Twitter。”其他如前端团队、API 团队等也都没有幸免于难。


“我晓得有六个紧张体系(好比推送的紧张体系)以前没有任何工程师了”,有 Twitter 的前员工表现,“这个体系乃至不再有主干职员。它会持续主动运转,直到碰到什么东西,然后就会停下去。”


实践上,在3500 名员工被裁、2000 多人主动去职后,Twitter 原本维护网站正常运转的几个紧张团队都局部或全部解散。此中,在马斯克发射“最初通牒”后辞职的员工中,很多人是 Twitter 最有履历的员工,乃至有些人在 Twitter 事情的时间是这家公司存在时间的一半。


有 Twitter 员工泄漏,由于现在维护紧张办事的全天候轮班员工不够用,这局部员工以前开头外出“借人”,试图经过培训公司其他部分的同事来协助减小事情量。另一方面,马斯克的“铁血裁人”也落下了帷幕,现在开头正在招聘工程师和倾销贩卖职员。“在紧张的招聘方面,我想说那些善于编写软件的人是最优先的。”马斯克在迩来的全体员工大会上表现。


“最精良的人都留下去了,以是我不是特别担心。”马斯克 18 日发推说道。


固然马斯克很兴奋,但网上很多开发者以为 Twitter 显现妨碍在所不免。“他(马斯克)有从基本上改动堆栈的宏伟愿景。他的变动不会有得当的测试,由于一切高等工程师都分开了,他的 SRE 员工不在那边监控新功效或举行容量方案。以是剩下的很多将是拥有 H1B 签证的工程师,他们不克不及分开,无法反驳马斯克的要求,并且会过分劳累,变得充足‘硬核’,无情地事情、精疲力尽、不做应有的积极。Twitter 将显现一些严重中缀,已往向理过这些事变的大大多人都分开了。因此,这将比我们以往看到的任何情况都更严峻、持续时间更长。”


固然也有开发者表现,“假如什么都不改动,那么什么都不会毁坏。我想假如有什么成绩的话,他们会在摆设新东西同时不毁坏其他功效时碰到成绩。成绩将产生在开发办事器上,而不是消费办事器上。”


伦敦大学传授 Steven Murdoch 以为,Twitter 将难以处理繁复的妨碍。他表现,即使公司招聘新员工或重新分派现有员工的职责,并且交代历程顺遂,这些人了解干系体系的事情办法也约莫必要几个月的时间。


马斯克公布的 Twitter“架构图”


为什么还没有宕机?


从硬件到软件/代码,约莫招致 Twitter 宕机的缘故有很多。一位拥有 10 年以抬升业履历的 SRE 总结了五十多个影响要素,包含简便错误代码成绩、硬盘驱动器已满,到大型活动、外部打击等等。


固然如今有成绩显现,但 Twitter 还可以持续运转,新的推文仍不休涌现。在 Twitter 事情五年的站点可靠性工程师(SRE) Matthew Tejo 在本人的文章中先容了 Twitter 至今没有宕机的缘故:前一阶段多量投入的主动化办法。Matthew 有四年的时间是 Twitter 缓存团队里的唯一 SRE,卖力主动化、可靠性和运营事情,计划并完成了大局部坚持功效运转的东西。


缓存承载着用户在网站上看到的大部老实容。推文、一切时间线、直接消息、倾销、身份验证等,都是由缓存团队的办事器卖力提供。一旦缓存显现成绩,用户会立刻遭到显性影响。


Matthew 到场团队后的第一个项目,就是将走役的旧装备换成新机器。事先基本就没有相应的东西大概主动化选项,Matthew 拿到的仅有一份标志着办事器称呼的电子表格。不外如今好缓存团队的运营以前晋级终了,不再像起先那么粗糙。


Matthew 先容,Twitter 确保缓存运转的头号大事,就是把它们放在 Mesos 上以 Aurora 作业的情势运转。Aurora 会找到运利用用步骤的办事器,Mesos 则将一切办事器聚合起来以供 Aurora 感知。Aurora 还会在使用步骤启动后坚持其运转。假如说一个缓存集群必要 100 台办事器,那 Aurora 就会尽力坚持这 100 台全部运转。


假如办事器出于某种缘故而断开,Mesos 能及时检测到成绩,将有成绩的办事器从聚合池中删除,这时分 Aurora 会晓得仅有 99 台缓存办事器在运转。于是,Aurora 会主动再找台办事器接入,将总数规复到 100。整个流程全盘主动化,无需任何报答到场。


在 Twitter 数据中央,办事器被安装在机架中间。机架上的办事器经过互换机装备与其他办事器毗连。再往外走,这些装备再经过互换机和路由器持续扩展,终极创建起完备的繁复体系、接入互联网。单个机架可以包容 20 到 30 台办事器。此中机架约莫产生妨碍、互换机约莫毁坏、电源也约莫宕掉,招致全部 20 台办事器堕入停机。


Aurora 和 Mesos 另一大上风就是确保不会把太多使用步骤放进同一个机架。如此即使整个机架忽然停转,Aurora 和 Mesos 也能找到新的办事器并把使用负载转移已往,不致影响到用户以为。


“在我之条件到的电子表格里,还纪录着机架上的办事器数目。能感遭到,上任办理员在积极确保每个机架上别塞进太多办事器。而如今我们有了更强壮的东西,可以持续追踪每一台新接入的办事器,以是整个流程就更顺畅了。这些东西可以确保团队在各机架上均衡摆设物理办事器,并且统统都市以妨碍产生时不致惹起大贫苦的办法举行排布。”Matthew 表现。


不外,Mesos 没办法真实检测到每一项办事器妨碍,以是 Matthew 团队还得对硬件成绩举行分外的监控,眷注磁盘和内存毁坏之类的成绩。这些情况不一定会拖垮整台办事器,但却屡屡招致其运转缓慢。“我们有一个警报仪表板,可以扫描毁坏的办事器。一旦检测到某办事器产生成绩,我们会主动创建一项修复职责,引导数据中央的运维职员前去查察。”


缓存团队还把握着另一款紧张软件(办事)用于跟踪缓存集群时间。假如在短时间内有多量办事器被标志为宕机,则要求关闭缓存的新职责将被回绝,直到规复宁静。Matthew 团队渴望经过这种办法制止整个缓存集群被关闭,进而拖垮受其保护的办事体系。


他们还处理了警报太多而无法快速关闭、无法经过一次维护处理的大范围报错、Aurora 找不到充足的新办事器来包容旧职责等各种成绩。“要为检测到的毁坏办事器创建修复职责,我们起首会反省这项办事来确定可否宁静删除此中的作业。在毁坏办事器被清空之后,即会取得宁静标志,由数据中央武艺职员前去向理。处理完成、标志切换为已修复之后,我们会再次使用东西查找并主动激活该办事器,让它重新承载和运转作业。整个流程中,唯一必要的人手就是数据中央内的运维武艺职员(不晓得他们还在不在岗)。”Matthew 先容道。


别的,反复哀求的成绩也取得了处理。之前的一些 bug 会招致无法重新添加新的缓存办事器(启动时显现了竞争条件),偶尔分约莫必要长达 10 分钟才干重新添加办事器(O(n^n) 逻辑)。有了主动化体系处理后,团队不致于被动选择手动利用。固然,另有其他主动修复计划,比如在某些使用步骤目标(比如延长)处于特别值时主动重启职责。


Matthew 表现,“缓存团队每周约莫会积累下一页的妨碍报告,但几乎不出过什么大成绩。大大多情况下,我们就在那边悄悄值班、悄悄放工之后,啥事都没产生。”


容量方案也是 Twitter 平台仍在正常运转的紧张缘故之一。Twitter 有两个持续运转的数据中央,卖力承载整个站点的妨碍。Twitter 的每一项紧张办事都可以在此中一处数据中央内单独运转,意味着随时都有 200%的可用容量储存。固然,这是在劫难规复的场景下;大局部时间里,两处数据中央会把闲置资源拿来承载业务流量,且使用率最多不凌驾 50%。


即使云云,整个运转实践也十分忙碌。当 Matthew 团队盘算本人的容量需求时,要先确定一处数据中央必要几多装备来承载全部流量,再以此为基本分外增长净空。以是只需不在妨碍转移期内,就会有多量办事器空间用于承载分外流量。数据中央产生全体妨碍的情况十分稀有,Matthew 任职的五年中只履历过一次。


缓存团队还把缓存集群剥分开来,并没有选择用单一多租户集群来承载一切办事,而是在使用步骤层级举行断绝。这点十分紧张,由于一旦某个集群显现成绩,它的爆炸半径也只在本身范围内,即仅影响处于同一地点的局部办事器。相反地,Aurora 会提供缓存分布,尽约莫控制影响范围,终极监控并及时加以修复。


“以是各位应该晓得了,我们这帮家伙可没有偷懒。我们跟缓存即办事团队随时交换,尽力推进主动化流程,研讨了不少幽默的功能成绩,实验引入能改良体验的武艺,并推进了一系列大型本钱浪费项目。我们举行容量方案、确定必要订购的办事器数目,总之挺忙的。横竖,我们不像很多人想象的那样天天摸鱼、打游戏就能拿高薪。”Matthew 在文章最初打趣道。


“恰好相反,该网站在云云大范围裁人后仍能全盘运转这一内幕证实白到场维护基本办法的每一位专业职员都体现出色!”有网友评价道。


参考链接:

https://www.theguardian.com/technology/2022/nov/19/twitter-crashing-world-cup-elon-musk-social-media-traffic-spikes

https://www.theverge.com/2022/11/17/23465274/hundreds-of-twitter-employees-resign-from-elon-musk-hardcore-deadline

https://threadreaderapp.com/thread/1593541177965678592.html

https://matthewtejo.substack.com/p/why-twitter-didnt-go-down-from-a

推特下载为什么这么慢(世界杯是压垮 Twitter 最后一根稻草?全世界在等 Twitter 宕机)(图1)

GM游戏 更多