100PB数据的“肯尼亚”大迁徙,这是一场「云」的全面胜利

2019-08-20 20:08发布

2018年2月,春节刚过,北京还笼罩在雾霾中,上地某酒店,阿里云工程师们摩拳擦掌。

他们从115科技“踩点”回后,推演了各种可能,确保万无一失,遂决定正式启动“肯尼亚”迁移项目。

肯尼亚,横跨赤道,是野生动物的王国,每年7-9月都会上演最为传奇的动物大迁徙。

在阿里云内部,“肯尼亚”迁移项目指115科技的数据大迁移。

115科技是一家成立十年、以云存储起步的高新技术企业,旗下核心产品之一“115个人”(原“115网盘”)是国内最早一批上线的云盘产品。

但做云盘的苦,只有做过才知道。出于自身发展的综合考量,115科技决定上云。

1. 差点用劳斯莱斯运冰块

2009年“115个人”产品上线后,115科技喊出「改变分享」的口号,以便捷的文件分享功能赢得海量用户的喜爱,且不放广告、不限速,用户体验好。一时间,几乎全国各大论坛、软件厂商、游戏厂商、设计论坛、教育机构、漫画及影视行业全部在用“115个人”进行文件分享。

到2017年底,115科技个人注册用户接近1.5亿,随之而来的是,硬件成本节节攀升,要不断地租机房、买机器,繁重的运维工作如排山倒海袭来。

115科技日常需要运行维护接近5000台服务器,安置在广东东莞、梅州、佛山等地的数据中心,共约10万块硬盘。硬盘不断读写数据,损耗极大。

硬盘一旦损坏,就需要及时的备份恢复。115科技为此专门组建了一支“救火队“——七人换盘小分队。

队员们背景各异,有设备运维,有网络维护,也有帮忙搬运设备的厨房工作人员等。需要换盘时大家实时响应,平时就从事本职工作。

“救火队”的工作庞杂,不仅要换盘,有时数据中心没有硬盘备份时,他们还要集体出动采购硬盘,或从其他机房开车运送硬盘。甚至机房制冷供电系统出现故障,也要第一时间赶到检修。

有一次大朗机房空调制冷出现问题,小分队需要运送冰块到现场,由于当天公司还有其他接待任务,车辆紧张,还差点动用公司的劳斯莱斯运冰块。小分队在机房蹲了一夜,用风扇吹冰块为设备降温,并密切关注是否有硬盘损坏,以备随时更换重启。

作为网盘行业的资深玩家,115科技的存储技术已经炉火纯青,却吃够了硬件的苦头。

同时,网盘的市场格局也在不断变化,用户对网盘的体验提出了一些新要求。是继续把精力耗损在维护硬件上,还是把所有精力集中在业务创新?115科技走到了岔路口。

2.上云,要上云

必须上云,上云才能解决问题。

这个决定来的突然但是坚决。2017年12月,115科技创始人赖霖枫忽然召集核心成员开会,传达了这个决定。没人有异议。但所有人都知道,这不是一件容易的事,毕竟115科技的数据量已经到了100PB。

100PB数据有多大?按普通DVD约4GB容量算,就相当于2500万张DVD,每天观看一张,大约要68000年才能看完。

会后第二天,115科技的上云小组就开始和各个厂商探讨方案。其中,阿里云是最后一家。

高手过招,两三回合后便可将对方底气探个大概。「我们聊了聊存储方面的技术问题,发现对方都非常有研究。」阿里云中国区解决方案总经理霍嘉回忆说。

115科技向霍嘉坦言已经接触过几家云厂商,霍嘉也大方指出这个项目比较复杂。首先,115个人是一个在线系统,迁移过程不能影响用户正常使用,因此这是一个热迁移问题。其次,115个人上数据量大,存储及业务系统复杂,因此更需要详细设计。

霍嘉说,115科技上云这一项目和优酷上云的项目非常相像。都是以非结构化数据为主的图片及视频业务,存储需求类似;也都是线上系统,需要保持不宕机。

有了优酷的迁移经验,霍嘉多了一份底气。他把整个上云过程进行了拆分讲解,找到关键节点及风险点,并估算了时间。他的判断是,这个项目需要90天完成。

对于115科技来说,迁移时间是非常敏感的考量指标。因为在迁移过程中,公司需要负担双份的硬件及带宽费用。

「动不动就几千万上亿的,这谁扛得住啊。」

尽管深知115科技方面对时间的敏感,霍嘉还是坚持三个月迁移周期的评估,「100PB的数据迁移,史无前例。这种事一定要对客户负责。因为开工没有回头箭。」

3. 决战45天

阿里云在周期评估过程中的专业与坚持,让115科技信心大增。

赖霖枫也在项目结束后谈到,最打动他的是阿里云的方案从实际出发,是最接地气的方案。

「不像是甲乙方,更像是战友和伙伴。」他评价说。

「我们派了两位同学留在115科技北京办公室,摸清系统架构、数据的冷热情况。仔细地制定了迁移方案,做了成本评估。又当面向赖霖枫做了汇报。」霍嘉回忆,「上云这件事最担心的就是影响业务,我们把所有的过程都拆解清楚了,对方也就吃了一颗定心丸。」

刚刚过完2018年的春节,这个在阿里云内部代号为“肯尼亚”的迁移项目正式启动。

(115科技在阿里云上海峰会现场演示)

阿里云的方案是闪电立方+专线迁移同步进行。闪电立方是阿里云于2017年初推出的物理搬迁方案,针对数据量大、时间紧的两地搬迁,115科技的需求正好符合这两点。针对115系统维持正常运转的需求,阿里云创新性地采取了闪电立方+专线辅助迁移的方式。

就此,115科技也成为闪电立方问世以来数据量最大的使用客户。普通企业的数据量大多在几百TB,上PB级很罕见。

阿里云当时调了十套闪电立方,八套用来迁移,两套备用。当一套在路上跑时,另一套加载数据。等数据加载完,另一组已经回来了。霍嘉回忆说,「这是一个非常精密的过程,中间不能有任何的误差。」

115迁移上云的最终回合在一个凌晨打响。最后一台闪电立方在阿里云的深圳机房平稳上传完最后100TB数据。

凌晨5点,「肯尼亚」项目完工,闪电立方停止工作,115科技和阿里云完成最后割接。

阿里云一行人走出115科技在东莞的办公大楼。广东的早春,已经不算寒冷了。霍嘉扭头和身边的同事们说,「你看兄弟们还行吧,当初吹的牛也算是实现了。」

最终,「肯尼亚」项目仅仅用时45天,比预计的三个月时间少了一半,也创造了百PB级数据公共云迁移的新纪录。

现在,上云后的115科技摆脱了运维的繁重工作,七人换盘小分队得以解散,都投入到了更有意义的系统优化和业务创新工作中。

115科技一共使用了阿里云三十多款产品。除了解决了原本机房不稳定的问题,还实现了业务层面的创新,直接采用云上的AI、视频转码技术,用户已经可以快速分类网盘内容、智能搜索。

借助大型公共云的力量,115科技加快了在人工智能等方面的战略布局,进一步完善云生态,让基于大数据的云端存储、沟通、协作成为了新的业务增长点。

文章来源: https://www.toutiao.com/group/6727078254802371080/