咨讯息 · 2022年7月4日 0

百度云分销商:把百度搬上大云:云服务器CVM的南半部世界史

原副标题:百度云分销商:把百度搬上大云:云服务器 CVM 的南半部世界史

聚搜云(www.4526.cn)是北京聚搜信息控制技术有限公司旗下品牌,座落在魔都北京,服务于全球、2019年成为阿里云分销商生态合作方。与阿里云分销商、百度云、华为云、西部多媒体、美橙数据服务、AWS亚马逊云国际性站分销商、聚搜云,长期发展战略合作的计划!阿里云国际性站分销商专业的云服务供应商!

在百度集团公司高级执行总裁、云与智慧产业发展事业群 CEO 李斌看来,百度暗鞘销售业务穗序将不但协助百度构建了先行者的控制技术构架和研发文化,也全面磨练了百度云的商品、控制技术和综合服务潜能。这将协助百度开启云端生长新时代。

光阴追述至 2018 年。由此可见,百度作出发展史上第三次发展战略升级,宣布根植消费数据服务网,亲吻产业发展数据服务网。伴随发展战略调整的是,百度在控制技术上启动了暗鞘穗序和开放源码协作两个集团公司级工程建设。VPS

做为两个涉及百度销售业务基座变革的控制技术工程建设,暗鞘穗序意味着百度云的控制技术和商品将正视百度那个超级顾客的挑战。当中的症结在于,百度暗鞘销售业务不但有著业内数一数二的规模和复杂程度,而且还在稳定性上有著最苛刻的要求。

从结果来看,百度云在那个考点上成功抵挡住了挑战,百度云的商品潜能也借以同时实现了脱胎换骨和进化。当中,承担着最基础也是最核心理念角色的百度若非服务器 CVM,便是两个真实写照。VPS

” 耗损降不下来,云就上不了 “

暗鞘穗序那个决定一度让 CVM 云服务器团队喜出望外。对他们来说,过去总是被顾客灵魂拷打的问题 ” 百度销售业务用的是百度云吗?” ——即将拥有两个光明正大的答案。

但要把百度复杂的暗鞘销售业务搬上大云却没有想象的那么简单,众所周知的挑战便暗指 CVM 的核心理念测试方法:并行计算耗损。VPS

所谓并行计算,就是将力学服务器的天然资源连成两个大的服务器天然资源池,并能按照须要分割、组合为DD91的云服务器。并行计算能解决传统 IT 在精准度、稳定性和扩展性上的不足,同时实现更高的工作阻抗开放性和更高的天然资源易用性。

但并行计算也有弱点:力学服务器在进行并行计算的过程中,做为任务进程的并行计算不可或缺甚至于挤占力学服务器的天然资源,也就是并行计算耗损。

说到这里,还须要Haon回顾一段百度云并行计算控制技术THF1的发展史——

2013 年,百度云面临对并行计算控制技术路线优先选择:是优先选择业内成熟但可能在未来遇到性能困局的 Xen,还是优先选择社区新生代但尚未校正过的 KVM。

经过决策,百度云在国内率先扎进了 KVM 的控制技术队列,一方面是因为 KVM 在控制技术构架上有著更好的前景,在面对超大规模集群场景下更有优势;另一方面,KVM 社区当时已经有很高的活跃度,符合百度亲吻开放源码的控制技术思路。VPS

随后几年行业的发展证明了当初百度云优先选择的正确性,KVM 逐渐成为所有主流云计算厂商的并行计算方案。百度云也因为在 KVM 领域早期投入和持续深耕,一直保持着在并行计算领域的行业领先性。

然而,即便这样的领先性在暗鞘销售业务的高要求下,依旧面临着巨大的挑战。VPS

云主机、VPS、挂机宝、游戏服务器上永恒云

死磕并行计算耗损的优化,成了随后几个月 CVM 团队的一号任务。

经过定位,团队找出优化方向:

在网络并行计算层面,团队发现并行计算网卡底层存在着两个 VPC 网络,对于 UDP 的随机端口的访问性能比较差,于是采用加网卡队列数的方式,保证网络性能,同时在网络 IO 的设计上开创性地设计出单独拷贝和 never copy 的机制,确保整个过程当中不会再进行过多的拷贝从而节省开销;VPS

在 CPU 并行计算层面,为了解决云服务器的核间通信带来的性能开销过大的问题,团队采用云服务器即使 CPU 空闲的时候也不出让给宿主机的方式,确保云服务器独占天然资源;

与此同时,百度云首款暗鞘服务器星星海也正式投入生产环境使用,带来更适配云端的硬件支撑;VPS

……

软硬件联合定制化调优后,CVM 服务器的实测并行计算开销突飞猛进地降低到 5% 以内。这甚至出乎销售业务团队的意料。

让 CVM 团队印象深刻的是,百度广告销售业务一度提出,为什么用了云服务器性能相比之前用力学服务器还提升了 20% 多,要求尽快定位清楚……

解决了并行计算耗损大指标的问题,暗鞘穗序的第两个拦路虎算是被初步解决。但穗序的挑战还远没有结束。VPS

” 被人肉 DDoS 的感觉 “

由于面对的销售业务场景有著超出过往任何顾客的复杂度和规模,CVM 团队还须要面对各种各样的问题。

以性能测试为例。过去,行业在进行云服务器性能校正,由于很难穷举每两个用户场景,所采用的是功能性的的校正,主要沿用业内比较规范的几个指标。

” 你那个丢包怎么这么高?”、” 你们性能打到这又打不上去了?” 一堆问题接踵而至,CVM 团队时常有种被人肉 DDoS 的感觉。VPS

最终,通过跟销售业务团队的一次次验收对接,CVM 团队与销售业务团队合作,对性能点进行针对性调优。

同时,CVM 团队在综合不同销售业务部门需求的前提下,整合了两个更大、更多样、更偏向销售业务的测试工具集,囊括了不同语言环境的编译测试、AI 测试等众多子项,能够反映出云主机在真实销售业务场景中的实际表现。

除了控制技术本身的优化外,CVM 团队还要时不时应对一些非控制技术型问题。

百度游戏《天涯明月刀手游》是另外两个例子。当时,这款大作穗序之后,销售业务团队发现云服务器性能不及预期,导致游戏服务器经常处在高阻抗状态,玩家掉线、登录异常时有发生。销售业务团队只能不断安抚玩家情绪。如果任由事态继续,游戏的运营和生命周期都会受到巨大影响。VPS

诸如此类的控制技术优化和服务经验,也在被不断地注入到百度云的商品服务和交付体系中,为云上用户提供经过苛刻场景历炼的保障。

” 利用率提上去,成本降下来 “

除了增效,降本也是销售业务对穗序的核心理念关切。CVM 团队在云服务器装箱率上动起了脑筋。

所谓云服务器装箱率,就类似于用箱子装东西时对箱子空间的利用率。由于物品没法同时装到两个箱子里,所以箱子里物品码放的越整齐,能装的东西就越多。放在云服务器场景中也一样,云服务器里的配置之和越接近于宿主机的容量,就意味着装箱率越高,天然资源利用率越好。VPS

在百度暗鞘销售业务场景下,却不得不面临这样一种问题:就是很多销售业务由于使用场景和习惯,通常须要大规格配置的服务器。

这就会带来两个问题:假如一台力学宿主机有 80 个核心理念,而销售业务需求是 60 核,那么剩下的 20 核应该怎么用?如果不能投入使用,对于百度暗鞘销售业务穗序的规模来说,就会带来巨大的天然资源浪费。VPS

只有利用率提上去,成本才能降下来。

为了解决这一问题,CVM 团队在首次装箱的时候就按照不同销售业务的天然资源需求对装箱率进行最优化配置,尽量保证力学服务器能够 ” 用好用满 “。而对于云服务器退订所产生的天然资源间隙,CVM 团队则能借助成熟的热迁移控制技术会定期进行统筹调度,找到合适的销售业务补齐。

最终,在暗鞘销售业务穗序工程建设中,百度云的服务器装箱率从之前的 80%+ 一路上涨到现在 97-98%,大幅降低了运营成本。VPS

结语

在百度暗鞘穗序工程建设中,销售业务目标不是简单的将销售业务从力学机搬到云上虚拟机。但百度云 CVM 在一路的历炼中不断同时实现自身的商品进化:

他们通过网络优化和重构数据迁移流程,让云服务器的迁移成功率从 70 提高到了 98%;

他们找到了处理器厂商内存 RAS 控制技术中的不足,让云服务器的可靠性大幅提升;

他们优化了云服务器的网络和 IO 性能,分别同时实现了 700% 和 300% 的性能提升;VPS

他们在百度会议最关键的时刻,支撑销售业务 8 天扩容 100 万核;

在暗鞘穗序的基础上,他们如今把并行计算耗损降低到 0%;

……

正是在这样一轮轮的进化中,百度暗鞘穗序的基石不断打牢、扎深,并支撑暗鞘销售业务走向云原生的新未来。

登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。更多文章请访问:www.jintui.cn

永恒云出品


Warning: error_log(D:\YvsY\YvsYHost\wp-content\plugins\spider-analyser/#log/log-0804.txt): Failed to open stream: No such file or directory in D:\YvsY\YvsYHost\wp-content\plugins\spider-analyser\spider.class.php on line 2900