您当前的位置:中国时代科技网资讯正文

从引进到自研腾讯大数据渠道每日数据核算量超30万亿

2019-11-06 15:20:00  阅读:6068+ 作者:责任编辑NO。石雅莉0321

在11月6日举行的Techo开发者大会上,腾讯云副总裁、腾讯数据渠道部总经理蒋杰博士正式对外发表腾讯大数据渠道10年技能演进进程。经过10年的堆集,腾讯大数据渠道的算力资源池现在已有超越20万台的规划,每天实时数据核算量超越30万亿条,腾讯渐渐的变成了我国实时数据核算量最大的公司。并且,跟着资源办理渠道中心TKE和散布式数据库Tbase正式对外开源,腾讯正在成为大数据范畴开源最全面的公司。

腾讯云副总裁、腾讯数据渠道部总经理蒋杰

作为全球最大的互联网公司之一,腾讯的数据量在短短5、6年时刻增加了几千倍,现在每天发生的数据量超越几十万亿条数据在发生。为了应对这种爆破式增加,腾讯走出了一条技能引进+改造+自研的路途。经过长达十年的不断晋级和完善,腾讯大数据渠道现已阅历了四代演进。针对最新的大数据和人工智能技能开展的新趋势,腾讯正在下一代核算渠道中,探究批流交融、ABC交融以及数据湖和联邦学习等前沿技能。

十年四次晋级 树立“大数据+AI”双引擎技能架构

腾讯内部现在有超越100万台服务器,腾讯云联合一切事务部门,运用事务闲暇资源打造一套算力同享渠道,该算力弹性资源池有20万的规划,大数据渠道每天有1500万的剖析使命、30万亿次的实时核算量,并且每天数据接入条数达35万亿条数据。此外,腾讯云的散布式机器学习渠道,能支撑1万亿维度的数据练习。

能支撑如此大规划数据的接入和运算,是腾讯在大数据技能范畴超越10年的堆集,其间心的大数据渠道现已完成了三次迭代。从以Hadoop为中心的离线核算年代到以Spark、Storm、Flink为中心的实时核算年代,再到现在的机器学习和深度学习年代,腾讯从无到有研制了散布式的机器学习引擎Angel,以及一站式AI开发渠道智能钛TI,用来处理数据练习和算法的问题。现在,腾讯正在研讨以批流交融、ABC交融、以及数据湖和联邦学习为方向的下一代大数据渠道的研讨,该渠道将具有混合布置、跨域数据同享和边际核算等才能。

据了解,为支撑海量事务开展,腾讯现已树立了“大数据+AI”的双引擎技能架构,其间,最底层为散布式存储层,存储结构化及非结构化数据,第二层是资源调度层,做CPU、GPU和FPGA的办理,第三层是核算层、剖析层、数据收集层,而顶层则是事务运用层。经过四层完好的技能架构,自下而上为腾讯的整个运用生态保驾护航,保证亿万用户能安全顺利地享受到腾讯的优质服务。

从局部优化到自主研制 在实践中不断立异

从开端的技能引进、局部优化到现在的自主立异,腾讯的大数据技能在实践中不断完善、不断立异。十年前,腾讯办理几百个节点都很困难,调度功能差,规划上不去。为了有用处理核算才能和大规划集群问题,腾讯自研调度器,相对原生调度器功能进步150倍,大大进步了集群可扩展性。2016年,腾讯打破Sort Benchmark四项国际纪录,标志着算力现已到达国际抢先水平。

因为腾讯20万台弹性资源池的机器散布在多个数据中心,不同区域乃至是不同国家,为了下降数据运用壁垒,上一年自研了漂移核算引擎SuperSQL,作为一致的数据剖析进口,经过智能CBO优化器,将核算下推到散布在各地的异构数据源,数据剖析功能进步很多倍,并且数据量越大优势越显着。

数据运用越来越深化,腾讯对数据发掘的需求也渐渐变得多。跟着模型的增大,开端用来做数据练习的MR、Spark现已不能满意上亿的模型维度的需求。2015年头,腾讯开端自研高功能的散布式机器学习渠道Angel,选用PS架构,能支撑10亿维度。现在Angel开展到3.0版别,能支撑万亿维度,也能够兼容Spark、PyTorch、TensorFlow等生态,进一步下降了运用门槛。此外,Angel本年还新增了对深度学习、图核算等的支撑。

腾讯正成为大数据范畴开源最全面厂商

技能迭代不断加快,企业建造大数据渠道和机器学习渠道,不只本钱昂扬,并且缺少相应的专业人才,面对种种问题。

云年代,这些问题得到有用处理。现在,腾讯现已把网络、存储、数据库等IaaS才能,大数据、机器学习等PaaS的才能,以及上层的图画、语音、NLP、BI等SaaS才能,经过腾讯云对外敞开。在大数据和AI两个范畴,腾讯推出了以TBDS和智能钛TI为首的双引擎。让每个企业,不需要专业的大数据和AI团队,也能快捷用上抢先的大数据和AI的才能。

别的,腾讯也经过开源和广阔开发者同享技能成果。从2014开端,将第一代渠道的中心,腾讯版的Hive进行了开源,2017年,更是把第三代渠道的中心Angel开源。本年,腾讯加快了开源的脚步,在内部推开源协同的战略推进下,腾讯一切的技能栈,后续会越来越敞开。

2个月前,腾讯在ApacheCon 2019上,面向全球开发者正式宣告开源本身中心渠道——实时数据收集渠道TubeMQ,并捐献给Apache社区。此次在Techo大会现场,再次重磅宣告正式开源资源办理渠道中心TKE和散布式数据库Tbase,跟着在大数据开源范畴的开源逐渐加快,腾讯正在成为我国大数据范畴开源最全面的厂商。

“现在,现已有数百万的开发者在腾讯云上构建运用,信任后边会有渐渐的变多开发者参加,咱们将和一切开发者一同,共建云上的运用生态”,蒋杰表明。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!