百度副总裁侯震宇Qcon演讲:AI时代 让AI基础架构“无”影随行

长春新闻 阅读(595)
?

“在未来,人工智能无处不在,基础设施'没有'。” 5月6日,在第10届全球软件开发大会上,百度副总裁侯振宇发表了题为《面向 AI 的基础架构建设》的演讲,分享了人工智能开发的基础。建筑挑战,以及百度的实践经验和解决方案。

img_pic_1557221474_0.jpg

侯振宇于2003年加入百度。他曾担任新产品研发部门的架构师,基础设施部门的总设计师以及百度移动云的总设计师。十多年来,他一直致力于百度的基础设施建设。

侯振宇在演讲中表示,人工智能是一股巨大的浪潮,在全球范围内带来了巨大的市场机遇和发展潜力。根据Stastata,前瞻性产业研究所,中信证券等机构的调查数据,中国已成为全球第二大潜在的人工智能市场。利用人工智能推动互联网行业的技术创新,促进传统产业的升级和转型,将是中国人工智能社区面临的巨大机遇和挑战。

就百度而言,在许多商业场景中,如AI +自动驾驶,AI +家庭,AI +教育,AI +医疗,AI +安全等,百度已经开始探索。例如,百度阿波罗已成为世界上最全面,最全面的自动驾驶平台。小助手拥有中国最大,最繁荣的软硬件综合对话人工智能生态系统;百度的教育智能解决方案基于百度积累的大量专业内容和准确的用户肖像。它集成了“ABC(AI,大数据,云计算)”三项关键技术,并渗透到多个交互场景中,创建“人工智能+教育”。智能教育模式促进了人工智能教育的全面落地.这些都是百度促进人工智能技术快速落地和传统产业赋权的结果。

为了支持AI时代的商业场景,百度在中国建立了最完整,功能最全的人工智能技术开放平台。百度脑核技术和开放平台,提供全栈,端到端,软硬的AI技术和产品。而该方案,从深度学习框架,深度学习培训平台,现场AI能力,定制化培训平台,到软硬集成模块和解决方案,实现全面开放,加速创新AI产品的开发,帮助企业智能化转型。百度的大脑已经开启了171项领先的人工智能功能,通过百度智能云,它已经为互联网,交通,工业,医疗,零售和金融等众多行业提供了支持。

img_pic_1557221475_1.png

人工智能时代的基础设施:无处不在的计算,无处不在的连接

从百度的人工智能实践中可以看出,人工智能的发展将给基础设施带来巨大的变化和挑战。它需要能够从头到尾提供AI的计算能力,这要求计算系统从旧计算系统中获得巨大的成功。数据处理能力和对高IO峰值的追求转化为对AI培训功能的IO密集型,计算密集型和通信密集型要求,以及AI推理功能中对大吞吐量和低延迟的需求。

基于此,侯振宇认为,面对即将到来的AI + 5G时代,无处不在的计算将成为所有系统的灵魂。真正的计算将发生在设备,边缘和云中,因此DEC场景将成为下一个主要的研究问题;同时,包括芯片,系统和设备之间。互连将有助于在不同场景中连接计算,生成更大的计算能力,驱动数据流并创造更大的价值。

从芯片到集群系统再到D-E-C,计算无处不在。

面对D-E-C场景带来的挑战,百度从芯片和集群系统等多个角度进行了探索。在芯片层面,侯振宇表示,过去我们使用DSL(领域特定语言)为某个领域设计表示语言,以便更好地描述该领域的场景或数据特征。未来应该更加关注DSA(领域特定架构),这是特定领域场景中的架构系统。在这个大思维下,百度设计了昆仑芯片。目前,昆仑芯片的内存带宽已达到512G,性能达到260Tops。通过应用定义,场景自适应和模块化设计,IP +芯片可以覆盖DEC场景并支持AI。培训和推理。

在集群系统级别,百度通过构建大规模的AI计算集群系统提供数百万的TOPS级计算能力。在这个系统中,百度自主研发的超级AI计算平台X-MAN,高性能存储池和高速互连共同构成了百度的整体基础设施;通过优化计算,IO优化,通信优化,实现整体性能加速;集成在该级别,通过智能调度/ADP和自动编译器实现作业调度和资源分配。

在芯片,基础设施,性能优化方面,百度在中国创建了唯一完整而完整的深度学习平台PaddlePaddle。 PaddlePaddle包括三个部分:核心框架,工具组件和服务平台。在核心框架层面,它可以为开发,培训和预测提供一系列技术能力;最重要的是,它提供了丰富的模型,包括视觉,自然语言等,通过模块化的方法形成一个完整的模型库。提供给用户,以及工具组件,包括迁移学习,强化学习,自动化网络结构设计,培训可视化工具,灵活的深度学习计算等。在服务平台级别,PaddlePaddle提供从零开始的定制培训和服务。平台EasyDL和一站式开发平台AI Studio。通过一系列框架和服务,百度可以帮助开发人员和企业使用工具和平台方法来降低深度学习应用的门槛,加速产业智能转型。

img_pic_1557221475_2.png

根据计算需求,百度还为AI场景设计了一个高性能的共享存储系统。与存储硬件分开,实现弹性扩展;通过使用分布式块存储,软硬结合,充分利用新的存储和网络技术;通过共享存储系统,用于AI场景的大规模文件优化,支持数据共享访问。

为了应对人工智能时代计算需求驱动的计算架构的发展,侯振宇认为,在5G时代,整个D-E-C驱动器的普适计算架构已基本形成,计算无处不在。随着5G的大力推广,在无处不在的计算架构中,计算从边界发展到无边界;计算的集中和分散实现了融合和转换为分层和集成计算;计算和网络也实现深度集成。

芯片互连,系统互连,数据中心互连,5G边缘互连,无处不在的连接

在无处不在的计算背后,它通常是相互联系的,可以真正推动重大变革。互连连接计算以创建更大的计算能力,驱动数据流并产生更多价值。因此,连接也无处不在。这种连接涉及芯片间互连,系统间互连以及数据中心内外的互连以及5G终端的边缘。

据侯振宇介绍,在芯片级系统中,百度使用NVLink,PCIe Fabric和昆仑芯片定义的芯片间互连技术。此外,不久前,百度宣布与微软和Facebook合作共同开发OAM(OCP加速器模块)标准。该标准用于指导AI硬件加速模块和系统设计,也用于实现更多芯片卡之间的互连。

除了芯片之间的互连之外,百度还在数据中心内部的云上使用Clos Fabric网络架构,以实现整个数据中心内的高速,非汇聚互连。同时,整个基本资源(包括计算资源,存储资源等)都是分开的,以提供CPU内存池和更多存储池。通过上述高速互连和必要的安全隔离,实现了资源共享,从而提高了效率,使整个计算能力更强大。因此从某种意义上说,网络是真实基础设施的底层,使基础设施能够扩展到更大的AI计算。

在5G时代的背景下,从数据中心到边缘节点到终端设备和应用场景,存在从2毫秒到200毫秒的延迟环路。基于如此大的延迟环路,百度使用不同的通信技术,如MEC计算节点和WiFi节点,实现更好的通信,支持智能城市,智能交通,智能家居等服务的发展。这些也是百度面对5G的浪潮,目前正在完成并计划在基础设施层面完成。

在演讲结束时,侯振宇说,未来计算无处不在,互联网无处不在。百度也将努力使AI无处不在。百度建立的人工智能基础设施“没什么”。所谓“无”意味着所有服务都以云和大平台的形式无缝连接,从而以更简单,更实用的方式实现百度AI能力的普遍优势。