大数据基础知识科普(2)
2021/6/2 10:31:18
本文主要是介绍大数据基础知识科普(2),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
上一篇《大数据基础知识科普(1)》为大家讲解了关于服务器,存储磁盘以及RAID的内容。这一篇将沿着之前的脚步,为大家带来更多学习大数据必须要掌握的知识!
目录
- 什么是集群?
- 什么是计算机网络?
- 什么是交换机?
- 什么是局域网?
- 什么是网络拓扑?
- 以太网络
- InfiniBand网络
- 什么是机架?
- IDC数据中心
- 思考:为什么和谐号、复兴号会这么快?
- 小结
在正式讨论这个问题之前,我们先来看一组图。
羊群
鸟群
集群
相信通过上面的类比,大家对集群有了一个大概的认知。没错,集群就是一组相互独立的、通过高速计算机网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。
而计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件/硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。
什么是计算机网络?
计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
什么是交换机?
交换机(Switch)意为“开关”是一种用于电(光)信号转发的网络设备。它可以为接入交换机的任意两个网络节点提供独享的电信号通路。最常见的交换机是以太网交换机。其他常见的还有电话语音交换机、光纤交换机等。
8口交换机 24口交换机
48口交换机
什么是局域网?
局域网是指在某一区域内由多台计算机互联成的计算机组。一般是方圆几千米以内。局域网可以实现文件管理、应用软件共享、打印机共享、工作组内的日程安排、电子邮件和传真通信服务等功能。局域网是封闭型的,可以由办公室内的两台计算机组成,也可以由一个公司内的上千台计算机组成。
什么是网络拓扑?
网络拓扑(Network Topology)结构是指用传输介质互连各种设备的物理布局。指构成网络的成员间特定的物理的即真实的、或者逻辑的即虚拟的排列方式。
以太网络
优点:
是当前局域网的实时标准,配置方便,即插即用,软件支持丰富。
价格便宜,随处可得。
缺点:
无论是延迟还是吞吐量都不如一些专用网络。
用途:
是构建局域网最方便的方式。
现在被广泛用于云计算中的大规模数据处理集群中。
常见的带宽,1Gbps以及10Gbps。
InfiniBand网络
优点:
延迟极低(不到400纳秒)、很高吞吐量(高达40Gbps)。
结构先进(Offloading Engine,Zero Copy)。
缺点:
价格较贵、软件支持较少。
影响较低,与传统以太网络不兼容。
用途:
多用于高性能计算领域。
常见的带宽,10Gbps,20Gbps以及40Gbps。
什么是机架?
全称为机架式服务器,是用于固定电信柜内的接插板、外壳和设备。通常宽19英寸,高7英尺。对于IT行业,可简单理解为存放服务器的机柜。
机柜一般是冷轧钢板或合金制作的用来存放计算机和相关控制设备的物件,可以提供对存放设备的保护,屏蔽电磁干扰,有序、整齐地排列设备,方便以后维护设备。机柜一般分为服务器机柜、网络机柜、控制台机柜等。
IDC数据中心
互联网数据中心(Internet Data Center)简称IDC,就是电信部门利用已有的互联网通信线路、带宽资源,建立标准化的电信专业级机房环境,为企业、政府提供服务器托管、租用以及相关增值等方面的全方位服务。
相信大家对大数据集群已经有了很深的印象,那么下面我们来思考一个问题!
老式火车(载人/运货) 最高时速约为160Kkm/h。
和谐号最高时速约为300km/h。 复兴号最高时速约为400km/h。
原因大家猜到了吗,其实是这样的:
其实说这个思考题的目的,就是想让大家变相的思考大数据为什么相较于传统的数据处理,为什么处理的速度会较之后者快那么多。例如,由于能够处理多种数据结构,大数据能够在最大程度上利用互联网上记录的人类行为数据进行分析。大数据出现之前,计算机所能够处理的数据都需要前期进行结构化处理,并记录在相应的数据库中。但大数据技术对于数据结构的要求大大降低,互联网上人们留下的社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息都可以实时处理,立体完整地勾勒出每一个个体的各种特征。另外,分布式计算也是大数据相较于传统数据计算一大亮点。分布式计算结合了NoSQL与实时分析技术,如果想要同时处理实时分析与NoSQL数据功能,那么你就需要分布式计算技术。分布式技术结合了一系列技术,可以对海量数据进行实时分析。更重要的是,它所使用的硬件非常便宜,因而让这种技术的普及变成可能。
大数据基础科普(1)和(2)主要的都是为大家对一些大数据行业必须要掌握的概念性内容作了一个还算是比较充分的讲解。看到这里可能就有小伙伴按奈不住了,那么大数据到底是学习什么内容呢?先别急哈,大数据方面的学习呢,主要是Hadoop生态的相关技术,例如hadoop、spark、HDFS、Hive等,基本已经成为了大数据领域的必备技能。在语言方面,依然是JAVA、Scala、Python等。这就作一个简单的提醒,学习大数据技术不是一朝一夕可以的,小伙伴可以看看我以前发的文章了解更多大数据的内容。暂时还是有疑惑的,不用着急,可以在评论区积极留言,小菌会及时回复的( • ̀ω•́ )✧另外,从下一篇开始,小菌将从技术方面为大家带来更多有趣的内容,记得别忘了关注小菌呐~~
这篇关于大数据基础知识科普(2)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-30阿里云部署方案教程:新手快速入门指南
- 2024-12-30阿里云RDS教程:新手入门指南
- 2024-12-28揭秘 Fluss 架构组件
- 2024-12-27阿里云部署方案学习入门:新手必读指南
- 2024-12-27阿里云RDS学习入门:新手必读指南
- 2024-12-27初学者指南:轻松掌握阿里云部署
- 2024-12-27阿里云RDS入门指南:轻松搭建和管理数据库
- 2024-12-27Sentinel监控流量:新手入门教程
- 2024-12-27阿里云部署方案学习:新手入门教程
- 2024-12-27阿里云RDS学习:新手入门指南