拓扑怎么读(2022年银行存款利率表一览表)

2022-06-19 16:46:12 股票 yurongpawn

拓扑怎么读



本文目录一览:





网络工程师词汇表2
1.GB Ethernet(兆位以太网) 一种新的高速以太网,由 IEEE802.3 工程规定。带宽
1 0 0 0 M b p s,虽然可以运作在小段的 U T P(非屏蔽双绞线) ,但通常运行在光纤介质上。
1 0 B a s e 2 一种以太网,根据 I E E E 8 0 2 . 3标准,使用铜缆作为介质,为总线拓扑,
1 0 B a s e 2也叫细网或细以太网,它的名字来源于它以 1 0 M b p s 的速度传输数据(所以叫
“1 0 B a s e”)和它的网段*长度为 1 8 5米,大约2 0 0米(所以叫“ 2”) 。
1 0 B a s e 5 最初的以太网标准,它使用总线拓扑和粗同轴电缆,也叫粗网或粗以太网。
它的名字来源于它以 1 0 M b p s的速度传输数据(所以叫“ 1 0 B a s e”)和它的网段*长度为 5 0 0
米 (所以叫“ 5”) 。
1 0 B a s e T 一种以太网类型,它使用双绞线,星形 -总线拓扑或树形拓扑。以 1 0 M b p s传输
数据(所以叫“ 1 0 B a s e”)和它需要双绞线( t w i s t e d - p a i r)作为介质(所以叫“ T”) 。
1 0 0 B a s e T I E E E 8 0 2 . 3 u定义的一种新的以太网标准,它使以太网在不作大的投资和结构
改变的情况下能把局域网的传输速度提高到 1 0 0 M b p s。 1 0 0 B a s e T在星形-总线拓扑或树形拓扑
中使用基带传输,像 10Base T一样, “T”代表使用双绞线。
1 0 0 B a s e T X 100Base T技术的一种,它通过以 1 0倍的速度传送信号并且减少数字脉冲间
隔和工作站用于 C S M A / C D的等待和侦听时间来达到 1 0 0 M b p s的传输速度,它要求 5类U T P
(非屏蔽双绞线) 。
1 0 0 B a s e V G 一种可以以1 0 0 M b p s传输数据的网络模型,与以太网不同, 1 0 0 B a s e V G使
用一种有优先级的介质访问方法而不是 C S M A / C D,像100BaseTX 一样, 100 Base VG使用全
部4对双绞线,它名字中的 V G是来源于它可以传输语音(“Voice grade”) 。
802.3 关于以太网设备和数据操作的 I E E E标准。
8 0 2 . 5 关于令牌环的连网设备及数据操作的 I E E E标准。
A
A + C o m p T I A创建的、标识关于P C操作、修理以及管理的专家认证系统。
A C K(应答信号) 在O S I模型的传输层中用来通知发送者发送的帧已经收到的应答信
号。
active monitor(活动监视器) 在令牌环网络上,负责维护令牌传递、监视令牌和帧的
传输、检测丢失的令牌和纠正其他错误的工作站,在任何时候都只能有一个活动监视器。
active topology(动态拓扑) 一种拓扑结构,在这种结构中,任何工作站都参与数据传
输。
a d d r e s s(地址) 在网络上惟一标识每个工作站和设备的数字。没有惟一的地址,网上
的计算机就不能可靠通信。
address management(地址管理) 集中管理整个局域网的地址,通常不需要访问客户
工作站。
548 计算机网络实用教程
下载
Address Resolution Protocol (ARP,地址解析协议) T C P / I P的一个核心协议,它属于
Internet 层,它得到一个主机或节点的 M A C地址,然后产生一个本地数据库,把 M A C地址映
射到主机的I P地址。
a d d r e s s i n g(编址) 赋予网络上每一个工作站设备惟一地址的过程,地址的类型由网
络协议和操作系统决定。
A I X I B M实现的U N I X系统。
a l i a s(别名) 一个节点主机的别名,可以在一个本地主机文件中指定。
alien crosstalk(外部串扰) 当两根电缆传输时发生的一种相互干扰。
a m p l i t u d e(幅度) 一种信号强度的表达。
A N S I(美国国家标准化协会) 由美国全国来自工业单位和政府的 1 0 0 0多名代表组成,
决定电子业,以及其他领域如化学、原子能、健康、安全、建筑等的标准的组织。
analog (模拟信号) 用电压的高低产生连续波,进行一种非精确传输的电子信号。
API (application programming interface,应用程序编程接口 ) 一种允许应用程序与操
作系统交互的方法或命令。 A P I源于O S I模型的应用层。
Apache (阿帕奇) 一种流行的、开放源码的 We b服务器程序,经常用在 Linux 的I n t e r n e t
服务器上。

A p p l e Talk 用来与M a c i n t o s h计算机互连的协议,虽然 A p p l e Ta l k最初是设计用来支持在M a c i n t o s h计算机之间进行点对点网络通信的,但它现在也可路由并且可以和
M i c r o s o f t网络集成。N e t Wa r e和

A p p l e Talk Network Number(A p p l e Ta l k网络号) 用来标识Apple Ta l k节点上连接的网
络的一个惟一的1 6位的数字。
A p p l e Talk node ID( A p p l e Ta l k节点I D) 一个用来标识A p p l e Ta l k网络中的计算机的一
个惟一的8位或1 6位数字(如果你正在使用扩展网络,在其中一个网络可以有多个地址并支持
多个地址) 。
A p p l e Talk Zone(A p p l e Ta l k区) 在A p p l e Ta l k网络中定义的逻辑组。
application layer(应用层) O S I模型的第七层,应用层为要使用网络服务的应用软件
提供接口。
application switch(应用交换) 对第三层或第四层交换的另一个名称。
a r r a y(磁盘组) 一组硬磁盘。
asset management(资产管理) 收集并存放关于一个组织网络中有关软件、硬件的数
量、类型的数据,数据的收集是在一个服务器上自动检测各个工作站而完成的。
asymmetric multiprocessing(非对称多道处理技术) 为指定处理器分配子任务的多道
处理技术。

a s y m m e t r i c a l(非对称性)
另一个方向。一种传输技术特性,它表示在一个方向上传输的带宽大于asymmetrical DSL(非对称性 D S L) D S L的一种,当数据下载时比上载时的流量要大。a s y n c h r o n o u s(异步的) 一种传输方法,端与端之间传输和接收时不需要时间上的同步,在异步通信中,一个端子可以在任何时候发送数据而目标端在数据到来时必须接收。Asynchronous Transfer Mode(AT M异步传输模式) 1 9 8 3年在贝尔实验室提出来的一


词 汇 表 549

下载

种技术,但直到 9 0年代才被标准化,它靠定长的数据包使传输速率达到 2 5~6 2 2 M b p s,定长
的数据包由4 8个字节的数据加5个字节的头信息组成,定长的数据包允许 AT M在宽带应用上提
供可预测流量的模型和更好的控制。
a t t e n u a t e(衰减) 当信号从源端传输到较远处时的强度减弱现象。
a t t e n u a t i o n(衰减) 在给定距离的信号的衰减量。
a u t h e n t i c a t i o n(身份验证) 检测一个用户的身份和权限的过程,不同的系统采用不同
的验证手段。
a u t o s e n s e(自动检测) 现代网络接口卡的一种特性,它使网络接口卡能自动检测网络
上正在运行的帧类型并依据它来完成设置。
B
B channel( B通道) 在I S D N中的“承担”通道,因为它承担点到点的数据流。
b a c k b o n e(网络主干) 连接每个连接设备或不同层次的连接设备的电缆连接。
b a c k l e v e l i n g(恢复的版本) 在试图升级一个软件后又恢复到以前版本的过程。
b a c k u p(备份) 为安全原因而产生的一个对数据和程序文件的拷贝。
backup browser(备份浏览器) 一个保持一个主浏览器浏览列表的拷贝的服务器,在
主浏览器失败时可以代替其工作。
backup Domain Controller(BDC,备份域控制器) 备份主域控制器的账号和安全信息
的域服务器,备份域控制器( B D C)也可提供对用户身份的验证,一个域中可以有的备份域
控制器( B D C)数量是没有限制的,但一般至少应该有一个,因为备份域控制器( B D C)必
须读写主域控制器( P D C) ,所以备份域控制器( B D C)应该在主域控制器( P D C)正常运行
以后安装。
backup rotation scheme(备份计划) 关于何时和如何备份的计划,决定哪次备份是完
全备份、增量备份或差分备份。
b a n d w i d t h(带宽) 描述介质所能传输的*频率与*频率之间的差值的量。
bandwidth overhead(带宽开销) 为支持可路由协议而在网络基础上的开销。

base I/O port(I / O端口基址) 一个1 6位设置,决定哪块内存用来作为 C P U与网络接口卡之间的数据传输通道,像 I R Q(中断号)一样,一个设备的 I / O端口基址也是不能与其他设备复用的。
b a s e b a n d(基带) 一种传输模式,数字信号直接把电流脉冲送到电缆线上。这种直接

电流传送要求使用电缆的全部基带,所以基带传输只能同时传送一个信号或一个通道,在基
带系统中所有设备共享一个通道。
b a s e l i n i n g(记录基线) 在网络上测量并记录网络当前状态的操作。
bend radius(弯曲半径) 在保证不引起传输问题的情况下,电缆所能弯曲的*弧度,
一般情况下,电缆的弯曲半径小于电缆本身半径的 4倍。
best path(*路径) 从网络上一端到另一端的最有效的路径,在系统*情况下,
*路径是两点之间的直线路径。
b i n a r y(二进制) 用1和0的编码来表达信息的系统。
b i n d i n g(绑定) 指定一个网络设备与另一个协同工作的过程。
550 计算机网络实用教程
下载
bio-recognition access(生物识别访问系统) 通过扫描个人的生理特性(例如一个人
虹膜的颜色或指纹)来验证用户身份的系统。
BIOS (basic input/output system)(基本输入输出系统) 安装在主板上的系统,用来
控制计算机与外围设备的通信。
bit (位) 二进制数的单位,一位在二进制编码系统中相当于一单个脉冲,它只有两种可
能取值0或1。
blackout (掉电) 电源完全丢失。
block (块) 磁盘空间单位或 N e t Wa r e系统能控制的磁盘空间的最小单位,块越小需要服
务器的内存开销越大。
Block ID (块标识) M A C地址的6个数字中的第一个,它标识惟一的制造商。
block suballocation (子块定位) N e t Wa r e的一项技术,它通过使不能占用整数个块的文
件只占块的一部分而把其余空间留给别的数据,从而提高硬盘空间的利用效率。
BNC T connectors (BNC T 型连接头) 在1 0 B a s e 2以太网中用来把节点连接到网络上的
连接头。
b o n d i n g (绑定 ) 通过把一个以上 I S D N通道连结起来而提高吞吐量过程。例如,两个
6 4 K b p s的B通道可以连结而产生一个 128 Kbps的通道。
boot sector virus (引导区病毒) 驻留在软盘引导区的一种病毒,它可以感染分区或 D O S
引导区,引导区病毒只有在机器启动时软盘在软驱中才会感染。
Bootstrap Protocol (BOOTP,解包协议) 一种用来简化I P地址管理的服务。 B O O T P集
中维护一张I P地址和它所对应的设备的 M A C地址的表,当客户机需要时可以分配给客户机。
Border Gateway Protocol (BGP,边界网关协议 ) I n t e r n e t主干的路由协议, I n t e r n e t的
发展使路由器的负荷不断增加,也促使了 B G P的发展。 B G P是当前最复杂的路由协议, B G P
的开发者必须考虑在当有 100 000条路径可经选择时如何高效地通过上百个 I n t e r n e t主干网。
braiding (锡箔层) 一层锡箔做的薄层,用来屏蔽某些类型的同轴电缆。
BRI (Basic Rate ISDN,基本速率I S D N ) 一种类型的I S D N,用两个6 4 K b p s的通道和一
个1 6 K b p s的通道,一般表示为 2 B + D, B R I是家庭用户最常用的I S D N类型。
bridge (网桥) 一个很像中继器的设备,它有一个输入口和一个输出口,与中继器不同,
网桥可以在重新传输之前操作收到的数据。
bridge router (brouter,桥路器) 一种路由器,它可以提供第二层的桥接功能。
broadband (宽带) 一种信息的传输方法,它通过把信号调制到不同频率的射频模拟脉冲
来完成,与基带不同,宽带传输技术并不使用二进制编码,频分复用技术可以使宽带系统使
用多个通道因而传输更多数据。
broadcast (广播) 一种向所有网络上的工作站传输信息的行为。
broadcast domain (广播域) 在虚拟局域网中( V L A N) ,必须用第3层设备例如路由器
和第3层交换机连接的,组成第 2层网段的端口。
brownout (电压不足 ) 一种短时间的电压降低现象,一个负荷过载的电路系统会产生这
种现象,可以通过灯光变灰暗来识别。
browse list (浏览清单) 所有发布的对浏览器可用资源的列表。
browser (浏览器) 用来发现所有在网络上的共享设备的服务。它还编辑包含所有这些资
源的数据库,服务器上也运行浏览器服务。
browser election (浏览器选举) 在所有计算机中决定哪个可以接替主浏览器而保持主浏
览器列表的过程。
BSD (Berkeley Software Distribution,伯克利软件版本) 一种由加州大学伯克利分校发
布的U N I X版本,以B S D前缀区别于AT & T发布的U N I X。
bug (臭虫) 在硬件和软件中引起系统错误的问题。
bus (总线) 在主板上用来自C P U和各个部件之间传输数据的电路,大部分奔腾机使用 3 2
或6 4位总线交换数据,随着总线位数增加,设备的逻辑也要增加。
bus topology (总线拓扑) 一种网络拓扑结构,所有的设备通过一条电缆连接到网络上。
b y t e (字节) 8个数据位的信息。数字系统中,一个字节携带一个信息。
C
cable checker(电缆检测系统) 一种简单的手持设备,用来测试电缆是否连接正常,
它通常在电缆一端加上电压,然后在另一端检测来实现,它可以确认电压量在另一端是否开
测。
cable drop(下行电缆) 接入到用户家的一段光纤或同轴电缆。
cable plant 组成企业范围内的电缆系统的硬件。
cable tester(电缆测试仪) 一种手持设备,不仅可以检查电缆连接,而且也可以确认
电缆不超过*长度,测量电缆的长度、衰减、相近端的串扰,终端电阻、细缆的阻抗等,
以通过与失败比率来表示电线标准,可以保持或打印电缆测试结果。
c a c h i n g(缓存) 通过把常用的数据保存在物理内存中以备将来使用来提供性能的过程,
缓存能加快对服务器的访问,因为操作系统不用到磁盘中去搜索数据。
call tracking system(调用跟踪系统) 用来把问题文挡化的程序,流行的例如 c l i e n t e l e、
Expert Advisor、 Professional Help Desk、 D e m e d y和Va n t i v e。
c a p a c i t y(容量) 见t h r o u g h p u t
Carrier Sense Multiple Access with Collision Detection (CSMA/CD)具有冲突检测的载
波监听多路访问 共享以太网的通信协议,在 C S M A / C D中,每个节点在发送前等待一段时间
以避免冲突。
Category1 (CAT 1, 1类双绞线) 一种类型的双绞线,内含两对线,只适合于发送话音,
而不适合于传送数据,它最多只能以 2 0 K b p s传送数据。
Category2 (CAT 2, 2类双绞线) 一种类型的非屏蔽双绞线,内含 4对线,可以以4 M b p s
传输数据,现代网络已经很少见。
Category3 (CAT 3, 3类双绞线) 一种类型的非屏蔽双绞线,可以以 1 0 M b p s传输数据,
带宽可以达到 1 6 M H z, 3类线典型运用在 1 0 M b p s以太网或4 M b p s令牌环网上,网络管理员逐
渐用5类线来取代它以获得更高的传输容量, 3类线比5类线便宜。
Category4 (CA T 4, 4类双绞线) 一种类型的非屏蔽双绞线,内含 4对线,可以以
1 6 M b p s传输数据, 4类线可以支持 1 0 M b p s以太网和1 6 M b p s令牌环网,它可以保证 2 0 M b p s传
输速率并提供更好的对串扰及衰减的抑制。
Category5 (CAT 5, 5类双绞线) 新建网络或升级到高速以太网时最常用的 U T P,内含4
词 汇 表 551

下载


552 计算机网络实用教程
下载
对线,可以支持1 0 M b p s带宽和1 0 0 M b p s的传输速率,除高速以太网外, 5类线还支持其他高速
网络技术,如AT M、 F D D I等。
Category6 (CAT 6, 6类双绞线) 一种类型的非屏蔽双绞线,内含 4对线,每对都用金
属箔屏蔽,整束线又用一层金属箔屏蔽,在第二层屏蔽层之外又加上一层防火塑料层,金属
箔屏蔽对串扰影响有良好的抑制作用,所以 6类线可以提供6倍于标准5类线的吞吐量。
C D F S(CD-ROM File System,光盘文件系统) 用来访问C D上资源的只读文件系统,
Windows NT支持这种文件系统,因而可以支持 C R - R O M的共享。
cell (信元) 一个定长的数据包,在 AT M技术中,一个块是由 4 8个字节的数据加上一个 5
字节的块头组成的。
certification (认证) 通过掌握特定的硬件、操作系统、编程语言或软件,并通过考试而
得到对其掌握程度的承认的过程。
Certified Network Engineer (CNE,认证的网络工程师 ) N o v e l l公司建立的专家认证系
统,用来证明一个人对 N o v e l l网络系统的理解程度。
change management system (变化管理系统) 一种支持个人集中管理网络变化的过程
或程序,在小的组织或企业中,变化管理系统非常简单,它可以是个人每次改变网络时都把
自己所做的改变添加到一个文档中。在大的组织或企业中,它可能由一个具有图形界面的数
据库管理系统组成,根据不同的计算机环境提供不同的内容。
CIR (Committed Information Rate,承诺信息速率) 在租用帧中继线路时保证使用的最
小带宽,帧中继的成本部分依赖于承诺信息率。
circuit switching (电路交换) 一种交换类型,在两个网络节点之间传输数据前必须首先
建立连接。使用电路的全部带宽,在用户终止两个节点间的通信之前,线路对别的节点是不
可用的。
cladding (包层) 包裹在光纤芯层外面的一层玻璃层,包层的作用相当于一面镜子,把到
达的光线发射回芯层。这种反射允许光纤在不丢失光信号的前提下弯曲。
client (客户) 在网络中向别的计算机请求资源或服务的计算机,在某些情况下,客户机
也可以作为服务器。客户也可指一台工作站的用户。
client redirector (客户机重定向器) 一台客户机在访问服务器时所要求的服务。
coaxial cable (同轴电缆) 一种类型的电缆,由中心的铜线和它外层的金属屏蔽网、再外
层的绝缘层组成。是 1 9 8 0年为以太网而发展的,在此以后一直是网络的常用介质。
collapsed backbone (易崩溃主干网 ) 一种企业级的主干网,以交换机或路由器作为多
个子网的中心连接点。
collision domain (冲突域) 一组连接的局域网设备,可以引起并检测他们之间的冲突。
网桥和交换机可以从逻辑上分开多个冲突域。
command interpreter (命令集成器 ) 一个(大部分都是基于文本的)程序,能够代替用
户输入来执行系统命令或应用程序。通常是执行一系列保存在文件中的系统命令。
communications server (通信服务器) 运行通信服务如Windows NT的R A S或N e t Wa r e的
N A S等的服务器,也叫做访问服务器。
complete trust domain model (完全信任域模型) 一种组织Windows NT域的模型,在这
种模型中,每个域管理自己的用户、组、账号、文件和打印机。每个域与其他域之间都有一
词 汇 表 553

下载

个双向的域委托关系。
Computing Technology Industry Association (CompTIA,计算机技术工业协会 ) 由计
算机制造商、分销商、培训公司等组成的联合体,他们设定工业级的计算机标准。 C o m p T I A
建立并担保A +和N e t w o r k +认证。
conduit (管道) 用来保护电缆的管道,一般用金属作成。
connection-oriented (面向连接 ) 某些协议的特性,要求在两个节点传输数据之前首先
建立一条连接。
connectionless (无连接) 某些协议的特性,允许协议在传输时并不要求事先建立连接。
但这样的协议不能保证信息的无错传输。
connectors (连接器) 用来把网络设备连接到电缆的硬件,无论设备是文件服务器、工
作站、交换机或打印机。
container Objects (容器对象) 在N e t Ware NDS树中的逻辑子块或分枝,用来图形化组织
关于位置、部门、功能、安全验证或其他标准事务。
context (上下文) 一种用来在N D S树中寻找对象的路由,上下文由一个对象的可组织的
单元名构成,从最特殊的到最常用,加上组织名,相互之间用句号隔开。
contingency planning (防止意外情况计划) 用来确认把偶发错误危及整个工程目标的可
能降低到最小的过程。
convergence time (收敛时间) 在遇到路径改变或时间损耗太长时路由器重新寻找一条
*路径所花费的时间。
core (纤芯) 光纤的中心部件,由一个或多个纯玻璃纤维组成。
core gateways(中心网关) 组成I n t e r n e t骨干网的网关,中心网关由 Internet 管理中心
( I N C)管理。
cracker (骇客) 利用操作系统或应用程序的知识破坏系统或数据的人。
C R C(Cyclic Redundancy Check,循环冗余检验) 用来验证数据帧中数据准确性的算
法。
crosstalk (串扰) 一种由相邻线对之间传输数据而引起的干扰。
CSU (Channel Service Unit,通道服务单元) 一种用T载波技术来提供数据终端,提
供纠错功能来保证连接完整并进行线路监视的设备。
C S U / D S U 综合提供C S U(通道服务单元)和 D S U(数据服务单元)的设备,用来作为
T 1线路在用户端的连接点。
custom installation (自定义安装) N e t Ware 提供的安装选项,允许你决定安装哪些服务
或选项。
custom setup (自定义安装) Windows NT Server 提供的安装选项,允许你决定安装那些
服务或程序,自定义安装一般比压缩安装花费时间多。但如果服务器使用特殊的硬件或软件,
就必须选择自定义安装。
cut-through mode (捷径交换模式 ) 一种交换模式,交换机在接受到整个数据帧之前,
先读区帧头信息,决定信息的发送方向。切割交换模式比其他交换模式(例如存储和发送模
式)速度快,但准确性较差。
Cyclical Redundancy Check(CRC,循环冗余校验) 在以太网帧中使用的算法, C R C通
554 计算机网络实用教程
下载
过计算帧中所有的数据位形成一个 4字节的值叫做 F C S,当接受方收到该帧后,通过 C R C来验
证收到的帧与发送时是否相同,如果不同,说明该帧在传输过程中受到损坏,就要求发送方
重发。
D
D Channel (D 通道) 在I S D N中, D通道用来传输有关呼叫(例如对话初始化或中断信
号) 、呼叫者身份验证、呼叫传递、参考呼叫等的信息。
d a i s y - c h a i n(菊花链) 一种设备连接服务。
DataLinklayer (数据链路层) 在O S I模型的第二层,数据链路层把网络介质与网络层连接
起来。它的主要功能是把从网络层接受来的数据打包成桢,并转换成物理层可以发送的形式。
DataLink layer address (数据链路层地址) 参见M A C地址
data modulation (数据调制) 用一个信号改变另一个信号的频率、相位或幅度的过程。
data packet (数据包) 从一个计算机发往另一台计算机的信息单元。
dedicated circuits (专用线路) 由通信提供商(例如 I S P或本地电话公司)提供的,两点
之间持续的物理的或逻辑的连接
dedicated service (专线服务) 一种类型数据连接,用户不必拨号到 I S P,连接在任何时
候都是可用的。
dedicated line (专线) 一种持续可用的连接,典型的如 A D S L, T 1, T 3等。
default gateway (缺省网关) 设备要申请子网以外的服务时首先查找的和申请子网内部
的服务时最后查找的网关。在邮件服务中,缺省网关相当于邮局。
demand priority (事先申请优先级) 1 0 0 B a e V G以太网的数据传输方法,在星形或层次网
络中,每个要传输的设备发送一个请求给中心集线器,中心集线器只应答一个请求,集线器
检查输入数据包,得到目的地址,然后把数据包发送到目的地址。因为事先申请优先级,只
有源和目的节点可以看见数据。数据从源传送到集线器,然后从集线器传送到目的设备。
denial-of-service attack (停止服务攻击) 对系统的一种攻击方法,用过量的网络流量使
系统停止服务。
Device ID (设备I D号) 组成设备的M A C地址的6个字节中的第2个,是由生产商加上的。
根据设备的型号和生产日期不同而不同。
dial-up (拨号上网) 一种上网的连接方式,在发送端和接受端都使用 m o d e m,两者之间
用P S T N或其他线路连接。
dial-up networking (拨号网络) 拨号连接到局域网服务器或 I S P的过程。 也是微软提供的,
内含于其操作系统中的的实现拨号上网的工具软件的名字。
d i fferential backup (差分备份) 一种备份方法,只有上次备份后又改变的部分被备份到
存储介质。但不管改变与否,都会标志为已备份。
digital (数字的) 与模拟信号相对,数字信号只由 0或1的脉冲组成。
digital certificate (数字验证) 一个口令保护的加密文件,保存一个人的身份信息,包括
公共密钥和私人密钥,一个人的公共密钥用来验证发送者的数字签名,私人密钥允许个人登
陆,管理数字验证系统。
direct infrared transmission (直接红外线传输) 一种类型的红外线传输,要求发送者和
接受者都在对方的视野内。
disaster recovery (灾难恢复) 在一个企业级的系统崩溃后,从备份中恢复系统功能和数
据的过程。
disk mirroring (磁盘镜像) 一种R A I D技术,在数据写入磁盘时自动拷贝到另一个磁盘
上。
disk striping (磁盘条带化) RAID 技术的一种简单实现,数据以 6 4 K B大小的块均匀存储
在磁盘组的各个磁盘上。
diskless workstations (无盘工作站 ) 一种不带硬盘的工作站,依靠一片只读存储器中的
信息连接到网上并下载系统文件。
distributed backbone (分布式主干网) 一种类型的企业级的主干网,由许多集线器连接
到一系列的中心集线器或路由器上来实现。
domain (域) 通过Windows NT 操作系统共享账号和安全信息的一组用户、服务器或其
他的资源。
domain master browser (域主浏览器) 用来编辑、定位在域内的共享资源的服务器。
domain name (域名) 用来标识一个域的名称,通常域名与公司或其他组织,例如大学
或军队单位相联系。
Domain Name System (DNS域命名系统) 在8 0年代中期发展起来的一套把域名解析为
他的I P地址的系统, D N S数据库分布在 I n t e r n e t上的多个计算机上,以防止因某个计算机崩溃
而引起系统崩溃。 D N S是T C P / I P服务中属于O S I模型的应用层的服务。
dotted decimal notation (点-十进制标识) 代表I P地址的一种方法。为了使 I P地址更易识
别,用十进制的1 ~ 2 5 5代表一个字节的二进制数,相互之间用点隔开。
downstream (下传) 把本地P O P邮箱内的内容传给用户,在非对称通信过程中,下传的
带宽通常比上传大很多,而在对称通信中,两者带宽相同。
D S L(digital subscriber lines,数字预定线路) 远程的或广域网连接的专用线路,使
用先进的数字调制技术在普通的电话线上得到更大的带宽,常用的为非对称的 D S L( A D S L) 。
DSU (data service unit,数据服务单元) 一种使用T载波技术的设备,用来把网桥、路
由器及多路器使用的数字信号转换成可在线路上传输的信号。一般 D S U和C S U作在一个盒中,
叫做C S U / D S U。
Dynamic Host Configuration Protocol(D H C P,动态主机配置协议 ) T C P / I P在应用层
的一个服务,用来在网络上动态分配 I P地址,利用D H C P可以*限度地减少 I P地址冲突的可
能性。
E
e - c o m m e r c e(电子商务) 一种在We b上进行商业活动的方法,不管是零售业、银行业、
股票交易、咨询或培训,所有在 I n t e r n e t上进行的买卖或服务都属于电子商务。
echo reply (应答) 在一个设备p i n g另一个设备时,目标设备的应答信号。
echo request (应答要求) 在网络上一个设备p i n g另一个设备时要求目标设备作出应答。
EIA (Electronics Industry Alliance,电子工业联盟) 一个由来自美国全国的电子厂家
的代表组成的联盟。
词 汇 表 555

下载


Electromagnetic Interference (EMI,电磁干扰) 一种由诸如马达、电力线、电视、复
印机、日光灯或其他此类电子设备产生的干扰。
emergency repair disk (紧急修复盘) 一张用来在Windows NT崩溃后,恢复以前软件和
硬件设置的软盘,它可以恢复丢失的或损坏的系统文件和注册表,在安装操作系统时应该作
出这张盘。
encrypted virus(加密病毒) 一种病毒,用自身加密的办法来避过检查。
Encryption (加密) 利用算法来打乱数据,只有在解开算法时才能得到最初的数据,从而
实现信息保密。*的加密算法是在原数据的每个字节加入一个或多个密钥,从而产生加
密的数据块。
enhanced CAT5 (增强型5类线) 一种更*的5类线,内含高质量的铜芯,并且具有更
高的绞纽率,另外还使用其他的先进方法来减少串扰,增强型 5类线可以支持 2 0 0 M b p s的传输
速率,是标准的5类线的两倍。
Enhanced Interior Gateway Routing Protocol (EIGRP) 加强的内部网关路由协议
由C i s c o公司在 8 0年代中期发展的路由协议,它比 O S P F速度快、开销低、容易配置。
E I G R P还能够支持多种协议,可以减少路由器之间不必要的网络流量。
enterprise (企业) 一个组织的全部,包括当地或远程办公室、不同的计算环境、许多的
部门等。企业级的计算应该考虑一个大组织的计算环境的广度和差异性。
Erasable Programmable read-only memory (EPROM)可擦除可编程只读存储器 电路
板上的一种元件,它内部的信息可以被擦除、重写。例如,你可以通过改写网络接口卡上的
E P R O M来改变其缺省设置。
Ethernet (以太网) 在1 9 7 0年由X e r o x公司发展出来,后经 D E C、 I n t e l、 X e r o x公司改进
的一种网络技术,如今,有四种以太网技术,由 I E E E标准分别设定。
Ethernet 802.2 (802.2 以太网) N o v e l l公司的N e t Wa r e操作系统设定的缺省的帧类型,
它支持 I P X / S P X协议,在逻辑链路层(数据链路层的一个子层)定义数据的特征,如源、目
的等。
Ethernet 802.3 (802.3以太网) 最初的N e t Wa r e网帧类型,也是N e t Ware 3.12以下版本的
缺省帧类型,它支持 I P X / S P X协议。 Ethernet 802.3有时也叫做“粗8 0 2 . 3”,因为它只含数据而
不包含控制信息,像未加工的原材料一样。
Ethernet II(I I型以太网) 最初由X e r o x、 D E C、 I n t e l公司共同发展的一种以太网类型,
I I型以太网没有逻辑链路层信息,代之以一个 2字节的标志上层协议的字段。
Ethernet SNAP 8 0 2 . 2以太网和I I型以太网的一种融合, S N A P代表子网访问协议,在帧
的S N A P块包含3个逻辑链路层字段( D S A P、 S S A P和控制信息) ,另加上一个字段:组织 I D,
用来标识帧运行的网络类型,另外, S N A P以太网与I I型以太网一样携带以太网的类型信息。
express setup (压缩安装) 安装Windows NT Server 的一种选项,只选中那些最常用的
选项,压缩安装比自定义安装要快。
extended attributes (扩展属性) H P F S除支持基本的读、写、系统和隐藏属性以外,还
支持扩展属性。
extended Industry Standard Architecture (EISA,扩展工业总线) 一种与旧的I S A总线
兼容的3 2位总线,使用一个更深的插槽以提高数据吞吐率, E I S A总线在8 0年代后期发展出来,
556 计算机网络实用教程

下载


用来替代I B M的M C A总线。
extended network prefix (扩展网络前缀) 网络地址和子网信息的联合,通过使用扩展网
络前缀,一个设备可以确定一个地址属于哪个子网。
F
f a i l - o v e r(失败接替) 一个元件(例如网络接口卡或服务器)在没有人工干预的情况下,
在另一个元件失败时自动代替它工作。
failure (失败) 在一段时间内,在一定水平层次上与系统性能的偏离,失败在一些部件没
有按预期正常工作时发生。
Fast Ethernet (快速以太网) 参见1 0 0 B a s e T
FAT( File Allocation Ta b l e文件分配表) 在7 0年代发展出来的最初的微机文件系统,
支持软盘和后来的硬盘, FAT对大部分的服务器操作系统来说都是不足的。
FAT32 加强型的 FAT,它在一个磁盘上实现了长文件名和更小的分配单元。 FAT 3 2比
FAT有更高的磁盘利用率。
fault (错误) 系统中的一个设备不能正常工作,一个错误可能导致系统失败。
fault tolerance (容错) 一个系统在遇到硬件或软件故障时仍能正常工作的能力。
F D D I( Fiber Distributed Data Interface,分布式光纤数据接口) 8 0年代中期由A N S I
定义后又被 I S O重新定义的网络标准。 F D D I使用光纤以 1 0 0 M b p s速度传输数据,在 8 0年代和
9 0年代早期一般用于主干网,在快速以太网技术在 9 0年代提出后已逐渐退出市场。 F D D I有良
好的安全性和可靠性。
feasibility study (可行性研究) 对一个工程的成本、利润进行研究,并试图预测工程能
否带来有价值的产出(例如,工程能否在不给公司造成沉重的资本和时间负担的前提下达到
最初的目标)的过程。
fiber-Optic cable (光纤电缆) 一种类型的线缆,内含一股或几股光纤,数据通过激光或
发光二极管产生的光脉冲在内层进行传输,外层是包裹的一层玻璃,像镜子一样,根据不同
的传输模式,以不同的方式把内层到达的光反射回内层,在包裹层的外面,有一层塑料层和
K e v l a r网来保护芯层,最外面有一层塑料包裹。
file-infected virus (文件型病毒) 一种病毒,它把自己附加在可执行程序文件中,当被感
染的文件调入内存时,它把自己复制并附加在别的运行文件中。
file-Server (文件服务器) 一台运行网络操作系统的计算机,它使连在网络上的工作站都
能共享它上面的资源。
file services (文件服务) 文件服务器的功能,允许用户共享文件、应用程序和存储区。
file system (文件系统) 操作系统用来组织、管理、访问文件的方法,通过逻辑结构和软
件方法来实现。
File Transfer Protocol (FTP,文件传输协议 ) 一个应用层的 T C P / I P协议,用来管理
T C P / I P主机间的文件传输。
filtering database (过滤数据库) 由网桥产生和使用的数据表,它包含 M A C地址和与其
相连的工作站的位置信息,也叫做桥接表。
firewall (防火墙) 一种特殊设备(一般为一个路由器, 也可能是一台运行特殊软件的 P C) ,
词 汇 表 557

下载


它有选择地过滤或分块网络间的通信量,防火墙可以是硬件的,也可以是硬件和软件混合的。
firmware (固件) 硬件和软件的结合,固件的硬件部分是一块只读存储器( R O M) ,内含
出厂时写入的、可以被设置程序修改的数据。
flavor (风格) 用来说明不同类型的 U N I X类操作系统的名词,例如, Linux 的不同风格包
括Red Hat、 C a l d e r a和S l a c k w a r e。
flow control (流控制) 根据接受方的接受速度来控制数据的传输方法。
forwarding table 参见filtering database(过滤数据库)
fractional T1 (分割T 1线路) 一种允许多个单位使用一条 T 1线路中的不同通道,从而只
为所使用的通道付费的方法。
frame (帧) 一种数据包,它不仅包含原始数据,同时也包含发送者和接受者的地址以及
控制信息
Frame Check Sequence (FCS,帧校验序列) 在一个帧中负责数据的无损伤传输的字
段,它使用诸如C R C类的算法来验证数据传输的完整性。
frame relay (帧中继) 一种升级的、数字版本的 X . 2 5,它是基于数据包交换的,因为帧
中继是数字传输,它*可支持 1 . 5 4 4 M b p s的传输速率,大于 X . 2 5的带宽,它提供许多
I n t e r n e t连接的基础,在网络结构中,帧中继经常被描述为云状。
F r e e B S D 一种开放源码的伯克利版的 U N I X。
freely distributable (自由发放) 一个用来描述软件具有非常自由的版权的名词,经常伴
随着开放源码。
frequency (频率) 信号幅度在一个给定时间内的变化次数,通常用每秒的周期数来表达,
单位H e r t z( H z) 。
full backup (完全备份) 一种备份方法,服务器上的所有数据,不管是新的或未改变的,
都被备份到存储介质上。
full duplexing (全双工 ) 在网络的两个节点之间,在没有冲突的情况下允许双向传输,
全双工可以使网络的带宽加倍。
full synchronization (完全同步) 一个把主域控制器( P D C)上的用户账号数据库完全拷
贝到备份域控制器( B D C)上的过程,管理员可以强制进行完全同步,但它可能产生过多的
网络流量。
fully qualified host name (完整的主机名) 一个主机的名称,不仅包含主机名,而且包
含其所在的域。例如 m y m a c h i n e . d o m a i n . o rg。
G
Gantt chart (甘特图) 一种流行的、通过一个水平的时间来描述工程开始到结束的信息
的方法。
gateway (网关) 一个硬件和软件的结合,它连接不同类型的网络。网关提供连接、会话
管理和数据翻译,所以他们在 O S I模型的所有层工作。
Gateway Services for NetWare (GSNW, N e t Wa r e网关服务) Windows NT 提供的一
个服务,用来充当 Windows NT 和N e t Wa r e客户重定向器之间的翻译,通过安装 G S N W,
Windows NT Server可以访问N e t Wa r e服务器上的文件和其他资源。
558 计算机网络实用教程

下载


ghosts (畸变帧) 并非真的数据帧,而是由于中继器的译错的寄生电压引起的失真。与
真正的数据帧不同,畸变帧没有起始位。
giants (巨型帧) 超过介质允许的*值的数据帧,例如超过 1 5 1 8字节的以太网帧就可以
叫做巨型帧
global group (全局组) 一组属于多个域的用户或资源。
g l o b b i n g 文件名的一种替代形式,与 Wi n d o w s和D o s使用的通配符类似。
G N U 用完全开放源码实现 U N I X的自由软件工程的名字,应用程序和工具包含在 L i n u x
和其他自由软件U N I X系统中,可重复的词头代表 G N U而不是L i n u x。
g o p h e r 一种基于文本的应用程序,允许通过一系列的菜单找到并阅读文件。
g r a n d f a t h e r - f a t h e r - s o n 一种备份循环计划,使用天、周、月备份来设置。
graphical user interface (GUI,图形用户接口) 一种基于图形的计算机功能或模块,在
网络操作系统中,可以使管理员更容易地管理文件、用户、组、安全、打印机以及此类问题。
group (组) 用来集中管理用户对于资源的权限的一种方法。组是任何类型的网络操作系
统管理资源和用户的基础。许多管理员根据部门或同一部门内不同的工作性质建立组。
H
hacker (骇客) 掌握操作系统内核的工作机理,并利用此来尝试更进一步理解操作系统
的人。
hard disk redundancy (硬磁盘冗余) 参见 廉价磁盘冗余阵列
Hardware Compatibility List (HCL,硬件兼容列表 ) 已经测试过可以在 Windows NT
S e r v e r下正常运行的硬件列表,包含在 Windows NT Server 的安装C D中,也可以在微软的网
站上找到。
h e a d - e n d 电缆公司的中心办公室,在到达用户之前,它连接了许多节点。
Hertz (Hz,赫兹) 频率的度量单位,等于每秒振幅循环的次数。
heuristic scanning (渐进式扫描 ) 一种类型的病毒扫描,试图通过“病毒式的”行为来
鉴别病毒。
hierarchical file system (层级文件系统) 在一个磁盘分区上文件和目录(文件夹)的组
织形式,其中目录可以包含文件和子目录。如果在图形方式下展开,整个组织像一棵树。
hierarchical hybrid topology (树形混合拓扑) 一种网络拓扑结构,根据设备的功能或优
先级,用层来隔离设备。
host (主机) 一台用T C P / I P协议连接到网络的计算机。
host file ( 主机文件 ) 一个文本文件,内含 T C P / I P主机名与它的 I P地址的信息,在
Windows 95和Windows NT平台上,此文件叫做“ l m h o s t s”
host name (主机名) 用来描述T C P / I P设备的符号名。
hot swappable (可热交换的 ) 设备的一种特性,允许当设备产生错误时自动用它的副本
来代替它。
H O W TO (操作指导 ) 一系列简短的、高度集中的文档,给出 L i n u x系统的细节,负责
L i n u x工程文档的人集中管理这些文档。
H P - U X 惠普公司的U N I X。




2022年银行存款利率表一览表

2022年06月,国内各类银行人民币存款全新利息表

各类银行人民币存款利率表

银行

活期存款

定期存款(整存整取)

三个月

半年

一年

二年

三年

五年

东亚银行

0.300

1.375

1.625

1.875

2.350

2.750

2.000

广发银行

0.300

1.400

1.650

1.950

2.400

3.100

3.200

光大银行

0.300

1.400

1.650

1.950

2.410

2.750

3.000

工商银行

0.300

1.350

1.550

1.750

2.250

2.750

2.750

汇丰银行

0.250

0.5000

0.5500

0.5500




华夏银行

0.300

1.400

1.650

1.950

2.400

3.100

3.200

建设银行

0.300

1.350

1.550

1.750

2.250

2.750

2.750

交通银行

0.300

1.350

1.550

1.750

2.250

2.750

2.750

民生银行

0.300

1.400

1.650

1.950

2.350

2.800

2.800

宁波银行

0.300

1.500

1.750

2.000

2.400

2.800

3.250

南京银行

0.300

1.400

1.650

1.900

2.520

3.150

3.300

农业银行

0.300

1.350

1.550

1.750

2.250

2.750

2.750

平安银行

0.300

1.400

1.650

1.950

2.500

2.800

2.800

浦发银行

0.300

1.400

1.650

1.950

2.400

2.800

2.800

中国银行

0.300

1.350

1.550

1.750

2.250

2.750

2.750

招商银行

0.300

1.350

1.550

1.750

2.250

2.750

2.750

中信银行

0.300

1.400

1.650

1.950

2.400

3.000

3.000

恒丰银行

0.350

1.430

1.690

1.950

2.500

3.100

3.100

渤海银行

0.350

1.430

1.690

1.950

2.650

3.250

3.200

徽商银行

0.300

1.400

1.650

1.950

2.500

3.250

3.250

东莞银行

0.300

1.320

1.430

2.050

2.520

3.500

3.550

汉口银行

0.350

1.650

1.950

2.250

2.940

3.575

3.900

福建海峡银行

0.380

1.550

1.850

2.100

2.900

3.850

4.000

江苏银行

0.300

1.400

1.670

1.920

2.520

3.100

3.150

杭州银行

0.300

1.430

1.690

2.030

2.520

3.080

3.250

成都银行

0.385

1.540

1.820

2.100

2.940

3.850

4.200

哈尔滨银行

0.350

1.430

1.690

1.950

2.730

3.500

3.850

厦门国际银行

0.420

2.000

2.300

2.600

3.300

4.200

4.550

桂林商业银行

0.350

1.540

1.820

2.100

2.940

3.850

4.000

富滇银行

0.300

1.400

1.600

1.950

2.450

3.000

3.100

大连银行

0.350

1.350

1.690

1.950

2.730

3.200

3.850

广州银行

0.300

1.400

1.650

1.950

2.520

3.000

3.150

泉州银行

0.350

1.550

1.850

2.100

2.940

3.950

4.015

柳州银行

0.350

1.550

1.850

2.100

2.940

3.950

4.015

天津银行

0.300

1.430

1.690

1.950

2.650

3.300

3.300

重庆银行

0.385

1.600

1.890

2.180

3.050

3.990

3.990

青岛银行

0.300

1.430

1.690

1.950

2.625

3.575

3.850

温州银行

0.300

1.540

1.820

2.100

2.940

3.850

3.850

齐鲁银行

0.300

1.430

1.690

1.950

2.625

3.4375

3.850

长沙银行

0.385

1.595

1.885

2.175

3.045

3.9875

3.9875

南昌银行

0.300

1.540

1.820

2.100

2.520

3.300

3.600

台州银行

0.350

1.540

1.820

2.100

2.940

3.850

3.850

盛京银行

0.380

1.450

1.710

1.980

2.770

3.650

4.290

深圳农村商业银行

0.300

1.400

1.650

1.950

2.500

2.900

3.300

常熟农村商业银行

0.300

1.441

1.690

1.950

2.730

3.575

3.575

天津农商银行

0.350

1.430

1.690

1.950

2.730

3.575

3.575

渣打银行

0.3000

1.3500

1.5500

1.7500

2.2500

2.3500


注:官网的利率和实际当地银行执行的利率可能会有点差别,所以以上利率仅供参考,具体详情请咨询各银行网点柜台,不做任何建议,以当地各银行营业厅公布的利率为准




拓扑怎么读拼音

topology /təˈpɑːlədʒi/n 拓扑结构

双语示例:

1. Topology is a discipline developed from geometry and set theory.

拓扑学是由几何学与集合论发展出来的学科。

2. The topology of the network may be ring, star or bus. 网络的拓扑结构可以是环形的、星形的或总线形的。

常用搭配:

1 network topology

[计]网络拓扑结构

2 topology structure

[计]拓扑结构

3 algebraic topology

代数拓扑

4 bus topology

总线构造;总线拓扑

5 ring topology

环型拓扑;环形拓扑学

6 star topology

星型拓扑





拓扑怎么读ta
图神经网络 (GNN) 主要是利用神经网络处理复杂的图数据,它将图数据转换到低维空间,同时*限度保留结构和属性信息,并构造一个用于训练和推理的神经网络。在实际应用中,为了加速 GNN 训练和新算法的快速迭代,设计一套统一的图计算框架面临着巨大的挑战。近日,阿里巴巴在阿里云峰会北京站上重磅推出了大规模图神经网络平台 AliGraph,本文是 AI 前线第 74 篇论文导读,我们将深入了解阿里图神经网络库 AliGraph 背后的系统架构细节和内部自研的 GNN 算法原理。

介绍

图作为一种复杂的模型,已广泛应用于各种现实应用中的建模和管理数据。典型的例子包括社交网络、物理系统、生物网络和知识图谱等。图分析探索隐藏在图数据中的潜在洞察,在过去的十年,引起了人们极大的关注。它们在许多领域发挥了重要的作用,如节点分类、链接预测、图聚类和推荐系统等。

由于传统的图分析任务经常面临着高额的计算和空间成本,一种称为图嵌入(GE)的新范式为解决此类问题提供了一种高效的方法。具体地说,图嵌入(GE)是将图数据转换为低维空间,以*程度保留图中结构和内容信息。之后,生成的嵌入作为特征输入到下游机器学习任务中。此外,结合深度学习技术,通过将图嵌入(GE)与卷积神经网络(CNN)相结合,提出了图神经网络(GNN)。在 CNN 中,采用共享权重和多层结构来增强其学习能力。图是最典型的局部连接结构,共享权值以降低计算成本,多层结构是处理层次模式的关键同时可以捕获各种变化尺寸的特征。GNN 是 CNN 在图上的一种推广。因此,GNN 不但拥有图嵌入(GE)的灵活性,而且在有效性和鲁棒性两个方面展示了其优越性。

GNN 面临的挑战

当前已有大量论文贡献了大量精力在开发图嵌入(GE)和 GNN 算法方面上,这些工作主要集中在没有或者有少量辅助信息的简单图上。然而,大数据和复杂系统的兴起揭示了图数据上的新洞察。这是一种共识,绝大多数与现实商业场景相关的图数据表现出四个特点,即大规模、异构、属性化和动态。例如,现在的电商的图通常包含数十亿个顶点和边,这些顶点和边具有各种类型和丰富的属性,并且会随着时间的推移快速演变。这些特性为嵌入和表征图数据带来了巨大的挑战,如下所示:

GNN 的核心步骤特别针对网格结构(grid structures)进行了优化,但不适用于不规则欧几里得空间中的图。因此,现有的 GNN 方法无法在具有极大尺寸的真实图上进行缩放。第一个问题是如何提高大规模图上 GNN 的时间和空间效率?不同类型的对象从不同的视角描述数据。它们提供了丰富的信息,但是增加了将图信息映射到单个空间的难度。因此,第二个问题是如何将异构信息优雅地集成到一个统一的嵌入结果中?属性信息可以进一步增强嵌入结果的能力并且使图嵌入规约成为可能。在不考虑属性信息的情况下,这些算法只能直推学习,而忽略了预测未知实例的必要性。然而,拓扑结构信息和非结构属性信息通常呈现在两个不同的空间中。因此,第三个问题是如何统一保存和定义它们的信息?由于 GNN 的效率较低,从零开始更新结构和上下文信息,然后重新计算图嵌入结果非常昂贵。因此,第四个问题是如何设计动态的有效增量 GNN 方法?

论文贡献

为了应对上述挑战,大量的研究工作致力于设计高效并且有效的 GNN 方法。在表 1 中,基于不同工作的关注点以及我们内部开发的模型(黄色阴影部分),我们对一系列流行的 GE 和 GNN 模型进行了分类。

如图所示,大多数现有方法同时集中在一个或两个属性上。然而,现实世界中的商业数据通常面临更多的挑战。为了缓解这种情况,在本文中,我们提出了一个全面而系统的 GNN 解决方案。我们设计并实现了一个名为 AliGraph 的图神经网络平台,它提供了一套对应的系统和算法来解决更实际的问题,以更好地支持各种 GNN 方法和应用。


AliGraph 的主要贡献包括:

系统

在 Aligraph 的基础组件中,我们构建了一个支持 GNN 算法和应用的系统。系统结构是从通用 GNN 方法中抽象出来的,它由存储层、采样层和操作层组成。具体来说,存储层应用了三种新技术,即结构化和属性化的特定存储,图划分和缓存一些重要顶点的领域,来存储大规模的原始数据以满足*操作和算法的快速数据访问要求。

采样层优化了 GNN 方法中的关键采样操作。我们将抽样方法分为三类,即横向抽样(TRAVERSE)、领域抽样(NEIGHBORHOOD)和反向抽样(NEGATIVE),并提出了在分布式环境下进行采样操作的无锁方法。

操作层提供了 GNN 算法中两个常用的应用操作的优化实现,即聚合(*GREGATE)和组合 (COMBINE)。我们应用缓存策略来存储中间结果,以加速计算过程。这些组件是共同设计和共同优化的,以使整个系统有效和可扩展。

算法

系统提供了一个灵活的接口来设计 GNN 算法。我们的研究结果表明,所有现有的 GNN 方法都可以很容易地在我们系统上实现。此外,我们内部还为实际需求开发了几个新的 GNN 算法。如表 1 所示,我们内部开发的方法用黄色阴影表示,每种方法在处理实际问题时都更加灵活和实用。

AliGraph 平台已经在阿里巴巴公司内部实际部署。实验结果从系统和算法两方面验证了其有效性和效率。如图 1 所示,我们内部在 AliGraph 平台上开发的 GNN 模型,将标准化评估指标提高了 4.12%-17.19%。其中数据来自阿里巴巴的电商平台淘宝,我们会将此数据集(预计在 2019 年 5 月)贡献给社区,以推动该领域进一步发展。


预备知识

在本节中,表 2 总结了本文中常见的符号和标记。


属性异构图

为了全面描述现实世界中的商业数据,实际图往往包含丰富的内容信息,如顶点的多种类型、边的多种类型和属性等,因此我们进一步定义属性异构图(AHG)。AHG 是一个元组 (V,ε,W,TV,TE,AV,AE),其中 V,ε和 W 跟简单图具有相同的含义。T(V):V–>F(V) 和 T(E):ε–>F(E) 表示顶点类型和边类型的映射函数。为了确保异构性,我们要求|FV|大于等于 2 和(或)|FE|大于等于 2。A(v) 和 A(E) 两个函数,为每个顶点 v 和每个边 e 分配一些表征其属性的特征向量。我们将顶点 v 和边 e 的第 i 个特征向量分别表示为 x(v,i) 和 w(e,i)。AHG 的一个例子如图 2 所示,它包含两种类型的顶点,即 user 和 item,以及连接它们的四种类型的边。


动态图

现实世界中图通常随着时间而演化。给定一个时间间隔 [1,T],动态图是一个系列的图 G(1),G(2),…,G(T)。对于每个 t 大于等于 1 并且小于等于 T,G(T) 是一个简单图或者一个 AHG。为了便于记忆,我们添加一个上标 t 来表示时间戳 t 处对象的对应状态。例如,V(t) 和 E(t) 分别表示图 G(t) 的顶点集和边集合。

问题定义

给定一个输入图 G,它是一个简单的图或者 AHG,预先定义一个嵌入维度 d ∈ N,其中 d << |V|,在尽可能保留图性质的前提下,嵌入问题是将图 G 转换到 d 维空间。GNN 是一种特殊的图嵌入方法,它将神经网络应用在图上,学习嵌入结果。注意,在本文中,我们主要关注顶点级别的嵌入。也就是说,对于每个顶点 v,嵌入输出结果是一个 d 维度的向量h(v)。我们在第 7 节中讨论未来工作中,我们还将考虑边的嵌入、子图嵌入甚至是整个图的嵌入。

AliGraph 系统详解

Aligraph 平台架构如图 3 所示,我们设计并实现了一个底层系统(用浅蓝色方块标记),以更好地支持*别的 GNN 算法和应用。本节将介绍该系统的详细信息,在第 3.1 节中,我们抽象了一个 GNN 的通用框架来解释为什么我们的系统是这样设计的;第 3.2 至 3.5 介绍了系统中每个关键组件的设计和实现细节。


3.1 GNN 算法框架

在本小节中,我们将为 GNN 算法抽象为一个通用框架。一系列经典的 GNN,如 Structure2Vec,GCN,FastGCN,AS-GCN 和 GraphS*E 可以通过在框架中实例化操作器来描述。GNN 框架的输入包含一个图 G,嵌入维度 d ∈ N,每个顶点 v ∈ V 的顶点特征 x(v),邻居的*跳数 k(max)。对于每个顶点 v ∈ V,GNN 的输出是一个嵌入向量h(v),将被送入下游机器学习任务,如分类、链接预测等。

算法 1 是对 GNN 框架的描述。在最开始,顶点 v 的嵌入向量h(v)(0) 被初始化为等于输入属性向量x(v)。然后,在每个 k 处,每个顶点 v 聚合其邻居顶点的嵌入向量,以更新自身的嵌入向量。具体地说,我们应用样本函数在顶点 v 的领域集 Nb(v) 的基础上提取一个顶点的子集 S,用聚合函数对所有顶点 u ∈ S 的嵌入进行聚合,得到一个向量 h^(v),并将 h^(v) 与 h(v)(k-1) 通过组合函数生成嵌入向量h(v)(k) 。在处理完所有的顶点后,嵌入向量被归一化。最后,经过 k(max) 跳后,

h(v)(k(max)) 作为顶点 v 的嵌入结果 h(v) 返回。


基于上面描述的 GNN 框架,我们构建了 AliGraph 平台的系统架构,如上一节图 3 所示。平台总体由五层组成,其中三个底层构成了系统以支持算法层和应用层。在系统内部,存储层对不同类型的原始数据进行组织和存储,以满足*操作和算法的快速数据访问要求。

在此基础上,通过算法 1,我们发现三个主要的算子在各种 GNN 算法中起着重要的作用,即采样、聚合和组合。其中,采样操作为聚合和组合操作奠定了基础,因为它直接控制了要处理的信息范围。因此,我们设计了采样层来访问存储,以便快速准确地生成训练样本。在此之上,操作层专门优化聚合和组合函数。在系统的基础上,可以在算法层构建 GNN 算法,为应用层的实际任务提供服务。

3.2 存储

在本小节中,我们将讨论如何存储和组织原始数据。存储现实世界的图的空间成本非常大,常见的电子商务图可以包含数百亿个节点和数百亿个边,存储成本很容易超过 10TB。图的大尺寸给有效访问带来了巨大的挑战,特别是在集群的分布式环境中。为了更好地支持*运算操作和算法,我们在 AliGraph 的存储层中应用了以下三种策略。

图分区

Aligraph 平台建立在一个分布式环境中,因此整个图被切分并分别存储在不同的 work 节点。图分区的目标是最小化交叉边(crossing edges)的数量,其的端点(endpoints)分布在不同的 work 节点上。为此,文献工作中提出一系列算法。

我们实现了四个内置的图分区算法:(1)METIS;(2)顶点切割和边切割分区;(3)2-D 分区;(4)流式分区策略,这四种算法适用于不同的环境。简而言之,METIS 专门处理稀疏图;顶点切割和边切割分区在稠密图上表现更好;在 woker 数量固定时,通常使用 2-D 分区;而流式分区方法通常应用于边更新频繁的图上。用户可以根据自己的需要选择*的分区策略,此外,他们还可以将其他图分区算法实现为系统中的插件。

在算法 2 中,第 1-4 行给出了图分区的界面。对于每个边 e,第 4 行中的通用 ASSIGN 函数将根据它的端点(endpoint)计算出 e 在哪个 woker 节点中。


单独存储属性

对于 AHG,我们需要在每个 work 节点中存储分区图的结构和属性。图的结构信息可以简单地用邻接表存储。也就是说,对于每个顶点 v,我们存储它的邻居集 Nb(v)。然而,对于两个顶点的属性和边,不建议将它们存储在邻接表中。原因有两方面:

属性通常需要更多的空间。例如,存储顶点 id 的空间成本最多为 8 字节,而顶点上的属性可能在 0.1KB 到 1KB 之间。不同顶点和边之间的属性有很大的重叠。例如,许多顶点可能具有相同的标记”man“,表示其性别。因此,单独存储属性更为合理。

在我们的系统中,我们通过构建两个索引 I(v) 和 I(e) 分别在顶点和边上存储属性。如图 4 所示,在邻接表中,对于每个顶点 u,我们将属性 Av(u) 的索引存储在 I(v) 中。对于每个边(u,v),我们也将属性 Ae(u,v) 存储在 I(e) 中。假设 N(D) 和 N(L) 分别是邻居数量的平均值和属性长度的平均值。设 N(D) 为顶点和边上不同属性的数目。显然,我们单独存储策略将空间成本从 O(n*ND*NL) 降低到 O(n*ND+NA*NL)。


缓存重要顶点的邻居

在每个 work 节点,我们进一步提出了一种局部缓存重要顶点的邻居的方法,以降低通信成本。如果一个顶点 v 经常被其他顶点访问,我们可以在它发生的每个分区中存储它的外部邻居。这样做可以大大降低其他顶点通过 v 访问相邻顶点的开销。但是,如果 v 的邻居数目很大,存储 v 的邻居的多个副本也会产生巨大的存储空间成本。为了更好地权衡,我们定义了一个度量来评估每个顶点的重要性,决定一个顶点是否值得缓存。

假设 Di(v)(k) 和 Do(v)(k) 分别表示顶点 v 的 k-hop 入和出的邻居的数目。那么 Di(v)(k) 和 Do(v)(k) 就可以衡量缓存顶点 v 的外部邻居的收益和成本。因此,顶点 v 第 k 重要性表示为 Imp(v)(k),定义


在算法 2 中,第 5-9 行给出了缓存重要顶点的邻居的过程。假设 h 表示邻居的*深度。对于每个顶点 v,我们缓存顶点 v 的 1 到 k-hop 的外部邻居顶点,在 Imp(v)(k) 大于等于τk 的条件下。其中,τk 是用户指定的阈值。注意,将 h 设置为一个小数字(通常为 2)就足够支持一系列实际的 GNN 算法。实际上,我们发现τk 不是一个敏感参数。通过实验评估,将τk 设置为 0.2 左右可以在缓存成本和收益之间进行*的权衡。

有趣的是,我们发现要缓存的顶点只是整个图的一小部分。Di(v)(1) 和 Do(v)(1) 在实际图中经常服从幂律分布。也就是说,在图中只有很少的顶点具有较大的出入度。基于此,我们得到了以下两个定理。


定理 2 表明图中只有极少数顶点是重要级别比较高的,这意味着,我们只需缓存少量重要顶点就可以显著降低图遍历的成本。

3.3 采样

回想一下,GNN 算法依靠聚合邻居信息来生成每个顶点的嵌入。然而,现实世界图的度的分布往往是偏度的,这使得卷积运算难以操作。为了解决这个问题,现有的 GNN 通常采用各种抽样策略来对大小一致的邻居子集进行抽样。由于它的重要性,我们在 AliGraph 中抽象了一个特定的采样层来优化采样策略。

概要

形式上,采样函数接受一个顶点子集 V(T) 的输入,抽取一个小的子集 V(S),|V(S)|<<|V(T)|。通过对现有 GNN 模型的调研,我们抽象出三种不同的采样器,即遍历、邻域、负采样。

遍历(TRAVERSE):用于从整个分区图中,采样一批顶点或边。邻域(NEIGHBORHOOD):将生成顶点的上下文。该顶点的上下文可以是一个或多个 hop 邻居,用于对该顶点进行编码。负采样(NEGATIV):用于生成负样本以加速训练过程的收敛。

实现

在文献中,抽样方法对提高 GNN 算法的效率和准确性起着重要的作用。在我们的系统中,采样器都以插件的形式存在。这三种采样器可以实现

对于遍历采样器,他们从局部图中获取数据。对于领域采样器,他们可以从本地存储获取一跳(one-hop)邻居,也可以从本地缓存获取多跳(multi-hop)邻居。如果没有缓存顶点的邻居,则需要从远程图服务器调用。当获取一批顶点的上下文时,我们首先将顶点划分为子批,并从相应的图服务器上获得返回结果后,每个子批的上下文将被拼接在一起。负采样器通常从本地图服务器生成样本。对于某些特殊情况,可能需要从其他图服务器进行负采样。负采样在算法上是灵活的,我们不需要批量调用所有的图服务器。

总之,一个典型的采样阶段可以实现为如图 5 所示。


我们可以通过采用动态权重的几种有效采样策略来加速训练。我们在采样器的反向计算中实现更新操作,就像反向传播的运算一样。所以,当需要更新时,我们应该做的是为采样器注册一个梯度函数。更新模式是同步还是异步,由训练算法决定。

到目前为止,读取和更新都将在内存中的图存储上进行,这可能导致性能下降。根据邻居需要,该图由源顶点分割。在此基础上,我们将图服务器上的顶点分组。每个组都将与一个请求流桶相关,其中的操作(包括读取和更新)都与该组中的顶点有关。桶是一个无锁队列,如图 6 所示,我们将每个 bucket 绑定到一个 CPU 内核,然后,桶中的每个操作都按顺序处理,不加锁进一步提高了系统的效率。


3.4 运算符

概要

采样后,输出的数据被对齐,处理起来就会容易很多。在采样器上,我们需要一些类似 GNN 的运算符来使用它们。在我们的系统中,我们抽象了两种运算符,即聚合和组合。他们的作用

聚合:收集每个顶点的邻居信息以生成统一的结果。例如,算法 1 中的聚合算法将一系列向量 h(u) 映射到单个向量 h^(v),其中 u 属于 v 的采样邻居节点。h^(v) 是一个中间结果为了进一步生成 h(k)(v)。聚合函数从周围邻居收集信息,它可以用作卷积操作。各种聚合方法被应用在不同的 GNN 中,例如,元素平均值、*池化神经网络和 LSTM。组合: 负责如何使用顶点的邻居来描述顶点。在算法 1 中,组合函数映射两个向量 h(v)(k-1) 和 h^(v) 为一个向量 h(v)(k)。组合函数可以将前一跳和领域的信息集成到一个统一的空间中。通常,现有的 GNN 方法中,h(v)(k-1) 和h^(u) 求和然后输入到神经网络中。

实现

采样器和类似 GNN 的运算符不仅可以前向运算,还可以反向运算,以便更新参数,使整个模型成为端到端的训练网络。考虑到图数据的特点,为了获得更好的性能,可以考虑大量的优化。一个典型的运算符由前向和后向的运算组成,以便参与到深层网络的训练中。用户可以在基于运算符的基础上,快速构建 GNN 算法。

为了进一步加速这两个算子的运算,我们通过应用策略将中间结果向量h(v)(k) 缓存。在训练过程中的每个 mini-batch 中,所有顶点我们可以共享采样邻居集合。同样,在同一个 mini-batch 中,对于所有的 k>=1 且 k<=k(max),我们也可以共享向量h(v)(k)。为此,我们将 k(max) 个h^v(1)、h^v(2)、…h^v(kmax) 向量存储为 mini-batch 中所有顶点的*向量。在聚合函数中,我们利用向量h^v(1)、h^v(2)、…h^v(kmax) 来获取h^(v)。然后,我们通过应用组合函数计算h^(v) 和h(v)(k-1) 来获得h^(v)(k)。最后,存储的向量h^(k) 通过h^(v)(k) 更新。通过这种策略,运算符的计算成本可以大大减小。

方法论

在系统的基础上,我们来讨论算法的设计。我们的研究结果表明,现有的 GNN 在 AliGraph 上非常容易创建。此外,我们还提出了一系列新的 GNN 算法,以解决第 1 节中总结的真实世界的图数据嵌入的四个新挑战。它们在 AliGraph 平台算法层以插件形式供用户使用。

4.1 GNN *实践

由于 AliGraph 平台是基于通用 GNN 算法抽象出来的,因此现有的 GNN 可以很容易地在这个平台上实现。具体来说,表 1 中列出的 GNN 都可以按照算法 1 中的框架构建在 AliGraph 中。这里我们以 GraphS*E 为例进行简要介绍,其他 GNN 也可以用类似的方式实现。对于 GraphS*E,它应用简单的逐节点采样,从每个顶点的相邻集中提取一个子集。显然,这一采样策略通过我们的采样运算符很容易就能实现。然后,我们需要在算法 1 中实例化聚合和组合函数。GraphS*E 可以在第 4 行的聚合函数中应用加权元素平均。此外,也可以使用其他更复杂的函数,如 maxpooling 神经网络和 LSTM 神经网络。在其他的 GNN 方法中,如 GCN、FastGCN 和 AS-GCN,我们可以在抽样、聚合和组合上替换不同的策略。

4.2 阿里内部开发的 GNNs

我们内部开发的 GNN 专注于不同方面,例如:采样(AHEP)、复合边(GATNE)、多模态(Mixture GNN)、层次(Hierarchical GNN)、动态(Evolving GNN)和多源信息(Bayesian GNN)。

AHEP 算法

该算法是为了减轻传统嵌入传播(EP)算法在异构网络(HEP)上的繁重计算和存储成本而设计的。HEP 遵循 GNN 的总体框架,对 AHG 进行了细微修改。

在 HEP 中,所有的顶点嵌入都是以迭代的方式生成的。在第 k 次 hop 中,对于每个顶点 v 和每个节点类型 c,c 中 v 的所有邻居 u,传播其嵌入 h(u,c) 给 v 来重构一个 h^(v,c) 嵌入。然后,跨所有节点类型连接 h^(v,c) 嵌入来更新 v 的嵌入。但是,在 AHEP(HEP 用自适应抽样)中,我们只对重要的邻居进行抽样,而不考虑所有邻居。

我们设计了一个度量,通过结合每个顶点的结构信息和特征来评估其重要性。之后,根据相应的概率分布,分别对不同类型的所有邻居进行采样。我们仔细设计了概率分布,以最小化抽样方差。在特定任务中,为了优化 AHEP 算法,损失函数一般可以描述为:


其中,L(SL) 是批处理中监督学习的损失,L(EP) 是批处理采样时的嵌入传播损失,Ω(Θ) 是所有可训练参数的正则化,α, β是两个超参数。根据第 5 节的实验结果验证,AHEP 的运行速度比 HEP 快得多,同时达到了相当的精度。

GATNE 算法

该算法用于处理顶点和边上具有异构和属性信息的图。为了解决上述问题,我们提出了一种既能捕获丰富属性信息,又能利用不同节点类型的多重拓扑结构新方法,即通用的属性多重异构网络嵌入,简称 GATNE。

每个顶点的整体嵌入结果由三部分组成:通用嵌入、特定嵌入和属性嵌入,分别对应描述结构信息、异构信息和属性信息。对于每个顶点 v 和任何节点类型 c,通用的嵌入 b(v) 和属性嵌入 f(v) 保持相同。设 t 为可调超参数,当 1 ≤ t^ ≤ t 时 g(v,t^) 是元 - 特定嵌入。特定嵌入是通过连接所有的 g(v,t^) 得到。然后,对于每种类型 c,所有的 h(v,c) 嵌入


其中,α©和β©是反映特定嵌入和属性嵌入重要性的两个可调参数;利用注意力机制计算系数矩阵 a©;M© and D 是两个可训练的变化矩阵。最终嵌入结果 h(v) 可以通过连接所有的 h(v,c)。

嵌入可以应用类似于随机游走的方法学习。具体来说,在随机游走中给定 c 类型的顶点 v 和窗口大小 p,设 v(-p),v(-p+1),…v,v(1),…v§表示其上下文。我们需要最小化 negative log-likelihood:


Mixture GNN 算法

该模型是一个混合的 GNN 模型,用于处理多模态的异构图。在这个模型中,我们扩展了异构图上的 skip-gram 模型,以适应异构图上的多义场景。在传统的 skip-gram 模型中,我们试图寻找参数为θ的图嵌入,通过*化似然函数:


其中,Nb(v) 表示 v 的邻居,Prθ(u|v) 表示 softmax 函数,在我们对异构图上的设置中,每个节点有多感知。为了区分它们,假设 P 是节点感知的已知分布。我们将目标函数改写为:


此时,很难结合负采样方法直接优化等式(6)。或者,我们推导出一个新的方程(6)的下界 L(low),并尝试*化 L(low)。我们发现下界 L(low) 可以用负采样近似。因此,在现有的工作中,如 Deepwalk 和 node2vec 中,通过稍微修改采样过程,可以很容易地实现训练过程。

层次 GNN 算法

当前的 GNN 方法本质上是扁平的,并不学习图的层次表征。这个限制对于明确研究不同类型用户行为的相似性问题时尤其明显。层次 GNN 算法模型组合了层次结构,增强了 GNN 的表达能力。

假设 H(k) 表示在 GNN 的 k 步之后,计算节点的嵌入矩阵。A 是图 G 的邻接矩阵,在算法 1 中,传统的 GNN 迭代学习 H(k) 通过组合 H(k-1)、A 和一些可训练的参数θ(k)。开始,我们设置 H(0)=X,其中 X 表示节点特征的矩阵。在我们的层次 GNN 中,我们以层级方式学习嵌入结果。具体来说,让 A(l) 和 X(l) 分别表示第 l 层中的邻接矩阵和节点特征矩阵。通过输入 A(l) 和 X(l) 到单层 GNN 来学习第 l 层的节点嵌入向量结果矩阵 Z(l)。

在此之后,我们对图中的一些顶点进行聚类,并将邻接矩阵 A(l) 更新为 A(l+1)。设 S(l) 表示在第 l 层中的可学习的赋值矩阵。S(l) 中的每一行和每一列分别对应第 l 层和 (l+1) 层中的一个聚类。S(l) 可以通过在另外一个 pooling GNN 的 A(l) 和 X(l) 上应用 softmax 函数获得。利用 Z(l) 和 S(l),我们可以为第 l+1 层获得一个新的粗粒度邻接矩阵 A(l+1)=S(l)(T)*A(l)*S(l) 和一个新的特征矩阵 X(l+1)=S(l)(T)*Z(l)。如第 5 节所验证的,多层的层次 GNN 比单层传统 GNN 更有效。

动态演化的(Evolving)GNN 算法

这个模型用于在动态网络设置中的顶点嵌入。我们的目标是学习图序列(G(1),G(2),G(3),…G(T))中顶点的表征。

为了捕获动态图的演化性质,我们将演化链接分为两种类型:(1)正常演化代表边的大部分合理的变化;(2)突发链接代表稀有和异常的边演化。

在此基础上,以交错方式学习动态图中的所有顶点的嵌入。在时间戳 t 处,图 G(t) 上找到的正常和突发的链接与 GraphS*E 模型集成,以生成 G(t) 中每个顶点 v 的嵌入结果 h(v)。然后,我们利用变分自动编码器和 RNN 模型对图 G(t+1) 上的正常和突发信息进行预测。该过程在迭代中执行,以在每个时间戳 t 输出每个顶点 v 的嵌入结果。

贝叶斯 GNN 算法

该模型通过贝叶斯框架集成了两种信息源,即知识图谱嵌入或行为图嵌入。它模拟了认知科学中人类的理解过程,在这个过程中,每一种认知都是通过调整特定任务下的先验知识来驱动的。具体来说,给定一个知识图 G 和 G 中的一个实体(顶点)v,它的基础嵌入 h(v) 是通过纯粹考虑 G 本身来学习的,它描述了 G 中的先验知识,然后根据 hv 生成一个特定任务下的嵌入 z(v),并对该任务生成一个修正项δv,也就是:


其中,f 是一个非线性函数。注意,学习精确的δv 和 f 似乎是不可行的,因为实体 v 有不同的δv,f 函数非常复杂。为了处理这个函数,通过考虑二阶信息,我们应用生成模型从 h(v) 到 z(v)。具体地说,对于每个实体 v,我们从一个高斯分布 N(0,s(v)(2)) 中采样出修正变量δv。其中,s(v) 由 h(v) 的相关系数决定。然后,对于每个 v1 和 v2 实体对,我们从另外一个高斯分布中采样 z(v1)-z(v2):


其中,φ表示函数 f 可训练的参数。δv 的后验均值是 u^(v),φ^ 是结果参数。我们应用 h(v)+u^(v) 作为修正的知识图谱的嵌入,fφ(h(v)+u^(v)) 作为修正的特定任务的嵌入。

实验

5.1 系统评估

在本小节中,我们从存储、采样、运算的角度评估 AliGraph 平台中底层系统的性能(图构建和缓存邻居节点)。所有实验都在两个数据集上进行的,如表 3 所示,Taobao-small 和 Taobao-large,后者的存储容量是前者的六倍之大。它们都代表了淘宝电子商务平台中用户和物品的子图。

图构建

图构建的性能在图计算平台中起着核心作用。AliGraph 支持多种来自不同文件系统的各种原始数据,无论是否分区。图 7 显示了在两个数据集上 worker 节点构建图所消耗的时间成本。我们观察到以下两个结果:(1)随着 woker 节点数量增加,构建图的时间明显缩短了;(2)AliGraph 可以在几分钟内构建大型图,如:Taobao-large 花费 5 分钟。这比通常需要几个小时(比如,PowerGraph)构建图的大多数技术高效得多。


缓存邻居的有效性

我们研究了缓存重要顶点的 k 跳(k-hop)邻居的效果。在我们的缓存算法中,为了分析 Di(k) 和 Dv(k),我们为方程 1 中的 Imp(v) 设置阈值。在实验中,我们局部缓存所有顶点的一跳(1-hop)邻居,并改变控制缓存二跳(2-hop)邻居的阈值。我们逐渐将阈值从 0.05 增加到 0.45,以测试其敏感性和有效性。

图 8 说明了缓存顶点百分比和阈值的情况。当阈值小于 0.2 时,缓存顶点百分比急剧下降,之后变得相对稳定。这是因为顶点的重要性服从幂率分布,正如我们定理 2 中证明那样。为了在缓存成本和收益之前进行良好的权衡,我们根据图 9 将阈值设置为 0.2,并且只需要缓存大约 20% 的额外顶点。

我们还比较了基于重要性的缓存策略和另外两种策略,即随机策略(缓存随机选择一小部分顶点的邻居)和 LRU 替换策略。图 9 说明了时间成本和缓存顶点百分比的关系。实验结果表明我们的随机策略方法节省了大约 40%-50% 的时间成本,LRU 替换策略节省了大约 50%-60% 的时间成本。这仅仅是因为:(1)随机选择的顶点不太可能被访问;(2)LRU 策略由于经常替换缓存顶点而增加了额外的成本。然而,我们基于重要性的缓存顶点更容易被其他顶点访问。


抽样的影响

我们测试了采样优化实现的影响。表 4 显示了三种抽样方法的时间成本,其中批处理大小 512、缓存率为 20%。我们发现:(1)采样方法非常有效,完成时间在几毫秒到不到 60 毫秒之间;(2)采样时间随着图大小缓慢增长,虽然 Taobao-large 是 Taobao-small 的六倍,但是两个数据集的采样时间却相当接近。这些观察结果验证了我们的采样方法的实现是有效且可扩展的。


算子的影响

我们进一步研究了我们在聚合、组合算子上实现的影响。表 5 显示了这两个运算符的时间成本,在我们提出的实现中,时间成本可以加快一个数量级。这是因为我们应用了缓存策略来消除中间嵌入向量的冗余计算,这再次证明了 AliGraph 平台的优点。


5.2 算法评估

5.2.1 实验设置

数据集

我们在实验中使用了两个数据集,包括一个来自 Amazon 和 Taobao-small 的公共数据集。

数据集的统计数据汇总在表 6 中,他们两个都是 AHG。Amazon 公共数据集是从亚马逊电子产品类别下的产品元数据抽取的。在这个图中,每个顶点代表一个具有属性的产品,每个边连接两个由同一个用户共同查看或者共同购买的产品。它有两个顶点,即 user 和 item,以及 user 和 item 之间的四种边类型,即点击、添加到 preference、添加到购物车和购买行为。


算法

我们实现了所有在本文中提出的算法。为了进行比较,我们还实现了一些不同类别的有代表性的图嵌入算法,如下所示:

C1:Homogeneous GE 方法。比较的方法包括:DeepWalk、LINE 和 Node2Vec。这些方法只能应用于纯结构信息的普通图。C2:带属性的 GE 方法。 比较方法包括 ANRL,它可以生成嵌入捕获结构和属性信息。C3:异构(Heterogeneous)的 GE 方法。比较方法包括 Methpath2Vec、PMNE、MVE 和 MNE。MethPath2Vec 只能处理具有多种类型顶点的图,而其他三种方法只能处理具有多种类型边的图。PMNE 包括三种不同的方法来扩展 Node2Vec 方法,分别表示为 PMNE-n,PMNE-r 和 PMNE-c。C4:基于 GNN 的方法。比较方法包括 Structural2Vec、GCN、Fast-GCN、AS-GCN、GraphS*E 和 HEP。

为了公平起见,所有的算法都通过在我们的系统上应用优化的运算符来实现。如果一个方法不能处理属性或多个类型的顶点,我们在嵌入过程中会忽略这些信息。我们为具有相同边类型的每个子图生成嵌入,并将它们连接在一起作为基于异构的 GNN 的最终结果。请注意,在我们的检查中,我们不会比较我们提出的每个 GNN 算法。因为每个算法设计的侧重点不同。我们将详细介绍每个 GNN 算法的竞争对手,报告其实验结果。

指标

我们评估了所提出方法的效率和有效性。该算法的执行时间可以用于简单地衡量效率。为了测量有效性,我们将算法应用于广泛采用的链接预测任务,在推荐等现实场景中发挥着重要作用。我们随机抽取一部分数据作为训练集,其余部分作为测试集。为了测量结果的质量,我们使用了四个常用的指标,即 ROC 曲线下的面积(ROC-AUC)、PR 曲线(PR-AUC)、F1 分数和命中召回率(HR Rate)。值得注意的是,每个度量在不同类型的边之间取平均值。

参数

对于所有的算法,我们设置嵌入向量的维度 d 为 20。

5.2.1 实验结果

AHEP 算法

AHEP 算法的目标是快速获得嵌入结果同时不会牺牲太多的精度。在表 7 中,我们展示了在 Taobao-small 数据集上,AHEP 算法和其他算法比较的结果。在图 10 中,我们说明了不同算法的时间和空间成本。

显然,我们有以下观察:(1)在 Taobao-small 数据集上,HEP 和 AHEP 是*两种能够在合理的时间和空间限制下产生结果的算法。然而,AHEP 比 HEP 快 2-3 倍,而且比 HEP 占用的内存要小的多。(2)在结果质量方面,AHEP 的 ROC-AUC 和 F1 评分与 HEP 相当。实验结果表明,利用最短的时间和空间,AHEP 可以产生与 HEP 相似的结果。



GATNE 算法

GATNE 的目标是处理具有顶点和边的异构和属性信息的图。我们将 GATNE 算法以及其竞争对手的比较结果显示在表 8 中。

显然,我们发现 GATNE 在所有度量指标方面都优于现有的方法。例如,在 Taobao-small 数据集上,GATNE 将 ROC-AUC、PR-AUC 和 F1 得分分别提高了 4.6%、1.84% 和 5.08%。这仅仅是因为 GATNE 同时捕获顶点和边的异构信息以及属性信息。同时,我们发现 GATNE 的训练时间与 woker 节点数呈现线性关系。GATNE 模型收敛在不到两个小时内,在 150 个节点的分布式环境下。验证了 GATNE 方法的高效性和可扩展性。


Mixture GNN

我们比较了 Mixture GNN、DAE 和β*-VAE 方法。将嵌入结果应用于推荐任务的命中率如表 9 所示。注意,通过应用我们的模型,命中率提高了 2% 左右。同样,这种改进也在大型网络中有重要贡献。


层次 GNN

我们比较了层次 GNN 和 GraphS*E。结果如表 10 所示。分数显著提高 7.5% 左右。这表明我们的层次 GNN 可以产生更具前景的嵌入结果。


Evolving GNN

我们比较了在多分类链接预测任务中 Evolving GNN 和其他方法。竞争对手包括具有代表性的 DeepWalk、DANE 、DNE 、TNE 和 GraphS*E。这些竞争算法无法处理动态图,因此我们在动态图的每个快照上运行该算法,并报告所有时间戳的平均性能。Taobao-small 数据集的比较结果如表 11 所示。

我们很容易发现,在所有的度量上,Evolving GNN 优于所有其他方法。例如,在剧烈演变情况下,Evolving GNN 将微观(micro)和宏观 (macro)F1 得分提高了 4.2% 和 3.6%。这仅仅是因为我们提出的方法能够更好地捕获真实网络的动态变化,从而产生更具前景的结果。


贝叶斯 GNN

该模型的目标是将贝叶斯方法和传统 GNN 模型相结合。我们使用 GraphS*E 作为基准线,并将结果与包含和不包含贝叶斯模型的结果进行比较。表 12 中给出了推荐结果的命中率。注意,我们同时考虑商品品牌和类别的粒度。显然,在应用贝叶斯模型时,命中召回率分别增加了 1% 到 3%。请注意,这种改进可以为我们包含 900 万个 item 的网络带来显著的好处。


相关工作

在本节中,我们简要回顾了 GE 和 GNN 方法的*性能。根据第 1 节总结的四个挑战,我们将现有方法分类如下。

同质性

DeepWalk 首先通过随机游走在图上生成一个语料库,然后,在语料库上训练一个 skip-gram 模型。LINE 通过保留一阶和二阶近邻来学习节点的表征。NetMF 是一个统一的矩阵因式分解框架,用于理论上理解和改进 DeepWalk 和 LINE。Node2Vec 增加了两个参数来控制随机游走过程,而 SDNE 则提出了一种 structure-preserving 的嵌入方法。GCN 使用卷积运算合并邻居的特征表征。GraphS*E 提供一种将结构特征信息与节点特征相结合的归纳方法。

异构性

对于具有多种顶点和(或)边的图,PMNE 提出了三种方法将复合边网络投影到连续向量空间。MVE 使用注意力机制将具有多视图的网络嵌入到协同后的单个向量表征中。MNE 为每个节点使用一个通用嵌入和多个不同边类型的附加嵌入,这些嵌入由统一的网络嵌入模型共同学习。Mvn2Vec 通过同时保存和协作建模来探索嵌入结果。HNE 将内容和拓扑结构共同考虑为统一的向量表征。PTE 利用标记信息构建大规模异构文本网络,并将其嵌入低位空间。Metapath2Vec 和 HERec 将基于元路径的随机游走形式化,以构造节点的异构领域,然后利用 skip-gram 模型进行节点嵌入。

属性

属性网络嵌入的目的是寻找低维向量表征,以 保留拓扑和属性信息。TADW 通过矩阵分解将顶点的文本特征融入到网络表征学习中。LANE 在保留相关性的同时,平稳地将标签信息整合到属性网络潜入中。AANE 使联合学习过程能够以分布式方式完成,从而加速属性网络嵌入。SNE 提出了一种通过捕获结构邻近度和属性邻近度来嵌入社交网络的通用框架。DANE 可以捕获高的非线性,并在拓扑结构和节点属性中保留各种近似性。ANRL 使用邻居增强自编码器对节点属性信息进行建模,并使用 skip-gram 模型捕获网络结构。

动态的

实际上,一些静态方法也可以通过基于静态嵌入更新新的顶点来处理动态网络。考虑到新的顶点对原始网络的影响,扩展了 skip-gram 方法来更新原始顶点的嵌入。“Dynamic network embedding by modeling triadic closure process”重点捕获学习网络嵌入的三元结构属性。考虑网络结构和节点属性,“Attributed network embedding for learning in a dynamic

environment”着重于更新 streaming 网络的特征向量和特征值。

结论

我们从目前实际的图数据问题中总结出了四个挑战,即大规模、异构、属性和动态。基于这些挑战,我们设计并实现了 AliGraph 平台,它为解决更多实际问题提供了系统和算法。今后,我们重点关注但不限于以下几个方面:

边级别和子图级别嵌入的 GNN;更多的执行优化,例如,将计算变量与图数据在 GNN 中共同定位以减少跨网络流量,引入新的梯度优化方法,利用 GNN 的特点加速分布式训练,而不造成精度损失,在多 GPU 架构中更好地分配 work 节点;Early-stop 机制,有助于在没有预期结果的情况下,提前终止训练任务;Auto-ML,有助于从各种 GNN 中选择*方法。

论文原文链接:https://arxiv.org/pdf/1902.08730.pdf

公开数据集平台:https://tianchi.aliyun.com/dataset/dataDetail?dataId=9716


今天的内容先分享到这里了,读完本文《拓扑怎么读》之后,是否是您想找的答案呢?想要了解更多拓扑怎么读、2022年银行存款利率表一览表相关的财经新闻请继续关注本站,是给小编*的鼓励。

免责声明
           本站所有信息均来自互联网搜集
1.与产品相关信息的真实性准确性均由发布单位及个人负责,
2.拒绝任何人以任何形式在本站发表与中华人民共和国法律相抵触的言论
3.请大家仔细辨认!并不代表本站观点,本站对此不承担任何相关法律责任!
4.如果发现本网站有任何文章侵犯你的权益,请立刻联系本站站长[QQ:775191930],通知给予删除
网站分类
标签列表
*留言

Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 96633160 bytes) in /www/wwwroot/yurongpawn.com/zb_users/plugin/dyspider/include.php on line 39