成果信息
该示范平台集合了国家自然科学基金项目和三江集团网格系统示范平台项目的研究成果,运用Globus网格中间件,J2EE等技术,把分散的集群(如LSF集群等)组织成为网格,由网格对资源进行统一的管理和分配,从而实现一个统一的调度平台,并提供友好的操作界面。用户通过网页界面,可以对任务进行工作流作业自定义、提交、状态(当前及历史记录)查询、重复下载输出结果等操作。平台内部封装了工作的流程、基于DAG的调度算法、容错机制、智能环境监控、中间数据的传输等,用户不必对其过程进行干预。目前该平台在三江航天集团运行良好。 该平台的技术特点包括: (1)能够对分散的资源进行整合,并对不同机群(LSF、PBS等)的资源统一调配,可获得较高的软件和硬件利用率; (2)调度保障体系将调度器分布于多个计算资源,通过调度器之间的协作机制,实现区域自治及全局协同相结合,降低实时任务的调度成本,提高调度性能,并能适应动态的计算环境; (3)构建实时任务保障体系,量化分析环境信息,判断异常环境的出现及外在环境因素发生变化时,如何根据环境的变化,迅速准确地向调度器反馈有价值的信息; (4)以此为基础,实现了容错机制,对作业的运行进行监控,根据情况的变化实现任务的迁移机制; (5)构建界面友好﹑便于操作﹑功能完备的面向实时任务(兼容普通任务)的网格门户平台。DAG任务按照任务划分的统一操作接口生成作业描述,由系统无缝管理,并显示已提交任务的状态、任务所在的处理结点、虚拟组织中计算结点的软硬件资源的动态信息及计算结点任务队列的信息等。 )
背景介绍
网络把地理上分布的资源集成为一台能力巨大的超级计算机,提供计算资源、存储资源和数据资源等方面的全面共享。用户通过网络向网络提交各种作业,网格把用户的请求和提供的资源能力进行合理的匹配后,将这些作业分配到合适的计算资源中。机群系统作为网格中计算资源的一部分,负责接受网格分配给作业并通过网格作业的结果返回给用户。然而,用户提交的这些作业的种类各不相同,网格中的机群能够处理的作业类型却是有限的,例如,当用户向网格提交作流关系的作业时,网格中的机群就无法很好地完成这种类型的作业。在这种情况下,需要设计出一种适用于机群环境的调度算法来解决网格环境下机群工作流作业的调度问题。)
应用前景
该研究成果可应用于高性能计算领域, 可以带来很大的经济效益和社会效益。同时该软件是通用的基础软件,亦可广泛用于众多计算性能要求较高的行业和部门,如:地震、邮电、电力、消防、企业、商业、财务、公安、军事、防洪、减灾、矿产、测绘等行业或部门,因此成果具有广阔的市场前景。)