基于Hadoop的在线文件管理系统-开题报告

阅读: 评论:0

基于Hadoop的在线文件管理系统的设计与实现
1.本课题所涉及的问题在国内(外)的研究现状综述
文件管理系统在国内外发展已经有很多年,目前最前沿的是基于云存储服务而开发的网络硬盘管理系统,主要有个人网盘和企业网盘。对比国外,国内云存储的发展稍晚于国外,在云存储的技术上存在差距,国内云存储底层环境开发大多基于国外的开源框架。但是,在网盘等基于云存储的互联网应用开发上,国内已经和国外在技术上、进度上取得了同步,例如百度网盘,把网盘、音乐、通讯录、游戏、文库、短信、相册等做了整合,不仅能在网盘中看到自己的整体存储信息,还能在每个类别中看见文件的详细信息,在百度网盘中,开发了信息对比的极速秒传技术,大大提高了上传速度,同时提供在线查看文件和音乐播放功能。网易云服务结合有道云笔记,提供在线编辑文档服务。如今许多网盘不仅支持PC 端的使用,还支持移动客户端的使用,但在web端的上传功能上,一直有上传文件大小限制的瓶颈和用户体验度低的问题。
2.本人对课题任务书提出的任务要求及实现预期目标的可行性分析由Hadoop HDFS为该系统提供高可用,分布式的存储架构支撑。HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。其具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海
量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。基于HDFS的分布式存储相关研究,主要包括HDFS集中小文件处理,副本存放策略和机架感知以及NameNode备份恢复机制和拓展机制。HDFS集中小文件处理包括三种方案,分别是Hadoop Archive,Sequence File和CombineFileInputormat。副本存放策略和机架感知能够让NameNode获取DataNode的网络拓扑图,然后根据DataNode之间的关系来确定副本存放的位置,保证数据可靠性的同时兼顾了数据传输速率。
3.本课题需要重点研究的、关键的问题及解决的思路
搭建一个高可用的Hadoop集、hdfs存储怎样处理小文件
集实现高可用是通过配置文件配置的,基本上是创建两个namenode节点,只有一个对外工作,当工作的namenode宕掉之后,另一个namenode会直接取代它的位置继续工作;考虑到hdfs存储小文件的话会造成namenode资源浪费,就需要把每一个小文件合并成一个大文件,这样的话在namenode上的文件的元数据信息就不会占用太多内存,同时也为整个系统扩大了存储空间。
4.完成本课题所必须的工作条件(如工具书、实验设备或实验环境条件、某类市场调研、计算机辅助设计条件等等)及解决的办法
1、windows10的系统环境;
2、jdk1.8的开发环境;
3、Eclipse开发工具+Java开发语言+SSM集成框架+Mysql5.7
4、高可用的Hadoop集,至少是三个节点;
5、火狐浏览器

本文发布于:2023-05-11 03:57:16,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/95060.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文件   开发   数据   处理   提供   存放   课题   可用
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图