项目介绍:基于Lucene和Hadoop的维基百科分布式搜索引擎

GitHub PPT

项目概述

本项目的目标是开发一个专门为英文维基百科优化的分布式搜索引擎。通过利用Lucene和Hadoop,我们旨在提高搜索效率并增强系统的容错能力。项目重点在于实现模糊搜索算法,并高效处理维基百科的大数据集(约90GB)。

Demo 展示

以下是本项目的演示视频,展示了搜索引擎的功能和操作流程。

挑战

解决方案

交付成果

我的职责

总结

本项目通过结合Lucene和Hadoop,成功构建了一个高效的分布式搜索引擎,能够处理维基百科的大规模数据集,并支持模糊搜索功能。通过自实现的BM25Similarity类和索引文件备份,系统具备了良好的容错性和扩展性。未来可以进一步优化搜索算法,提升用户体验。