1filellm项目简介
1filellm是一个高效的数据聚合工具,专为大语言模型(LLM)提示创建而设计。它可以从多种来源收集和预处理数据,将其编译成单个文本文件,并自动复制到剪贴板以便快速使用。
主要功能
自动检测输入源类型(路径、URL或标识符) 支持多种输入源:本地文件/目录、GitHub仓库、拉取请求、问题、arXiv论文、YouTube转录、网页文档、Sci-Hub论文等 处理多种文件格式,包括Jupyter Notebook和PDF 网页爬取功能,可提取链接页面内容 集成Sci-Hub,可自动下载研究论文 文本预处理:压缩/非压缩输出、停用词移除、小写转换等 自动复制非压缩文本到剪贴板 报告压缩和非压缩输出的token数量 使用XML标签封装输出,提高LLM处理效果安装指南
安装依赖:pip install -U -r requirements.txt
克隆仓库或下载源代码
获取GitHub个人访问令牌(用于访问私有仓库)
使用方法
运行以下命令:
python onefilellm.py <输入源>
例如:
python onefilellm.py https://github.com/jimmc414/1filellm
学习资源
GitHub仓库 - 包含源代码、文档和示例 项目README - 详细的功能说明和使用指南 安装说明 - 如何安装和配置1filellm 使用教程 - 各种输入源的使用方法和示例 配置指南 - 如何自定义文件类型和爬取深度 XML输出格式说明 - 输出结构的详细解释 最近更新 - 了解最新功能和改进 自动化测试说明 - 如何运行和扩展测试用例注意事项
修改允许的文件类型: allowed_extensions = ['.py', '.txt', '.js', ...] 调整网页爬取深度: max_depth = 2 控制台会显示压缩和非压缩输出的token数量1filellm是一个强大的数据聚合工具,可以大大提高LLM提示创建的效率。通过学习和使用这些资源,开发者可以充分利用该工具,为自己的LLM应用创建更加丰富和精准的提示。