jackrabbit
需要实现符合 JCR 标准的内容仓库,支持版本控制、全文搜索与权限管理
悬赏内容
招募内容
项目背景与战略目标
Apache Jackrabbit 是一个符合 Java 内容仓库(JCR, JSR-170/283)标准的开源内容管理系统,广泛用于企业级文档管理、数字资产管理等后端场景。其核心能力包括层次化内容存储、版本控制、全文检索、访问控制和事务支持。本项目旨在基于仓颉编程语言(Cangjie Language)1.0.0+ 构建一个高性能、内存安全的 JCR 兼容内容仓库实现,替代或补充现有 JVM 生态方案。通过仓颉语言的编译期内存安全机制(杜绝空指针、缓冲区溢出等 CVE 风险)、轻量级线程模型(支撑高并发内容读写)以及强类型系统(确保节点类型与属性约束在编译期验证),打造一个可嵌入微服务架构、适用于边缘与云原生环境的现代化内容存储基础设施。
核心功能需求与技术规格
2.1 功能模块分解
表格
模块类别 | 核心职责 | 关键技术要求 (仓颉特性) | 验收依据 |
|---|---|---|---|
节点存储引擎 | 实现树形节点结构的持久化与事务管理 | 利用 | 支持 ACID 事务,通过 JCR TCK(Technology Compatibility Kit)基础测试 |
版本控制系统 | 支持 checkin/checkout、版本历史、标签管理 | 使用不可变数据结构记录版本快照;所有权机制防止并发修改冲突 | 成功创建并恢复多个版本,元数据一致性验证通过 |
权限与访问控制 | 实现基于角色的 ACL(访问控制列表) | 利用代数数据类型建模权限策略;静态检查防止越权操作 | 不同用户会话下访问控制行为符合预设策略 |
全文索引模块 | 集成倒排索引,支持文本内容检索 | 基于 CJNative 调用高性能索引库(如定制化 Lucene 替代);异步构建索引避免阻塞主线程 | 支持关键词、路径、属性组合查询,P99 查询延迟 < 50ms |
并发会话管理 | 支持多客户端并发读写同一仓库 | 利用仓颉轻量级线程与细粒度锁(或无锁结构)实现高吞吐 | 压力测试下 1000+ 并发会话无死锁,吞吐量 ≥ 5000 ops/s |
2.2 非功能性需求规范
性能指标:单节点写入 P99 延迟 < 10ms;全文检索响应时间 < 100ms(百万文档规模);吞吐量较 Java 实现提升 ≥ 25%。
安全要求:所有内存操作经仓颉编译器验证,彻底消除 CVE 类漏洞;敏感操作(如权限变更)需显式授权。
可靠性:事务失败自动回滚;节点删除/移动操作原子执行;支持 WAL(Write-Ahead Logging)日志恢复。
可维护性:模块解耦清晰(存储、索引、安全、版本分离);接口符合 JCR 抽象规范;代码 100% 通过
cjpm lint。
2.3 核心接口设计示例 (伪代码)
cangjie
编辑
interface ContentRepository {
fn login(credentials: Credentials, workspace: String) throws LoginError -> Session;
}
interface Session {
fn getRootNode() -> Node;
fn save() throws SaveError -> Unit;
fn logout() -> Unit;
}
interface Node {
fn getProperty(name: String) -> Result<Property, PropertyNotFound>;
fn setProperty(name: String, value: Value) -> Unit;
fn addNode(name: String, primaryType: String) -> Node;
fn checkin() throws VersionError -> Unit;
fn checkout() throws VersionError -> Unit;
}
enum RepositoryError {
AccessDenied,
ItemExists,
VersionException,
ConstraintViolation,
}
fn createDocument(repo: ContentRepository, path: String, content: String) -> Result<Unit, RepositoryError> {
let session = repo.login(Credentials::anonymous(), "default")?;
let root = session.getRootNode();
let doc = root.addNode("report", "nt:file");
let contentNode = doc.addNode("jcr:content", "nt:resource");
contentNode.setProperty("jcr:data", Value::Binary(content.toBytes()));
session.save()?;
Ok(())
}项目交付物与实施路线图
3.1 阶段性交付物清单
第一阶段:核心节点模型 + 会话管理 + 基础 CRUD + 单元测试(覆盖率≥95%)+ JCR 接口抽象
第二阶段:版本控制 + ACL 权限系统 + 全文索引集成 + JCR TCK 兼容性测试
第三阶段:高并发优化 + WAL 日志恢复 + 性能调优报告 + cjpm 发布包(v1.0.0)
3.2 项目实施路线图
表格
阶段 | 核心任务 | 交付成果 | 周期预估 | 里程碑 |
|---|---|---|---|---|
基础构建 | 节点树、会话、事务、属性系统 | 可编译库、单测集、JCR 接口草案 | 8 周 | 支持基本节点创建/保存, |
功能攻坚 | 版本控制、ACL、全文索引、TCK 测试 | TCK 兼容报告、压测数据、安全审计日志 | 10 周 | 通过 JCR TCK 核心用例,支持 1000+ 并发会话 |
生态集成 | 文档、部署指南、cjpm 发布 | 用户手册、ADR、cjpm 包 | 4 周 | 上架仓颉三方库社区,提供 Docker 镜像 |
技术实现规范与质量认证体系
4.1 仓颉语言专项质量规范
编码规范:100% 通过
cjfmt自动格式化,禁止绕过类型系统。类型安全:节点类型、属性类型、权限策略均使用强类型建模;泛型用于泛化查询结果。
错误处理:所有 public 方法返回
Result<T, E>或声明throws,杜绝未处理异常。资源管理:
Session、Node等对象实现Droptrait,确保连接与缓存自动释放。
4.2 测试与验证标准
单元测试:核心存储、事务、权限模块行覆盖率 ≥ 95%(
cjpm test --coverage验证)。兼容性测试:运行 JCR TCK(可适配为仓颉测试套件),覆盖 JSR-283 核心规范。
安全扫描:通过
cjpm analyze --security检测潜在内存与逻辑漏洞。
4.3 文档与可维护性
API 文档:所有 public 接口包含
///注释,说明线程安全性、事务边界。ADR:记录为何选择自研存储引擎而非绑定 LevelDB/RocksDB、权限模型设计等关键决策。
贡献指南:提供
CONTRIBUTING.md,说明如何运行 TCK、调试事务、提交 PR。
4.4 持续集成质量门禁
bash
编辑
# PR 自动化流水线
cjpm fmt --check
cjpm build --release
cjpm lint --deny-warnings
cjpm test --all-features --coverage
cjpm bench --baseline=main技术栈与开发环境
核心语言:仓颉编程语言(Cangjie Language)1.0.0+
构建与包管理:CJPM(Cangjie Package Manager)
测试框架:仓颉原生
test模块 + JCR TCK 适配层质量工具:
cjfmt,cjpm lint,cjpm bench,cjpm analyzeCI 环境:基于
cangjie-lang/cangjie:1.0.0官方 Docker 镜像的 GitHub Actions / GitLab CI 流水线
相关附件
质量认证要求
交付件
NO | 交付件描述 | 备注 |
|---|---|---|
1 | 三方库源代码 | 源代码 |
2 | 三方库测试方案和用例 | 测试用例和文档 |
3 | 用户手册,API文档,设计文档,license文档 | 资料和文档 |
验收标准
1.功能
三方库必须有明确的功能;
如果参考对标库移值开发,功能与参考三方库保持一致。
2.资料
Readme:包含简介,软件架构,目录结构,下载安装(编译构建),接口说明,使用示例,约束限制,开源协议,参与贡献等内容;
Changelog,三方库版本需包含基本的修改说明。
3.标准遵从性(可选),三方库实现需满足对应协议或行业标准,举例
appquth:支持对OAuth 的PKCE扩展;
icu4j:支持unicode标准库,通用字符集ISO/IEC 10646。
4.性能目标
性能敏感三方库接口运行性能持平对标三方库
5.开源协议遵从,必须包含License文件
放置合适的开源License协议,建议Apache License Version 2.0;
引用或参考开源三方库,需遵从开源协议。
6.网络安全要求
满足基础的网络安全红线及隐私要求,符合安全编码规范。
过程质量要求
指标分类 | 指标名称 | 指标要求 | 度量工具 | 牵引 OR Must |
|---|---|---|---|---|
代码度量 | 平均文件代码行 | ≤300 LOC | CMetricsPlus,CJMetric | Must |
总文件重复率 | C/C++≤4%;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
源文件重复率 | C/C++≤4%;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
平均函数或方法代码行* | ≤30 LOC | CMetricsPlus,CJMetric | Must | |
总代码重复率 | C/C++≤10%;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
源文件代码重复率 | C/C++≤10%;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
平均圈复杂度 | ≤5;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
冗余代码 | “0” 【2】; | CMetricsPlus,CJMetric | Must | |
不安全函数 | NA | CMetricsPlus,CJMetric | Must | |
静态检查 | 编译告警 | “0” 【2】 | Compile工具 | 牵引 |
通用静态告警 | “0” 【2】 | Pclint plus,CJLINT | Must | |
开发者测试 | DT用例密度(个/KLOC) | > 40 | 手工 | 牵引 |
DT代码语句覆盖率 | >=85% | Gcov,cjcov | 牵引 | |
DT代码分支覆盖率 | >=50% | Gcov,cjcov | 牵引 | |
未做DT文件数 | 0 | 手工 | 牵引 | |
问题解决率 | 遗留问题DI | 整体<10 | Issue | 牵引 |
遗留致命缺陷数(0) | 0 | Issue | Must | |
累计缺陷解决率 | 85% | Issue | 牵引 | |
软件开发 | 每日构建成功率 | 100% | CI | 牵引 |
测试评估 | 测试缺陷密度(/KLOC) | 5-9 | 人工 | 牵引 |
测试用例密度(个/KLOC) | 20-40 | 人工 | 牵引 | |
初验用例自动化率 | 100% | CIDA | 牵引 | |
HLT自动化用例比率 | 【85%,95%】 | CIDA | 牵引 | |
开源第三方(含构建工具) | 开源片段引用 | 0(除例外备案类) | FOSSBOT+人工 | Must |
可信构建 | 二进制一致性 | 0(含可澄清) | 人工 | Mus |

