avro

发布人:仓颉技术交流平台官方
分类:数据序列化与解析 / 二进制格式

需要基于仓颉语言实现高性能 Avro 序列化引擎,支持丰富数据结构及二进制容器存储。

等待接取
2026-03-10
5

悬赏内容

招募内容

项目背景与战略目标

avro 项目旨在为仓颉语言生态构建一个原生、高效的数据序列化系统,完美支持 Avro 丰富的数据结构(记录、枚举、数组、映射、联合等)及其紧凑的二进制数据格式。在后端大数据处理、微服务间 RPC 通信及事件驱动架构中,Avro 因其 Schema 演进能力和极高的序列化效率而成为核心标准。本项目将利用仓颉编程语言(Cangjie Language)1.0.0+ 的内存安全特性,杜绝序列化/反序列化过程中的内存破坏风险;借助轻量级线程模型,实现高吞吐量的数据流处理;利用强类型系统与 Schema 的动态校验相结合,确保数据交互的严谨性。目标是打造一款性能超越 Java 原生实现、资源占用更低、且能无缝集成到仓颉后端大数据组件中的基础库。

核心功能需求与技术规格

功能模块分解

模块类别

核心职责

关键技术要求 (仓颉特性)

验收依据

Schema 解析模块

Avro JSON Schema 解析与内部表示

利用 Pattern Matching 处理复杂嵌套结构,使用所有权机制管理 Schema 对象树

支持所有 Avro 逻辑类型,解析速度优于 Jackson 实现

二进制编码模块

数据到二进制格式的序列化 (Encoder)

利用 struct 内存布局优化变长整数编码,零拷贝技术处理大字节数组

基准测试序列化吞吐量提升 30%,无多余内存分配

二进制解码模块

二进制数据到对象的反序列化 (Decoder)

使用 Result 类型显式处理数据截断或格式错误,利用泛型适配不同目标类型

反序列化正确率 100%,恶意输入不导致崩溃

容器文件模块

Avro 数据文件 (Object Container Files) 读写

使用仓颉轻量级线程实现并发读取大块数据,支持 Sync Marker 验证

支持压缩编解码器 (Deflate/Snappy),文件读写性能达标

非功能性需求规范

  • 性能指标:单条记录序列化延迟 < 1μs,大规模数据集吞吐量对比 Java Avro 提升 25% 以上。

  • 安全要求:依托仓颉编译期内存检查,彻底消除缓冲区溢出;严格限制递归深度防止栈溢出攻击。

  • 可靠性:完善的异常捕获机制,确保在 Schema 不匹配或数据损坏时抛出明确错误,资源自动回收。

  • 可维护性:模块化设计,编码逻辑与 Schema 管理解耦,符合仓颉编码规范。

核心接口设计示例 (伪代码)

// 定义序列化错误类型
enum AvroError {
    case SchemaParseError(String)
    case TypeMismatch(String)
    case BufferOverflow
    case InvalidData(String)
}

// Avro 序列化器核心接口
interface AvroSerializer<T> {
    // 根据 Schema 编译序列化器
    static func compile(schema: JsonString) throws<AvroError> Result<AvroSerializer<T>, AvroError>

    // 序列化对象到字节数组,利用 Result 处理错误
    func serialize(record: T) throws<AvroError> Result<ByteArray, AvroError>

    // 反序列化字节数组到对象,显式声明错误类型
    func deserialize(data: ByteArray) throws<AvroError> Result<T, AvroError>
    
    // 异步批量处理,利用轻量级线程
    async func serializeBatch(records: List<T>) throws<AvroError> Result<List<ByteArray>, AvroError>
}

项目交付物与实施路线图

阶段性交付物清单

  • 第一阶段:Avro Schema 解析器 + 基础二进制编解码器 + 单元测试 (覆盖率≥95%)。

  • 第二阶段:容器文件格式支持 (含压缩) + 复杂类型 (Union/Map) 优化 + 集成测试 (大数据集压测)。

  • 第三阶段:性能调优报告 + 与仓颉 RPC 框架集成示例 + 生产级部署指南 + cjpm 发布包。

项目实施路线图

阶段

核心任务

交付成果

周期预估

里程碑

基础构建

Schema 解析、基本类型编解码

可编译库、单测集

4-6 周

cjpm test 全量通过

性能攻坚

零拷贝优化、并发容器读写

压测报告、内存优化补丁

5-7 周

达到预设 QPS/延迟指标

生态集成

压缩支持、文档与发布

用户手册、cjpm 包、Demo

3-4 周

上架仓颉三方库社区

技术实现规范与质量认证体系

仓颉语言专项质量规范

  • 编码规范:100% 符合仓颉语言官方编码规范,通过 cjfmt 自动格式化校验。

  • 类型安全:充分利用泛型与模式匹配处理动态 Schema 映射,减少强制类型转换;所有权设计需确保二进制缓冲区的安全访问。

  • 错误处理:显式声明异常类型(throws),杜绝不可控的运行时崩溃,所有解析错误必须转换为业务友好的错误码。

测试与验证标准

  • 单元测试:核心模块行覆盖率≥95%(通过 cjpm test --coverage 验证),重点覆盖边界条件和非法输入。

  • 性能基准:建立包含不同大小记录和复杂度的基准测试集,监控序列化/反序列化耗时。

  • 安全扫描:通过仓颉语言内置静态分析工具扫描,确保无内存安全隐患。

文档与可维护性

  • API 文档:代码须包含规范的文档注释(Doc Comments),详细说明 Schema 兼容性规则。

  • 架构决策记录(ADR):记录关于内存模型选择(堆分配 vs 栈分配)的技术选型依据。

  • 贡献指南:明确仓颉项目构建、调试、提交全流程规范。

持续集成质量门禁

#!/bin/bash
# PR 自动化流水线脚本

# 1. 格式检查
cjpm fmt --check

# 2. 构建检查
cjpm build
cjpm build --release

# 3. 静态 lint 检查
cjpm lint --deny-warnings

# 4. 全量测试与覆盖率
cjpm test --all-features --coverage

# 5. 性能基准测试
cjpm bench

技术栈与开发环境

  • 核心语言:仓颉编程语言(Cangjie Language)1.0.0 及以上版本(强制)。

  • 构建与包管理:CJPM (Cangjie Package Manager)。

  • 测试框架:仓颉原生测试框架。

  • 质量工具:cjfmt, cjpm lint, cjpm bench。

  • 环境要求:仓颉 1.0.0+ 标准工具链,CI 使用官方/社区认证 Docker 镜像,支持 Linux/x86_64 及 Linux/ARM64 架构。

相关附件

暂无附件

质量认证要求

交付件

NO

交付件描述

备注

1

三方库源代码

源代码

2

三方库测试方案和用例

测试用例和文档

3

用户手册,API文档,设计文档,license文档

 资料和文档

验收标准

1.功能

  1. 三方库必须有明确的功能;

  2. 如果参考对标库移值开发,功能与参考三方库保持一致。

2.资料

  1. Readme:包含简介,软件架构,目录结构,下载安装(编译构建),接口说明,使用示例,约束限制,开源协议,参与贡献等内容;

  2. Changelog,三方库版本需包含基本的修改说明。

3.标准遵从性(可选),三方库实现需满足对应协议或行业标准,举例

  1. appquth:支持对OAuth 的PKCE扩展;

  2. icu4j:支持unicode标准库,通用字符集ISO/IEC 10646。

4.性能目标

  1. 性能敏感三方库接口运行性能持平对标三方库

5.开源协议遵从,必须包含License文件

  1. 放置合适的开源License协议,建议Apache License Version 2.0;

  2. 引用或参考开源三方库,需遵从开源协议。

6.网络安全要求

  1. 满足基础的网络安全红线及隐私要求,符合安全编码规范。

过程质量要求

指标分类

指标名称

指标要求

度量工具

牵引 OR Must

代码度量

平均文件代码行

≤300 LOC

CMetricsPlus,CJMetric

Must

总文件重复率

C/C++≤4%;相比开源不劣化

CMetricsPlus,CJMetric

Must

源文件重复率

C/C++≤4%;相比开源不劣化

CMetricsPlus,CJMetric

Must

平均函数或方法代码行*

≤30  LOC

CMetricsPlus,CJMetric

Must

总代码重复率

C/C++≤10%;相比开源不劣化

CMetricsPlus,CJMetric

Must

源文件代码重复率

C/C++≤10%;相比开源不劣化

CMetricsPlus,CJMetric

Must

平均圈复杂度

≤5;相比开源不劣化

CMetricsPlus,CJMetric

Must

冗余代码

“0” 【2】;

CMetricsPlus,CJMetric

Must

不安全函数

NA

CMetricsPlus,CJMetric

Must

静态检查

编译告警

“0” 【2】

Compile工具

牵引

通用静态告警

“0” 【2】

Pclint plus,CJLINT

Must

开发者测试

DT用例密度(个/KLOC)

> 40

手工

牵引 

DT代码语句覆盖率

>=85%

Gcov,cjcov

牵引

DT代码分支覆盖率

>=50%

Gcov,cjcov

牵引

未做DT文件数

0

手工

牵引

问题解决率

遗留问题DI

整体<10

Issue

牵引 

遗留致命缺陷数(0)

0

Issue

Must

累计缺陷解决率

85%

Issue

牵引 

软件开发

每日构建成功率

100%

CI

牵引

测试评估

测试缺陷密度(/KLOC)

5-9

人工

牵引

测试用例密度(个/KLOC)

20-40

人工

牵引

初验用例自动化率

100%

CIDA

牵引 

HLT自动化用例比率

【85%,95%】

CIDA

牵引 

开源第三方(含构建工具)

开源片段引用

0(除例外备案类)

FOSSBOT+人工

Must

可信构建

二进制一致性

0(含可澄清)

人工

Mus