skywalking sdk
需要实现分布式追踪、指标采集与上报,支持 OpenTelemetry 协议
悬赏内容
招募内容
项目背景与战略目标
skywalking sdk 是一个面向仓颉编程语言(Cangjie Language)生态的分布式应用性能监控(APM)客户端库,用于在微服务、云原生及 Kubernetes 环境中自动采集追踪(Tracing)、指标(Metrics)和日志(Logs)数据,并上报至 Apache SkyWalking 后端。该项目属于后端可观测性基础设施的核心组件,为仓颉应用提供开箱即用的性能监控、链路追踪与异常诊断能力。依托仓颉语言 1.0.0+ 的内存安全特性(彻底消除因上下文传播或缓冲区操作引发的 CVE 风险)、轻量级线程模型(高并发场景下低开销采样)、强类型系统(确保 Span 与标签结构正确)以及 CJNative 高性能 FFI 能力(高效对接 eBPF 或系统调用),本项目旨在打造一个零侵入、高性能、协议兼容的 APM SDK,填补仓颉在云原生可观测性领域的空白,赋能开发者构建高可靠、可运维的分布式系统。
核心功能需求与技术规格
2.1 功能模块分解
模块类别 | 核心职责 | 关键技术要求 (仓颉特性) | 验收依据 |
|---|---|---|---|
分布式上下文传播 | 在 HTTP/gRPC/RPC 调用间透传 TraceID/SpanID | 利用 struct 封装上下文;所有权机制防止跨线程污染 | 与 Java/Go Agent 互通,端到端链路完整 |
Span 生命周期管理 | 自动创建、嵌套、结束 Span 并记录关键事件 | RAII 模式自动结束 Span;轻量级线程局部存储(TLS) | P99 Span 创建延迟 < 1μs |
指标采集器 | 采集服务 QPS、延迟、错误率等核心指标 | 使用仓颉原子类型实现无锁计数;强类型指标定义 | 指标精度误差 < 0.1%,无内存泄漏 |
数据上报通道 | 通过 gRPC/HTTP 批量上报至 SkyWalking OAP | 异步队列 + 背压控制;Result 类型处理网络失败 | 支持 10K+ Spans/秒上报,丢包率 < 0.01% |
2.2 非功能性需求规范
性能指标:单次 Span 创建开销 ≤1μs,P99 上报延迟 < 10ms(局域网),CPU 占用 < 3%(1K QPS)。
安全要求:所有上下文字段受强类型约束;敏感标签(如 token)可配置过滤;无 unsafe 代码。
可靠性:上报失败自动重试 + 本地缓存;极端负载下自动采样降级,不阻塞主业务。
可维护性:模块解耦(tracing/metrics/reporting 分离);支持插件化扩展(如自定义采样策略)。
2.3 核心接口设计示例 (伪代码)
interface SkyWalkingTracer {
// 创建根 Span
fn startRootSpan(self, operation: String) -> Span;
// 从上下文提取并创建子 Span
fn extractAndStartSpan(self, carrier: &ContextCarrier) -> Span;
// 注入上下文到载体(如 HTTP Headers)
fn inject(self, span: &Span, carrier: &mut ContextCarrier);
}
struct Span {
traceId: String,
spanId: u64,
parentSpanId: Option<u64>,
operationName: String,
startTime: Timestamp,
}
impl Span {
// RAII:析构时自动结束并上报
fn end(self);
}
enum SkyWalkingError {
NetworkFailure(IoError),
InvalidContext(String),
ReporterQueueFull,
}
项目交付物与实施路线图
3.1 阶段性交付物清单
第一阶段:基础 Tracing 上下文传播 + Span 管理 + 单元测试(覆盖率≥95%) + 接口文档
第二阶段:Metrics 采集 + gRPC/HTTP 上报通道 + 与 SkyWalking OAP 集成测试
第三阶段:自动采样策略 + 性能调优报告 + cjpm 发布包
3.2 项目实施路线图
阶段 | 核心任务 | 交付成果 | 周期预估 | 里程碑 |
|---|---|---|---|---|
基础构建 | 上下文传播、Span 模型、生命周期管理 | 可编译库、单测集、Doc Comments | 6 周 | cjpm test 全量通过,覆盖率 ≥95% |
协议集成 | OTLP/gRPC 上报、指标采集、OAP 对接 | 端到端链路验证报告(Java + Cangjie 混合) | 5 周 | 成功上报至 SkyWalking 10.x OAP |
性能攻坚 | 无锁队列优化、背压控制、压测调优 | 压测报告、资源占用分析 | 4 周 | 达到 10K Spans/秒,CPU < 3% |
技术实现规范与质量认证体系
4.1 仓颉语言专项质量规范
编码规范:100% 通过
cjfmt格式校验;禁止裸指针和全局可变状态。类型安全:Span 字段不可变;上下文载体使用泛型适配不同协议(HTTP/gRPC)。
错误处理:所有 I/O 操作返回
Result<T, E>;错误类型枚举覆盖网络、协议、资源三类。
4.2 测试与验证标准
单元测试:覆盖上下文注入/提取、Span 嵌套、上报失败等场景,行覆盖率 ≥95%。
互操作测试:与 SkyWalking 官方 Java Agent 构建混合链路,验证 Trace 连续性。
安全扫描:通过
cjpm lint --deny-unsafe和内存安全静态分析。
4.3 文档与可维护性
所有 public 接口包含 Doc Comments,说明线程安全性和生命周期约束。
记录上下文传播模型、上报协议选型(OTLP vs SkyWalking Native)等 ADR。
提供
skywalking-cj-example示例项目及贡献指南。
4.4 持续集成质量门禁
# PR 自动化流水线
cjpm fmt --check
cjpm build --release
cjpm lint --deny-warnings --deny-unsafe
cjpm test --all-features --coverage
cjpm bench
技术栈与开发环境
核心语言:仓颉编程语言(Cangjie Language)1.0.0+
构建与包管理:CJPM (Cangjie Package Manager)
依赖组件:cj-grpc(gRPC 上报)、cj-http(HTTP 上报)、cj-otel(OpenTelemetry 兼容层)
测试框架:
@cangjie/test+ SkyWalking OAP Docker 集成测试环境要求:仓颉 1.0.0+ 标准工具链;CI 使用
cangjie-lang/cj-builder:1.0官方 Docker 镜像
相关附件
质量认证要求
交付件
NO | 交付件描述 | 备注 |
|---|---|---|
1 | 三方库源代码 | 源代码 |
2 | 三方库测试方案和用例 | 测试用例和文档 |
3 | 用户手册,API文档,设计文档,license文档 | 资料和文档 |
验收标准
1.功能
三方库必须有明确的功能;
如果参考对标库移值开发,功能与参考三方库保持一致。
2.资料
Readme:包含简介,软件架构,目录结构,下载安装(编译构建),接口说明,使用示例,约束限制,开源协议,参与贡献等内容;
Changelog,三方库版本需包含基本的修改说明。
3.标准遵从性(可选),三方库实现需满足对应协议或行业标准,举例
appquth:支持对OAuth 的PKCE扩展;
icu4j:支持unicode标准库,通用字符集ISO/IEC 10646。
4.性能目标
性能敏感三方库接口运行性能持平对标三方库
5.开源协议遵从,必须包含License文件
放置合适的开源License协议,建议Apache License Version 2.0;
引用或参考开源三方库,需遵从开源协议。
6.网络安全要求
满足基础的网络安全红线及隐私要求,符合安全编码规范。
过程质量要求
指标分类 | 指标名称 | 指标要求 | 度量工具 | 牵引 OR Must |
|---|---|---|---|---|
代码度量 | 平均文件代码行 | ≤300 LOC | CMetricsPlus,CJMetric | Must |
总文件重复率 | C/C++≤4%;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
源文件重复率 | C/C++≤4%;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
平均函数或方法代码行* | ≤30 LOC | CMetricsPlus,CJMetric | Must | |
总代码重复率 | C/C++≤10%;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
源文件代码重复率 | C/C++≤10%;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
平均圈复杂度 | ≤5;相比开源不劣化 | CMetricsPlus,CJMetric | Must | |
冗余代码 | “0” 【2】; | CMetricsPlus,CJMetric | Must | |
不安全函数 | NA | CMetricsPlus,CJMetric | Must | |
静态检查 | 编译告警 | “0” 【2】 | Compile工具 | 牵引 |
通用静态告警 | “0” 【2】 | Pclint plus,CJLINT | Must | |
开发者测试 | DT用例密度(个/KLOC) | > 40 | 手工 | 牵引 |
DT代码语句覆盖率 | >=85% | Gcov,cjcov | 牵引 | |
DT代码分支覆盖率 | >=50% | Gcov,cjcov | 牵引 | |
未做DT文件数 | 0 | 手工 | 牵引 | |
问题解决率 | 遗留问题DI | 整体<10 | Issue | 牵引 |
遗留致命缺陷数(0) | 0 | Issue | Must | |
累计缺陷解决率 | 85% | Issue | 牵引 | |
软件开发 | 每日构建成功率 | 100% | CI | 牵引 |
测试评估 | 测试缺陷密度(/KLOC) | 5-9 | 人工 | 牵引 |
测试用例密度(个/KLOC) | 20-40 | 人工 | 牵引 | |
初验用例自动化率 | 100% | CIDA | 牵引 | |
HLT自动化用例比率 | 【85%,95%】 | CIDA | 牵引 | |
开源第三方(含构建工具) | 开源片段引用 | 0(除例外备案类) | FOSSBOT+人工 | Must |
可信构建 | 二进制一致性 | 0(含可澄清) | 人工 | Mus |

