mdurl

发布人:仓颉技术交流平台官方

分类:数据序列化与解析 / 其他格式

需要构建仓颉原生 Markdown URL 专用解析器，解决文档渲染引擎、静态站点生成及内容安全过滤中的特殊字符处理与性能瓶颈。

等待接取

2026-03-10

悬赏内容

招募内容

项目背景与战略目标

在 Markdown 解析引擎、静态站点生成器（SSG）、富文本编辑器后端服务及内容管理系统（CMS）中，URL 的处理具有特殊性：它不仅需要符合 RFC 标准，还需兼容 Markdown 语法中的特殊字符（如括号、星号、下划线），并处理自动链接识别、转义字符还原等复杂逻辑。现有的通用 URL 解析库往往无法完美适配 Markdown 的宽松语法，导致链接截断、误判或渲染错误；而专为 Markdown 设计的库（如 mdurl for JS）多基于动态语言，存在正则回溯风险（ReDoS）、内存分配频繁及类型不安全等问题。

本项目旨在利用仓颉编程语言（Cangjie Language）1.0.0+重构 mdurl，打造一款专为 Markdown 场景优化、零正则依赖、强类型安全的后端 URL 处理基础库。

Markdown 语义适配：内置针对 Markdown 语法的特殊解析规则（如平衡括号检测、自动链接边界识别），确保在复杂文本环境中精准提取 URL，避免渲染断裂。
极致解析性能：利用仓颉的状态机模式替代正则表达式，彻底消除 ReDoS 风险，实现线性时间复杂度 O(n) 的解析速度，性能较动态语言提升 20-50 倍。
内存安全与零分配：依托仓颉所有权机制和 Slice 视图技术，在解析过程中避免子字符串拷贝，直接引用原始缓冲区，大幅降低 GC 压力，适合高并发文档处理服务。
智能编码与解码：提供符合 Markdown 规范的 URL 编码/解码策略，智能保留安全字符，自动处理百分号编码，防止双重编码或解码错误。
强类型错误处理：利用代数数据类型（ADT）显式表达解析状态（成功、部分匹配、非法字符），杜绝隐式的 null 或异常崩溃，提升解析器的鲁棒性。

核心功能需求与技术规格

功能模块分解

模块类别	核心职责	关键技术要求 (仓颉特性)	验收依据
核心解析引擎	解析 Markdown 上下文中的 URL，处理括号嵌套、转义字符	利用状态机模式检测平衡括号，支持递归深度限制，零拷贝提取	解析 100 万条 Markdown 链接耗时 < 50ms，无 ReDoS 风险
编码与解码器	提供 Markdown 专用的 URL Encode/Decode，智能保留安全字符	利用查表法加速编码，自动处理 `%` 转义，支持 UTF-8 验证	编解码吞吐量 > 50M OPS，结果符合 CommonMark 规范
自动链接识别	在纯文本中自动识别 URL 边界（如忽略末尾标点）	利用启发式规则与状态机结合，精准识别 http/https/mailto 链接	自动链接识别准确率 > 99.9%，误报率 < 0.1%
规范化与清洗	移除无效协议、标准化空白字符、处理相对路径	利用预编译规则表，支持自定义协议白名单，自动修复常见错误	清洗后 URL 符合 RFC 3986，无安全隐患
安全过滤模块	检测 javascript: 伪协议、Data URI 攻击、SSRF 向量	利用有限状态自动机进行线性扫描，严格校验协议头	恶意链接拦截率 100%，无绕过漏洞

非功能性需求规范

性能指标：单线程解析吞吐量 > 50M OPS，P99 延迟 < 10ns，内存峰值控制在输入大小的 1.1 倍以内（零拷贝模式下更低）。
安全要求：严禁使用正则表达式以防止 ReDoS；严格校验协议白名单，防止 XSS 和 SSRF 攻击；限制递归深度防止栈溢出。
可靠性：能够处理损坏的 Markdown 语法、不平衡的括号、混合编码及超长字符串，保证服务不挂起；支持线程安全的多线程并发调用。
可维护性：解析逻辑与 Markdown 方言解耦，支持插拔式规则配置，代码具备完善的文档注释。

核心接口设计示例 (伪代码)

// 定义解析后的 URL 结构 (使用 Slice 避免拷贝)
struct MdUrl {
    original: String // 原始字符串引用
    scheme: Option<String>
    host: Option<String>
    path: String
    query: Option<String>
    fragment: Option<String>
    isAutoLink: Bool // 是否为自动识别的链接
    
    // 转换为完整字符串
    func toString(): String
    
    // 获取标准化后的 URL
    func normalize(): MdUrl
}

// 定义解析结果
enum ParseResult<T> {
    case Success(T)
    case Failure(ParseError)
    case PartialMatch(T) // Markdown 中常见的部分匹配情况
}

// 定义错误类型
enum ParseError {
    case UnbalancedBrackets
    case InvalidScheme
    case MalformedUrl
    case SecurityViolation(String)
    case DeepNestingDetected
}

// 定义解析配置
struct MdParseConfig {
    allowBalancedBrackets: Bool // 是否允许 URL 中包含平衡的括号
    allowedSchemes: List<String> // 协议白名单
    detectAutoLinks: Bool // 是否启用自动链接识别
    strictSecurity: Bool // 严格安全模式
}

// 核心解析接口
interface MdUrlEngine {
    // 解析 Markdown 中的 URL
    func parse(input: String, config: MdParseConfig): ParseResult<MdUrl>
    
    // 在文本中查找所有 URL (自动链接模式)
    func findAllLinks(text: String, config: MdParseConfig): List<ParseResult<MdUrl>>
    
    // URL 编码 (Markdown 专用)
    func encode(input: String, keepSafeChars: Bool): String
    
    // URL 解码
    func decode(input: String): Result<String, DecodeError>
    
    // 验证安全性
    func validateSecurity(url: MdUrl): Result<Unit, SecurityError>
}

// 工厂类
object MdUrlFactory {
    static func createStandard(): MdUrlEngine
    static func createStrict(): MdUrlEngine
    static func createWithConfig(config: MdParseConfig): MdUrlEngine
}

项目交付物与实施路线图

阶段性交付物清单

第一阶段：核心解析引擎（状态机实现）+ 基础编解码 + 单元测试 (覆盖率≥95%)。
第二阶段：自动链接识别 + 安全过滤模块 + 零拷贝优化 + 性能基准测试。
第三阶段：完整 Markdown 方言支持 + 模糊测试 + cjpm 发布包 + 最佳实践文档（含 CMS/SSG 场景案例）。

项目实施路线图

阶段	核心任务	交付成果	周期预估	里程碑
基础构建	状态机解析、编解码、基础单测	可编译库、单测集	4-5 周	cjpm test 全量通过
功能增强	自动链接、安全验证、零拷贝、压测	压测报告、API文档	5-6 周	达到预设QPS/延迟指标
生态集成	方言扩展、文档完善、发布	用户手册、cjpm 包、Demo	3-4 周	上架仓颉三方库社区

技术实现规范与质量认证体系

仓颉语言专项质量规范

编码规范：100% 符合仓颉语言官方编码规范，通过 cjfmt 自动格式化校验。
类型安全：充分利用泛型定义解析结果，利用模式匹配 exhaustive check 确保所有错误分支被处理。
错误处理：所有解析异常必须通过 Result 类型返回，严禁抛出未捕获的运行时异常。

测试与验证标准

单元测试：核心模块行覆盖率≥95%，重点覆盖嵌套括号、转义字符、自动链接边界、非法协议及混合编码输入。
兼容性测试：使用 CommonMark 官方测试集及 GFM (GitHub Flavored Markdown) 测试集进行回归测试，确保解析行为一致。
性能基准：建立与 mdurl (JS), commonmark.py 的性能对比基准，确保在同等功能下性能最优且无 ReDoS 风险。

文档与可维护性

API 文档：代码须包含规范的文档注释，详细说明 Markdown 特殊规则及安全配置选项。
架构决策记录：记录解析算法选型（状态机 vs 正则）及内存管理策略的依据。
贡献指南：明确仓颉项目构建、调试、提交全流程规范。

持续集成质量门禁

#!/bin/bash
# PR 自动化流水线脚本

# 1. 格式检查
cjpm fmt --check

# 2. 构建检查
cjpm build
cjpm build --release

# 3. 静态 lint 检查
cjpm lint --deny-warnings

# 4. 全量测试与覆盖率
cjpm test --all-features --coverage

# 5. 兼容性测试 (CommonMark 标准数据集)
cjpm test --suite commonmark-validation

# 6. 性能基准测试 (对比基线)
cjpm bench --threshold 5%

技术栈与开发环境

核心语言：仓颉编程语言（Cangjie Language）1.0.0 及以上版本（强制）。
构建与包管理：CJPM (Cangjie Package Manager)。
测试框架：仓颉原生测试框架。
质量工具：cjfmt, cjpm lint, cjpm bench。
环境要求：仓颉 1.0.0+ 标准工具链，CI 环境需预置 CommonMark 及 GFM 标准测试数据集。

质量认证要求

交付件

NO	交付件描述	备注
1	三方库源代码	源代码
2	三方库测试方案和用例	测试用例和文档
3	用户手册，API文档，设计文档，license文档	资料和文档

验收标准

1.功能

三方库必须有明确的功能；
如果参考对标库移值开发，功能与参考三方库保持一致。

2.资料

Readme：包含简介，软件架构，目录结构，下载安装（编译构建），接口说明，使用示例，约束限制，开源协议，参与贡献等内容；
Changelog，三方库版本需包含基本的修改说明。

3.标准遵从性（可选），三方库实现需满足对应协议或行业标准，举例

appquth：支持对OAuth 的PKCE扩展；
icu4j：支持unicode标准库，通用字符集ISO/IEC 10646。

4.性能目标

性能敏感三方库接口运行性能持平对标三方库

5.开源协议遵从，必须包含License文件

放置合适的开源License协议，建议Apache License Version 2.0；
引用或参考开源三方库，需遵从开源协议。

6.网络安全要求

满足基础的网络安全红线及隐私要求，符合安全编码规范。

过程质量要求

指标分类	指标名称	指标要求	度量工具	牵引 OR Must
代码度量	平均文件代码行	≤300 LOC	CMetricsPlus，CJMetric	Must
	总文件重复率	C/C++≤4%；相比开源不劣化	CMetricsPlus，CJMetric	Must
	源文件重复率	C/C++≤4%；相比开源不劣化	CMetricsPlus，CJMetric	Must
	平均函数或方法代码行*	≤30 LOC	CMetricsPlus，CJMetric	Must
	总代码重复率	C/C++≤10%；相比开源不劣化	CMetricsPlus，CJMetric	Must
	源文件代码重复率	C/C++≤10%；相比开源不劣化	CMetricsPlus，CJMetric	Must
	平均圈复杂度	≤5；相比开源不劣化	CMetricsPlus，CJMetric	Must
	冗余代码	“0” 【2】；	CMetricsPlus，CJMetric	Must
	不安全函数	NA	CMetricsPlus，CJMetric	Must
静态检查	编译告警	“0” 【2】	Compile工具	牵引
静态检查	通用静态告警	“0” 【2】	Pclint plus，CJLINT	Must
开发者测试	DT用例密度(个/KLOC)	> 40	手工	牵引
	DT代码语句覆盖率	>=85%	Gcov，cjcov	牵引
	DT代码分支覆盖率	>=50%	Gcov，cjcov	牵引
	未做DT文件数	0	手工	牵引
问题解决率	遗留问题DI	整体<10	Issue	牵引
	遗留致命缺陷数(0)	0	Issue	Must
	累计缺陷解决率	85%	Issue	牵引
软件开发	每日构建成功率	100%	CI	牵引
测试评估	测试缺陷密度（/KLOC）	5-9	人工	牵引
	测试用例密度（个/KLOC）	20-40	人工	牵引
	初验用例自动化率	100%	CIDA	牵引
	HLT自动化用例比率	【85%，95%】	CIDA	牵引
开源第三方（含构建工具）	开源片段引用	0（除例外备案类）	FOSSBOT+人工	Must
可信构建	二进制一致性	0（含可澄清）	人工	Mus