sanitize-html

发布人:仓颉技术交流平台官方

分类:安全与加密 / 认证授权

需要构建仓颉原生高性能HTML清洗引擎，实现服务端输入数据 sanitization 与XSS攻击防御的核心安全能力。

等待接取

2026-03-10

悬赏内容

招募内容

项目背景与战略目标

在Web后端开发、富文本编辑器内容存储、邮件系统渲染及API网关数据过滤等场景中，处理用户提交的HTML内容是高风险操作。未经清洗的HTML极易导致跨站脚本攻击（XSS），窃取用户Cookie或执行恶意代码。现有的HTML清洗库多基于动态语言（如JavaScript/Python），存在解析性能瓶颈、正则表达式回溯风险以及在高频并发下的内存安全问题。

本项目旨在利用仓颉编程语言（Cangjie Language）1.0.0+重构 sanitize-html，打造一款原生、极速、零漏洞的后端安全组件。

编译期内存安全：利用仓颉的所有权机制和借用检查，彻底杜绝HTML解析过程中的缓冲区溢出和Use-After-Free漏洞，从根源上消除内存型安全风险。
高并发清洗能力：依托仓颉轻量级线程模型，单节点可支撑百万级QPS的HTML清洗请求，满足高流量网关和实时内容审核需求。
确定性解析引擎：采用基于状态机的DOM解析器替代不安全的正则匹配，确保对畸形HTML的鲁棒性，防止ReDoS（正则拒绝服务）攻击。
强类型规则配置：利用仓颉的代数数据类型（ADT）定义清洗规则，确保配置的结构完整性，避免运行时因配置错误导致的安全绕过。

核心功能需求与技术规格

功能模块分解

模块类别	核心职责	关键技术要求 (仓颉特性)	验收依据
HTML解析引擎	将HTML片段解析为结构化DOM树，处理标签嵌套与属性	利用模式匹配高效遍历DOM节点，零拷贝字符串处理大文本	解析1MB HTML耗时 < 10ms，内存占用线性增长
规则匹配引擎	基于白名单/黑名单策略匹配标签、属性及CSS样式	利用泛型和集合优化查找算法，支持通配符与正则表达式（受控）	规则匹配准确率100%，支持复杂嵌套规则
XSS防御核心	移除 `<script>`, `javascript:`, `on*` 事件等危险元素	编译期静态分析辅助识别潜在危险模式，运行时双重校验	通过OWASP XSS测试集，无已知绕过方案
自定义配置系统	支持用户定义允许标签、属性、协议及深度限制	利用结构体不可变特性确保配置线程安全，支持热加载	配置变更无需重启服务，生效延迟 < 1ms
输出序列化	将清洗后的DOM树重新序列化为标准HTML字符串	利用流式写入避免中间字符串拼接开销，自动转义特殊字符	输出HTML符合W3C标准，无编码错误

非功能性需求规范

性能指标：单次清洗平均延迟 < 5ms (1KB文本)，吞吐量 > 50k QPS (8核机器)，内存峰值 < 2倍输入大小。
安全要求：默认开启最严格白名单模式；禁止任何形式的外联资源加载；彻底清除所有JS执行入口。
可靠性：对 malformed HTML（畸形标签、未闭合标签）具备极强容错性，不崩溃、不挂起。
可维护性：规则引擎与解析器解耦，易于扩展新的标签策略或协议处理器。

核心接口设计示例 (伪代码)

// 定义清洗配置结构
struct SanitizeOptions {
    allowedTags: Set<String>
    allowedAttributes: Map<String, Set<String>> // Tag -> Attributes
    allowedProtocols: Set<String> // e.g., "http", "https"
    disallowedTagsMode: Enum<Discard, ReplaceWithComment>
    stripComments: Bool
}

// 定义清洗结果
struct SanitizeResult {
    cleanedHtml: String
    removedElements: List<String> // 审计日志
    hasPotentialThreat: Bool
}

// 核心清洗接口
interface HtmlSanitizer {
    // 使用默认安全配置
    func sanitize(html: String): Result<SanitizeResult, SanitizeError>
    
    // 使用自定义配置
    func sanitizeWith(html: String, options: SanitizeOptions): Result<SanitizeResult, SanitizeError>
    
    // 流式处理大文件
    func sanitizeStream(input: InputStream, output: OutputStream, options: SanitizeOptions): Result<Int64, SanitizeError>
}

// 错误类型定义
enum SanitizeError {
    case InvalidHtmlFormat(String)
    case ConfigurationError(String)
    case MemoryLimitExceeded
    case InternalParserError(String)
}

// 默认安全预设
object DefaultPresets {
    func getStrictProfile(): SanitizeOptions
    func getRelaxedProfile(): SanitizeOptions
}

项目交付物与实施路线图

阶段性交付物清单

第一阶段：基础HTML解析器 + 默认白名单清洗逻辑 + 单元测试 (覆盖率≥95%)。
第二阶段：自定义规则引擎 + 流式处理支持 + 性能基准测试 + 模糊测试。
第三阶段：高级防御策略（如CSS清洗）+ 压力测试报告 + 生产级部署指南 + cjpm 发布包。

项目实施路线图

阶段	核心任务	交付成果	周期预估	里程碑
基础构建	DOM解析、基础白名单、简单清洗	可编译库、单测集	5-7 周	cjpm test 全量通过
安全加固	复杂规则匹配、流式处理、XSS对抗	压测报告、模糊测试用例	6-8 周	通过OWASP XSS测试集
生态集成	文档完善、示例代码、发布	用户手册、cjpm 包、Demo	3-4 周	上架仓颉三方库社区

技术实现规范与质量认证体系

仓颉语言专项质量规范

编码规范：100% 符合仓颉语言官方编码规范，通过 cjfmt 自动格式化校验。
类型安全：充分利用模式匹配处理HTML节点类型，利用Option/Result类型显式处理解析失败。
错误处理：所有解析异常必须捕获并转换为业务友好的错误码，严禁直接抛出底层异常。

测试与验证标准

单元测试：核心模块行覆盖率≥95%，重点覆盖各种畸形HTML、嵌套标签及边界条件。
安全测试：必须通过Google XSS Audit Suite及OWASP ZAP扫描，确保无已知XSS向量绕过。
模糊测试（Fuzzing）：使用随机生成的HTML片段进行长时间 fuzzing，确保解析器不崩溃、不泄漏。

文档与可维护性

API 文档：代码须包含规范的文档注释，详细说明各配置项的安全含义。
安全最佳实践：提供《后端HTML清洗安全指南》，指导开发者如何配置规则以平衡功能与安全。
贡献指南：明确仓颉项目构建、调试、提交全流程规范。

持续集成质量门禁

#!/bin/bash
# PR 自动化流水线脚本

# 1. 格式检查
cjpm fmt --check

# 2. 构建检查
cjpm build
cjpm build --release

# 3. 静态 lint 检查
cjpm lint --deny-warnings

# 4. 全量测试与覆盖率
cjpm test --all-features --coverage

# 5. 安全模糊测试 (Fuzzing)
# cjpm fuzz --duration 3600 --input corpus/html_samples

# 6. 性能基准测试
cjpm bench

技术栈与开发环境

核心语言：仓颉编程语言（Cangjie Language）1.0.0 及以上版本（强制）。
构建与包管理：CJPM (Cangjie Package Manager)。
测试框架：仓颉原生测试框架。
质量工具：cjfmt, cjpm lint, cjpm bench, 模糊测试工具。
环境要求：仓颉 1.0.0+ 标准工具链，CI 环境需预置大量HTML测试样本集。

质量认证要求

交付件

NO	交付件描述	备注
1	三方库源代码	源代码
2	三方库测试方案和用例	测试用例和文档
3	用户手册，API文档，设计文档，license文档	资料和文档

验收标准

1.功能

三方库必须有明确的功能；
如果参考对标库移值开发，功能与参考三方库保持一致。

2.资料

Readme：包含简介，软件架构，目录结构，下载安装（编译构建），接口说明，使用示例，约束限制，开源协议，参与贡献等内容；
Changelog，三方库版本需包含基本的修改说明。

3.标准遵从性（可选），三方库实现需满足对应协议或行业标准，举例

appquth：支持对OAuth 的PKCE扩展；
icu4j：支持unicode标准库，通用字符集ISO/IEC 10646。

4.性能目标

性能敏感三方库接口运行性能持平对标三方库

5.开源协议遵从，必须包含License文件

放置合适的开源License协议，建议Apache License Version 2.0；
引用或参考开源三方库，需遵从开源协议。

6.网络安全要求

满足基础的网络安全红线及隐私要求，符合安全编码规范。

过程质量要求

指标分类	指标名称	指标要求	度量工具	牵引 OR Must
代码度量	平均文件代码行	≤300 LOC	CMetricsPlus，CJMetric	Must
	总文件重复率	C/C++≤4%；相比开源不劣化	CMetricsPlus，CJMetric	Must
	源文件重复率	C/C++≤4%；相比开源不劣化	CMetricsPlus，CJMetric	Must
	平均函数或方法代码行*	≤30 LOC	CMetricsPlus，CJMetric	Must
	总代码重复率	C/C++≤10%；相比开源不劣化	CMetricsPlus，CJMetric	Must
	源文件代码重复率	C/C++≤10%；相比开源不劣化	CMetricsPlus，CJMetric	Must
	平均圈复杂度	≤5；相比开源不劣化	CMetricsPlus，CJMetric	Must
	冗余代码	“0” 【2】；	CMetricsPlus，CJMetric	Must
	不安全函数	NA	CMetricsPlus，CJMetric	Must
静态检查	编译告警	“0” 【2】	Compile工具	牵引
静态检查	通用静态告警	“0” 【2】	Pclint plus，CJLINT	Must
开发者测试	DT用例密度(个/KLOC)	> 40	手工	牵引
	DT代码语句覆盖率	>=85%	Gcov，cjcov	牵引
	DT代码分支覆盖率	>=50%	Gcov，cjcov	牵引
	未做DT文件数	0	手工	牵引
问题解决率	遗留问题DI	整体<10	Issue	牵引
	遗留致命缺陷数(0)	0	Issue	Must
	累计缺陷解决率	85%	Issue	牵引
软件开发	每日构建成功率	100%	CI	牵引
测试评估	测试缺陷密度（/KLOC）	5-9	人工	牵引
	测试用例密度（个/KLOC）	20-40	人工	牵引
	初验用例自动化率	100%	CIDA	牵引
	HLT自动化用例比率	【85%，95%】	CIDA	牵引
开源第三方（含构建工具）	开源片段引用	0（除例外备案类）	FOSSBOT+人工	Must
可信构建	二进制一致性	0（含可澄清）	人工	Mus