❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

项目介绍快速开始学习路径项目截图 3 贡献者 12 增长趋势 Commit 历史代码统计生态关系项目时间线项目竞品依赖分析上榜历史

p-e-w/heretic

Python 活跃

504

最后更新2026-07-14

26k

+95

#11

2.9k

项目介绍

面向语言模型的完全自动审查移除工具

Fully automatic censorship removal for language models

智能解读

智能解读自动生成

Heretic是一款专为Transformer架构大语言模型设计的自动化审查移除工具。它能够高效地消除模型内置的安全对齐机制，即所谓的“审查”或“拒绝回答”行为。该项目通过结合先进的“方向性消融”算法与自动化参数优化技术，无需昂贵的人工后训练即可自动找到最佳处理参数。其目标是最大限度地减少模型对敏感提示的拒绝率，同时尽可能保持与原模型在通用任务上能力的一致性，从而在解除内容限制的同时保护模型的原始智能。该工具操作简便，用户无需深入理解模型内部原理，通过命令行即可使用，为研究人员和开发者探索无约束的语言模型应用提供了便捷的解决方案。

原始标签

abliteration llm transformer

智能标签

智能标签自动生成

Optuna 语言模型审查移除自动化无监督易用研究人员开发者

使用场景

使用场景自动生成

最适合需要快速、自动移除大模型安全限制同时最大限度保持原模型能力的场景。

快速移除模型安全限制

开发者想使用开源大模型进行敏感话题研究或内容生成，但模型的安全对齐机制频繁拒绝回答，阻碍了工作进展。

使用Heretic自动移除模型的安全对齐层，无需人工调参即可获得拒绝率极低的去审查版本，保持原模型智能水平。

研究政治敏感话题时，原Gemma-3-12b模型97%拒绝回答，使用Heretic处理后拒绝率降至3%，同时KL散度仅0.16，模型能力损失最小。

低成本获取无审查模型

开发者需要无审查的大模型但缺乏资源进行昂贵的后训练或没有专业知识手动调整模型参数。

Heretic提供完全自动化的去审查方案，只需命令行操作，结合TPE优化器自动寻找最佳参数，无需理解Transformer内部原理。

普通开发者想获得类似GPT-OSS 20B的无审查版本，只需运行Heretic命令，即可获得能处理敏感话题、保持格式能力的模型。

保持模型原有智能

现有去审查方法往往严重损害模型的原始能力，导致回答质量下降或格式混乱，得不偿失。

Heretic通过共同最小化拒绝率和KL散度的优化策略，在移除审查的同时最大程度保留原模型的智能和响应质量。

用户反馈Heretic处理的模型"不破坏模型智能"，能正常回答原模型会拒绝的提示，并保持正确的markdown表格格式。

多模态模型去审查

开发者需要处理包含图像和文本的多模态模型，但现有工具主要针对纯文本模型，支持有限。

Heretic支持大多数密集模型，包括多模态模型，提供统一的自动化去审查方案，扩展了应用范围。

对视觉-语言模型进行去审查处理，使其能生成涉及敏感视觉内容的描述，而不会被安全机制过滤。

项目健康度

76/100

良好

活跃度 15/23

距上次更新 9 天

人气 24/25

平台 Star TOP 3% · Forks 2,864

增长 19/25

本周 +665 ⭐ · 本月 +1,930 ⭐

社区 8/17

12 位贡献者 · 0 条平台评论

文档 10/10

文档资料完整

在 GitHub 上查看

项目信息

作者 p-e-w

来源 GitHub

周期每日

仓库ID p-e-w/heretic

最新提交 2026-07-07 09:04:34

第一收录 2026-07-15 08:01:31

最后更新 2026-07-15 08:01:31

赞赏支持

如果本站对你有帮助，欢迎打赏支持

微信

支付宝

Widget 徽章

预览

Markdown

HTML

登录后发表评论

加载评论中...

p-e-w/heretic - 项目详情

p-e-w/heretic - 项目详情

每日趋势

每周趋势

每月趋势

趋势分析