跳转至

GIMKit

Guided Infilling Modeling Toolkit — 基于语言模型的结构化文本生成与信息抽取工具。

GIMKit 允许你在文本中定义占位符(masked tags),由语言模型来填充。通过类型化的标签系统和可选的正则约束,实现对模型输出的精细控制。

PyPI Version Python Versions Platform


GIMKit 能做什么?

GIMKit 是一个通用信息抽取框架。用自然语言写一个模板,嵌入类型化的占位符,模型就能从任意非结构化文本中提取结构化数据。

应用场景 说明
联系人提取 从自由文本中解析姓名、邮箱、电话
命名实体识别 提取组织、人物、地点、日期
文本分类 对文本进行分类、情感标注
事件抽取 提取结构化事件信息(何事/何地/何时/影响)
关系抽取 发现实体及其之间的关系
简历解析 提取候选人姓名、职位、学历、经验
评论分析 解析产品名、价格、评分、优缺点
隐私与 PII 保护 提取、分类、脱敏和过滤个人信息

完整代码示例见 经典信息抽取案例隐私与 PII 案例其他应用案例 页面。


特性

  • 标签系统 — 直接在 f-string 中嵌入类型化占位符。
  • 正则约束 — 将模型输出限制为特定模式。
  • 按名访问 — 通过标签名或索引获取结果。
  • 多后端支持 — OpenAI、vLLM(服务端和离线模式)。
  • 小模型友好 — 专为小型开源模型设计。