HanLP 希望增加tok保存空格的选项，以便分词后还原文本,

hc8w905p 于 6个月前发布在其他

关注(0)|答案(2)|浏览(94)

描述功能和当前行为/状态。

文本的空格(全形和半形)会在tok舍弃

这是否会改变当前的API?如何改变？

不确定

谁将从这个功能中受益？

使用简繁转换的人

你是否愿意为此贡献(是/否):

力有不逮

系统信息

OS平台和发行版(例如，Linux Ubuntu 16.04):Arch Linux
Python版本：3.10.9
HanLP版本：2.1.0b45,用 pip install hanlp 安装
其他信息

我主要想用hanlp来进行文本简繁转换
因为opencc的简繁转换有时会出现问题(例如 只 和 隻 的转换)
在其github #224 (comment)的讨论中，看到有人使用HanLP分词再丢给opencc
所以试了一整天，感觉不错
但是因为tok未能保存空格以文本未能成功还原
例子

import hanlp
tok = hanlp.load(hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH)
print(tok(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种Neuro-linguistic programming技术。', '阿婆主来到北京立方庭参观自然语义科技公司。']))

输出为：

[['2021年', 'HanLPv2.1', '为', '生产', '环境', '带来', '次世代', '最', '先进', '的', '多', '语种', 'Neuro-linguistic', 'programming', '技术', '。'], ['阿婆', '主', '来到', '北京立方庭', '参观', '自然语义科技公司', '。']]

Neuro-linguistic programming 两个词中的空格消失了
把这段输出丢给opencc再还原后
就会变成 Neuro-linguisticprogramming
因为我编程能力极度有限
现在我只是使用python读取txt档
再像上面那样python的hanlp的tok分词
再使用json.dumps掉进terminal
在terminal用 opencc 进行简繁转换
再使用 jq , sed 等工具还原文本
或者有没有什么更有效的分词简繁转换方法？
谢谢！

我已仔细填写此表格。

HanLP

来源：https://github.com/hankcs/HanLP/issues/1802

2条答案

按热度按时间

9o685dep1#

你好，

tok不会舍弃文本的空格(全形和半形)。单词之间的空格不属于单词的一部分，理所当然不会出现在单词中。如果tok认为单词本身含有空格，该空格会作为单词的一部分保留。比如 '2021年蝴蝶图标HanLPv2.1为生产环境带来次世代最先进的多语种Neuro-linguistic programming技术。' 会被分作 ['2021年', '蝴蝶', '图标', 'HanLPv2.1', '为', '生产', '环境', '带来', '次世代', '最', '先进', '的', '多', '语种', 'Neuro-linguistic', 'programming', '技术', '。'] 。
你的意思应该是认为 'Neuro-linguistic programming' 应当分作一个单词，这属于对分词颗粒度看法不同。按照MSR分词标准，英文词组应当被拆开，HanLP的模型很准确。
从你的目的来讲，HanLP支持输出每个单词在文本中的原始位置，“还原文本”完全可行，几行代码的事情： https://colab.research.google.com/drive/1Q-CV_G-zSErzoT7PlVWzgYj-MNK1BBpf?usp=sharing