关于total_word_feature_extractor_zh.dat文件 #13

Jacky-Chiu · 2017-11-09T10:40:40Z

Rasa NLU version (e.g. 0.7.3):

Used backend / pipeline (mitie, spacy_sklearn, ...):

Operating system (windows, osx, ...):

Issue:

Content of configuration file (if used & relevant):

```你好我在百度网盘下载了这个文件，但打开后是乱码，我encoding用utf-8并把文件也另存为utf-8了

The text was updated successfully, but these errors were encountered:

crownpku · 2017-11-09T11:36:54Z

这个文件是给rasa nlu做词向量支持的，应该是mitie自己的binary格式。请问你打开的需求是想做什么？

Jacky-Chiu · 2017-11-09T11:56:16Z

我是看了你的文章，也关注了公众号，现在主要目的是想获得一些语料做知识库，另外貌似也有看到有知识图谱API可以调用，想自己跟着搜集到的资料或者论文试着实现一个问答机器人

crownpku · 2017-11-09T12:50:35Z

total_word_feature_extractor_zh.dat只是词向量，和知识库没有关系的。

Jacky-Chiu · 2017-11-09T12:57:24Z

明白，谢谢！

BrikerMan · 2017-11-17T01:51:08Z

你好，我这里现在有一批影片名称和相关预料。如何在你训练的 total_word_feature_extractor_zh.dat 基础上继续训练利用这一批出书？还是只能用 wordrep 重新训练？

crownpku · 2017-11-17T01:55:03Z

@BrikerMan 我所知道的只能重新训练（如果影片语料不够多，你可以wikipedia dump之类的语料一起训练），而且应该用同一个带自己词库的jieba做分词预处理。

BrikerMan · 2017-11-17T02:06:35Z

@crownpku 了解了。谢谢~。我试试看。

BrikerMan · 2017-11-17T03:50:15Z

@crownpku 有尝试过训练 spacy 模型么，MITIE 训练只能单线程，太慢了。而且以后电影名称库更新又得重来这个步骤。

crownpku · 2017-11-17T03:54:54Z

spacy对中文的支持也只是调用了jieba做分词部分... MITIE我的训练需要2天左右的时间，其实也还好。
这个模型不需要频繁更新，我觉得只有语料变动或者增量达到比如30%以上才需要重新训练，不然区别不大。

BrikerMan · 2017-11-17T05:29:16Z

恩，看样子只能这样了。此外我的 MITIE 模型训练完后，训练 rasa nlu 也非常慢，目前只有 30 个 sample，似乎跟这个 mit-nlp/MITIE#11 (comment) issue 一个问题。你的 nlu 大概多少个数据，训练要多久？

BrikerMan · 2017-11-17T05:30:45Z

我们用 MITIE 只做了词向量，那么可以用 gensim 做 word2vec 来替代这个词向量么？还是两者有本质区别？

crownpku · 2017-11-17T06:03:19Z

用MITIE的classfier会比较慢，用sklearn做分类会快很多，30个sample应该一分钟内可以训练完。
理论上是word2vec是比较普遍的方法。rasa_nlu官方坚持使用MITIE训练词向量，貌似是结合MITIE的NLP算法，会储存更多语义信息，效果更好。

BrikerMan · 2017-11-17T07:37:57Z

中文 nlu 用了 MITIE 的话没办法用 sklearn 做分类器吧？我这个配置，30 个 sample 大概需要 40 来分钟。

{
  "name": "rasa_zh_nlu",
  "pipeline": [
    "nlp_mitie",
    "tokenizer_bf",
    "ner_mitie",
    "ner_synonyms",
    "intent_entity_featurizer_regex",
    "intent_featurizer_mitie",
    "intent_classifier_sklearn"
  ],
  "language": "zh",
  "mitie_file": "./data/total_word_feature_extractor.dat",
  "path": "./models",
  "data": "./data/nlu_data.json",
}

crownpku · 2017-11-17T07:40:32Z

这个就是intent_classifier_sklearn，MITIE只是用来生成feature.
我用基本一致的配置确实一分钟内训练完的，当然jieba部分并没有用到词库。
另外tokenizer_bf是你自定义的分词器吗，是这里慢的原因吗？

BrikerMan · 2017-11-17T07:46:09Z

这个分词器跟你的基本一致，就加了个自定义字点的加载。我把我的数据共享给你，你跑一下看看可以么。数据在这里， https://github.com/BrikerMan/rasa-demo/blob/master/data.json

crownpku · 2017-11-17T07:47:41Z

@BrikerMan 可以的，发我邮箱吧 crownpku@gmail.com
我就是怀疑自定义字典加载慢的缘故...

BrikerMan · 2017-11-17T07:54:38Z

我这里换成 'tokenizer_jieba' 也一样。似乎是这个问题，RasaHQ/rasa#260 (comment)

BrikerMan · 2017-11-20T06:12:52Z

@crownpku 有结果么？

crownpku · 2017-11-20T06:30:43Z

@BrikerMan 我没有收到你的sample数据啊...

BrikerMan · 2017-11-20T06:49:04Z

直接放在 github 了，上面有提到。 https://github.com/BrikerMan/rasa-demo/blob/master/data.json。

crownpku · 2017-11-20T06:59:22Z

用你的数据在跑了，跑到classification那一步确实很慢....

Part I: train segmenter
words in dictionary: 200000
num features: 271
now do training
C:           20
epsilon:     0.01
num threads: 1
cache size:  5
max iterations: 2000
loss per missed segment:  3
C: 20   loss: 3         0.807018
C: 35   loss: 3         0.807018
C: 20   loss: 4.5       0.877193
C: 5   loss: 3  0.807018
C: 20   loss: 1.5       0.789474
C: 20   loss: 6         0.877193
C: 20   loss: 5.25      0.877193
C: 21.5   loss: 4.65    0.877193
C: 16.9684   loss: 4.72073      0.877193
C: 18.2577   loss: 4.43072      0.877193
C: 18.2131   loss: 4.55681      0.877193
C: 20   loss: 4.4       0.877193
C: 20.9694   loss: 4.47547      0.877193
best C: 20
best loss: 4.5
num feats in chunker model: 4095
train: precision, recall, f1-score: 1 1 1
Part I: elapsed time: 4 seconds.

Part II: train segment classifier
now do training
num training samples: 58

还在跑中，是卡在了ner_mitie这里。我想下怎么回事。

BrikerMan · 2017-11-20T09:03:30Z

@crownpku 嗯嗯，谢谢啦，我也在考虑为啥这么慢。

BrikerMan · 2018-04-03T06:22:38Z

有什么进展么？

kevinsay · 2018-04-04T01:54:50Z

我有178个samples，加不加自定义词典，都很慢。

cloudskyme · 2018-05-18T02:43:45Z

total_word_feature_extractor_zh.dat，你好，这个文件现在下载不到了，有什么地方可以下载吗？

kevinsay · 2018-05-20T02:27:30Z

这个文件我这边有，可以共享给你，https://pan.baidu.com/s/1gXDVzVSqsfYQhwxCjvr8iw，oigf 在 2018-05-18 10:43:46，"cloudskyme" <notifications@github.com> 写道： total_word_feature_extractor_zh.dat，你好，这个文件现在下载不到了，有什么地方可以下载吗？ — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.

crapthings · 2018-05-28T02:43:29Z

这个文件下载了，放到哪儿哦？

我放到
models/default.dat
还是提示我找不到

每次运行需要输入 --path ./models/default.data

然后提示

curl -XPOST localhost:5000/parse -d '{"q":"我发烧了该吃什么药？", "project": "rasa_nlu_test", "model": "model_20170921-170911"}' | python -mjson.tool
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   160    0    60  100   100   7545  12575 --:--:-- --:--:-- --:--:-- 14285
{
    "error": "No project found with name 'rasa_nlu_test'."
}

KevinZhou92 · 2018-05-28T06:19:25Z

@kevinsay 你好,请问还能分享total_word_feature_extractor_zh.dat这个文件吗,为什么我下载下来使用显示UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 40: invalid start byte

kevinsay · 2018-05-28T07:32:16Z

@KevinZhou92 https://pan.baidu.com/s/1ojAr5usOtThrTtHDSdpwiw aqqd

KevinZhou92 · 2018-05-28T13:03:07Z

@kevinsay 谢谢!

yuxuan2015 · 2018-05-30T10:00:12Z

total_word_feature_extractor_zh.dat，有谁知道这个文件的数据长什么样吗？

crapthings · 2018-05-30T10:08:59Z

@yuxuan2015
这是训练出来的 binary 好像看了没用吧

yuxuan2015 · 2018-05-31T01:25:49Z

@crapthings 那知道怎么换成word2vec词向量吗？

mashagua · 2018-06-05T03:04:39Z

你好，这个文件已经没有了，能共享一份吗？@KevinZhou92

KevinZhou92 · 2018-06-05T14:17:45Z

@mashagua 链接：https://pan.baidu.com/s/1kNENvlHLYWZIddmtWJ7Pdg 密码：p4vx

ghost · 2018-07-07T08:21:57Z

您好，上面BrikerMan 提出的训练58个数据很慢的原因找到了吗，我训练90个sample也很慢，好几个小时了，都没有训练完

yanolele · 2018-08-09T17:52:52Z

你好！
@KevinZhou92
这个文件已经没有了，能再共享一份給我吗？

siennx · 2018-08-16T01:16:40Z

有好心人可以分享一下文件包嗎? 我找了好久, 鏈結都失效了, 感謝.

KevinZhou92 · 2018-08-16T01:25:28Z

@siennx @yanolele 链接：https://pan.baidu.com/s/1kNENvlHLYWZIddmtWJ7Pdg 密码：p4vx

Edit: 发错链接了, 不好意思, 已修改.

siennx · 2018-08-16T01:35:18Z

@KevinZhou92 謝謝妳的分享, 可是我點進去, 第一次看到網頁, 輸入密碼後說網頁不存在, 後來再進去就都說網頁不存在了, 請問是我哪裡操作有問題嗎?
Update: 不好意思, 我試了新的鏈結, 還是遇到"頁面不存在"的問題, 可以再麻煩你看一下嗎? 感謝

aqiank · 2018-08-29T04:13:01Z

很久以前我曾经下载过该文件. 不懂是不是一样的文件. 我将文件上传到MEGA了. 下载速度可能慢一点.

链接: https://mega.nz/#!EWgTHSxR!NbTXDAuVHwwdP2-Ia8qG7No-JUsSbH5mNQSRDsjztSA
SHA-1: 1c0f473464d14c706af695f5791e6e959d5efac8

mashagua · 2018-08-29T12:45:06Z

好的，谢谢老师发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用

…

________________________________ 发件人: aqiank <notifications@github.com> 发送时间: Wednesday, August 29, 2018 12:13:02 PM 收件人: crownpku/Rasa_NLU_Chi 抄送: mashagua; Mention 主题: Re: [crownpku/Rasa_NLU_Chi] 关于total_word_feature_extractor_zh.dat文件 (#13) 很久以前我曾经下载过该文件. 不懂是不是一样的文件. 我将文件上传到MEGA了. 下载速度可能慢一点. 链接: https://mega.nz/#!EWgTHSxR!NbTXDAuVHwwdP2-Ia8qG7No-JUsSbH5mNQSRDsjztSA<https://apc01.safelinks.protection.outlook.com/?url=https%3A%2F%2Fmega.nz%2F%23!EWgTHSxR!NbTXDAuVHwwdP2-Ia8qG7No-JUsSbH5mNQSRDsjztSA&data=02%7C01%7C%7C299a8237993345aa9f4b08d60d65b7d7%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636711127854175423&sdata=a8rXmYQRhxYabEvnY4Rt3t%2FTODEO8u0C38ogVWoaakg%3D&reserved=0> SHA-1: 1c0f473464d14c706af695f5791e6e959d5efac8 ― You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub<https://apc01.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fcrownpku%2FRasa_NLU_Chi%2Fissues%2F13%23issuecomment-416818311&data=02%7C01%7C%7C299a8237993345aa9f4b08d60d65b7d7%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636711127854175423&sdata=8QoUIhRtCKuCiRm%2ByENWyY4%2FEUVBkRfYq7VgApXj548%3D&reserved=0>, or mute the thread<https://apc01.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FAOm5m-2YfCsv9RYCnXU-DXWqaWkRvgH3ks5uVhTOgaJpZM4QXwyv&data=02%7C01%7C%7C299a8237993345aa9f4b08d60d65b7d7%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636711127854175423&sdata=4wmvt4MnFxiz3IIkD3HIcDDMNG9S42CokaYQ84wqKuc%3D&reserved=0>.

siennx · 2018-09-05T05:36:05Z

謝謝檔案分享, 已經下載了

Ma-Dan · 2018-09-07T09:55:56Z

MITIE的wordrep训练非常耗时，我使用约1G的Wiki中文语料训练，需要64G内存，而且它只用了CPU的一个核，从开始到训练出word_vects.dat需要56小时。再从word_vects.dat训练得到total_word_feature_extractor.dat又需要7小时。

red-frog · 2019-03-20T08:13:35Z

同样遇到了为什么这麽慢的问题，现在有解决办法了吗？

yijinsheng · 2019-06-28T02:15:59Z

一个是训练时间长的问题，还有我用了一个118M大小的训练数据，直接训练挂了，8核的cetos ，内存500G以上，训练了几个小时之后直接显示killed了，有没有遇到这方面的问题，我google查说可能是用了mitile_classifier。中文这方面资料比较少，还希望大神指点

yangyang1719 · 2019-08-13T03:37:20Z

Running coloredlogs-10.0/setup.py -q bdist_egg --dist-dir /tmp/easy_install-tkWOQ3/coloredlogs-10.0/egg-dist-tmp-Bmzmr6
Killed: 9
在为什么返回kill:9

shengyaokai · 2020-06-04T01:48:36Z

@BrikerMan 我问下你们是怎么训练自己需要的语句啊

yangyang1719 · 2020-06-04T15:40:30Z

我还在学习是新手帮不了你哦 shengyaokai <notifications@github.com> 于 2020年6月4日周四上午9:48写道：

…

@BrikerMan <https://github.com/BrikerMan> 我问下你们是怎么训练自己需要的语句啊 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#13 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AI4XRNSASHYNXKPSRAPCYZTRU34QDANCNFSM4EC7BSXQ> .

shengyaokai · 2020-06-05T02:58:50Z

@crownpku嗯嗯，谢谢啦，我也在考虑为啥这么慢。

我问一下你是怎么训练自己需要的语句的啊

crownpku mentioned this issue Dec 16, 2017

为什么我训练的特别慢总是卡在 partII 就不动了怎么办 #19

Open

MihaiLai mentioned this issue Feb 14, 2019

我们用 MITIE 只做了词向量，那么可以用 gensim 做 word2vec 来替代这个词向量么？还是两者有本质区别？ #84

Open

关于total_word_feature_extractor_zh.dat文件 #13

关于total_word_feature_extractor_zh.dat文件 #13

Comments

Jacky-Chiu commented Nov 9, 2017

crownpku commented Nov 9, 2017

Jacky-Chiu commented Nov 9, 2017

crownpku commented Nov 9, 2017

Jacky-Chiu commented Nov 9, 2017

BrikerMan commented Nov 17, 2017

crownpku commented Nov 17, 2017

BrikerMan commented Nov 17, 2017 • edited

BrikerMan commented Nov 17, 2017

crownpku commented Nov 17, 2017

BrikerMan commented Nov 17, 2017

BrikerMan commented Nov 17, 2017

crownpku commented Nov 17, 2017

BrikerMan commented Nov 17, 2017

crownpku commented Nov 17, 2017

BrikerMan commented Nov 17, 2017 • edited

crownpku commented Nov 17, 2017

BrikerMan commented Nov 17, 2017

BrikerMan commented Nov 20, 2017

crownpku commented Nov 20, 2017

BrikerMan commented Nov 20, 2017

crownpku commented Nov 20, 2017

BrikerMan commented Nov 20, 2017

BrikerMan commented Apr 3, 2018

kevinsay commented Apr 4, 2018

cloudskyme commented May 18, 2018

kevinsay commented May 20, 2018 via email

crapthings commented May 28, 2018 • edited

KevinZhou92 commented May 28, 2018

kevinsay commented May 28, 2018

KevinZhou92 commented May 28, 2018 • edited

yuxuan2015 commented May 30, 2018

crapthings commented May 30, 2018

yuxuan2015 commented May 31, 2018

mashagua commented Jun 5, 2018

KevinZhou92 commented Jun 5, 2018

ghost commented Jul 7, 2018

yanolele commented Aug 9, 2018

siennx commented Aug 16, 2018

KevinZhou92 commented Aug 16, 2018 • edited

siennx commented Aug 16, 2018 • edited

aqiank commented Aug 29, 2018

mashagua commented Aug 29, 2018 via email

siennx commented Sep 5, 2018

Ma-Dan commented Sep 7, 2018 • edited

red-frog commented Mar 20, 2019

yijinsheng commented Jun 28, 2019

yangyang1719 commented Aug 13, 2019

shengyaokai commented Jun 4, 2020

yangyang1719 commented Jun 4, 2020 via email

shengyaokai commented Jun 5, 2020

BrikerMan commented Nov 17, 2017 •

edited

BrikerMan commented Nov 17, 2017 •

edited

crapthings commented May 28, 2018 •

edited

KevinZhou92 commented May 28, 2018 •

edited

KevinZhou92 commented Aug 16, 2018 •

edited

siennx commented Aug 16, 2018 •

edited

Ma-Dan commented Sep 7, 2018 •

edited