搜狗开源业内最全「阅读理解工具集合」,助力研发人员快速构建高效模型|开云官网

2023-01-26 13:13 开云官网

 扫码分享

本文摘要:中文数据集CMRC2018模块。相反,用户可以继承base_dataset,为其他数据集开发自定义读取器。 要教育数据处理模型中的数据,需要创建词汇表,提取语言特征,并将线性要素编入索引。该工具包获得了Vocabulary Builder、Feature Extractor、Batch Generator等拒绝模块。模型构建机器读者解释任务的核心部分是构建有效高效的模型。

开云官网

中文数据集CMRC2018模块。相反,用户可以继承base_dataset,为其他数据集开发自定义读取器。

要教育数据处理模型中的数据,需要创建词汇表,提取语言特征,并将线性要素编入索引。该工具包获得了Vocabulary Builder、Feature Extractor、Batch Generator等拒绝模块。模型构建机器读者解释任务的核心部分是构建有效高效的模型。SMRC除了获得内置模型(稍后将说明)外,还获得机器读者解释任务常用的神经网络组件,使用户能够轻松地构建自定义模型。

根据功能API的想法,SMRC还包括Tensorflow层的MRC特定补充:Embedding: Vanilla Embedding、PartiallyTrainableEmbedding和CoVeEmbedding相似性函数:SMRC得到一系列函数(例如,DotProduct、TriLinear、MLP等),用作计算文本之间的单词级别相似性。Attendtion:注意力层次通常与BiAttention、UniAttention和SelfAttention等相似函数一起使用。基础层:一些基础层用作机器读者解释模型,如VaritionDropout和Highway、ReduceSequence。

基本任务:主要是掩码操作者(例如masked softmax、mask logits)。开发人员可以继承基本模型类并将这些组件组合在一起,从而减慢大多数主要机器读者解释模型的速度。

在训练模型教育模型时,我们通常关心指标如何随着train/dev集而变化,继续early stopping时,需要模型发散的时间等。大部分模型都使用类似的教育战略,因此SMRC获得了维持教育、小说废弃评价和推理、保持最佳权重、与指数移动平均值合作、教育简要记录等教育模块。

每个模型还获得了一个界面,可用作维护和读取模型权重的界面。其次,获得内置模型非常丰富的内置模型是SMRC的许多特征,这些内置模型都是众多杰出模型的再现。另外,与BiDAF:以前工作的注意机制不同,BiDAF的核心思想是双向注意力,模拟query-to-context和context-to-query的注意。

开云官网

(机器强化生物强化流动(ICLR 2017))DRQ:解决目标问题解决外部开放域问题。DRQ用于文字映射、基本语言特征和非常简单的注意机制,证明没有简单结构设计的非常简单的模型在机器读者解释中也能取得很好的结果。(reading Wikipedia to answer open-domain questions(ACL 2017))FusionNet:在对以前工作的注意力方法的分析基础上,黄等从三个方面明确提出了fusion net,它们在单词中使用的历史和fully aware此外,这个想法仅限于自然语言推理小说。

(fusing via fully-aware attention with application to machine comprehension(iclr 2018))r-net:r-net的主要贡献是自己给出的上下文(gated self-matching networks for reading comprehension and question answering(ACL 2017))QANet:QANet的体系结构由Transformer改编,用于循环层(combining local convolution with global self-attention for reading comprehension(iclr 2018))IAR NN:SMRC中构建了两个基于内部兴趣的R nn IARNN-word在输出RNN模型之前,将加权扩展到问题上下文中的单词响应。与只构建输出单词映射的IARNN-word不同,IARNN-hidden可以将计算出的注意力权重添加到可选上下文信息中,捕获多个单词之间的关系。(Innerattention Based Recurrent Networks for Answer Selection(ACL 2017))以BiDAF: Bidaf为基础,引入了多段机器读者解释的模型。

基于BiDAF,BiDAF减少了自身的注意力层次,从而减少了模型容量。(simple and effective multi-paragraph reading comprehension(ACL 2018))Bert ELMo:Bert和Elmo等实际教育模式在许多自然语言处理工作中取得了卓越的成绩。

SMRC使用BERT、ELMo和Cove作为映射层,获得强大的上下文响应。此外,SMRC还包括被解释为机器读者的BERT模型和修订版本。第三,慢慢构建和验证SMRC,为用户提供了一个非常简单、可扩展的非常简单的模块。

主流读者解释模型时,只要10个以上的代码就可以完成训练和测试。下面以SquAD1.0为例。内置模型(DRQ):1、Itunes数据集$ wget 3359 Raj purkar . github . io/squad-explorer/Dataset/train,慢慢构建和训练。

feature _ transformer=feature extractor(features=[match _ lemma,match _ lower,power Ner]),用于语言要素时,必须选择要素和要素词汇表:Train _ batch _ generator=batch generator(vocab,train _ data,training=true,batch feature _ vocab=feature _ transformer . vocab)model.com pile()model . train _ and _ evaluate根据上面的代码,在不同的数据集上尝试不同的模型,效果会不同SMRC从Github获得的比较结果如下。表1显示了SQuAD1.0的模型结果,再现模型的性能与原始模型大致相同。相反,如果模特再次加入BERT或ELMo等事前训练,结果往往不会有很大的提高,因此这也是NLP的新趋势。SQuAD 2.0和CoQA的操作与SQuAD1.0不同,因此某些模型不需要应用于两组数据。

基于BiDAF、BiADF等模型的测试表明,嵌入式模型有时比原始模型更好。也可以将BiDAF应用于CMRC数据集。Sogou搜索得到的测试结果是F1/EM以57.01/35.0获得了新的标准。

开云官网

第四,总结Sogou搜索开源的“Sogou读者解释工具子集”,获取TensorFlow版本的数据集加载、预处理、神经网络模型基本要素、教育和评价等原始读者解释工作框架,要求开发人员慢慢构建自定义机器读者模型。此外,SMRC作为集成框架获得了10多种机器读者解释模型,允许开发人员再现和检查多个模型。这些工作将大大加快相关学术研究。

与此同时,SMRC为所有评价和尝试落地机器读者解释技术的算法从业者确保了初学者的捷径和产品化的超动力。据了解,目前Sogou搜索已经将技术应用于产品和业务。

在法律领域,Sogou律师的解说机器人不具备逻辑分析和推理小说能力,在一致的面谈过程中发掘起诉书的结构化数据,帮助用户掌握再次发生的事实,并在充分准确地解释用户法律表达的基础上获得可能的判决结果、法律建议或类似案例。在医疗领域,Sogou搜索的智能奋进功能首次引入基于人工智能技术的智能临床助手,模拟医生和患者之间的对话模式,与用户交流病情,根据用户的实际症状识别用户可能经历的疾病。参考资料:[1] smrctoolkit [2] sogou机器学习综合工具包[3]原文《基于文档门控制器的对外开放域解说》 [4]获得国际顶级挑战赛CoQA第一名sogou下面,我们来听一下关于刊登的注意事项。


本文关键词:搜狗,开源,业内,最全,「,阅读理解,工具,集合,开云官网

本文来源:开云官网-www.smxyjl.com

返回顶部