linux中快速统计单词词频.md

Posted on 2021-04-20 Edited on 2021-05-07 In 一日一技 Valine:

统计单个字符出现的次数：

使用vim统计

用vim打开目标文件，在命令模式下，输入

1	%s/word//gn

使用grep：

1	grep -o objStr filename\|wc -l

统计多个字符串出现的次数：

1	grep -o ‘objStr1\\|objStr2' filename\|wc -l

文本相似度计算

Posted on 2020-03-14 Edited on 2021-03-21 Valine:

【翻译】文本相似度计算：如何估计两个文本之间相似程度？

论文阅读 | Deep Semantic Role Labeling:What Works and What’s Next

Posted on 2019-04-10 Edited on 2020-02-22 In SRL Valine:

什么是SRL

Semantic Role Labeling 任务指的是围绕着谓词标记一句话的论元信息，识别出what，who，whom，when，where等信息。这是一项标记句子事件的浅层语义处理，不涉及句子的句法分析。比如对于“他昨天把书交给了张三”和“昨天书被他交给了张三”这两句话，它们在句法上不一样，但是在语义角色标注上是一样的。

python面向对象笔记

Posted on 2019-03-26 Edited on 2020-02-22 In 代码精进 Valine:

初始化

定义了__init__后就要传入其定义的所有参数。__init__中所定义的属性直接与实例想联。

北大分词方案解读及颗粒度分词方案

Posted on 2019-01-30 Edited on 2020-02-22 Valine:

分词单位不同于语言学中的“词”，不同的算法下的分词结果千差万别，有的分出的是语言学意义上的词，而有的分出的是语言学意义上的“短语”（或者说“词组”）因此，我们希望寻找一个可理解的统一的粒度标准，而这个粒度标准能够实现对不同分词任务的不同层次的分词。

金融句法标注实践

Posted on 2019-01-22 Edited on 2020-02-22 Valine:

在上周的标注过程中，我们针对2000条金融新闻语料进行了标注。

终端命令笔记

Posted on 2018-12-22 Edited on 2021-05-08 Valine:

常用记录

理解Word Embedding（1）：从Count Vector到word2vec

Posted on 2018-12-18 Edited on 2020-02-22 In NLP Valine:

参考博客链接: 🔗 这个

1. 什么是Word Embedding

在机器学习和深度学习的任务中，我们都无法直接处理字符串或平文本，所以需要通过一种编码方式将其处理为数值，Word Embedding 就是这样将文本处理成数值的一类方法。

Slot Filling with SimpleRNN

Posted on 2018-12-10 Edited on 2020-02-22 Valine:

什么是Slot Filling？

Slot Filling是自然语言理解中的一个基本问题，是对语言含义的简单化处理，它的思想类似于语言学中框架主义的一派，先设定好特定的语言类型槽，再将输入的单词一一填入槽内，而获取言语含义的时候即是根据语义槽的含义进行提取和检索。我们这里的任务就是将表示定购航班（ATIS数据集）这一言语行为的一系列语句填入各种类型的语义槽中。