统计单个字符出现的次数:
- 使用vim统计
用vim打开目标文件,在命令模式下,输入
1 | %s/word//gn |
- 使用grep:
1 | grep -o objStr filename|wc -l |
统计多个字符串出现的次数:
1 | grep -o ‘objStr1\|objStr2' filename|wc -l |
好乐无荒,良士休休
统计单个字符出现的次数:
用vim打开目标文件,在命令模式下,输入
1 | %s/word//gn |
1 | grep -o objStr filename|wc -l |
统计多个字符串出现的次数:
1 | grep -o ‘objStr1\|objStr2' filename|wc -l |
分词单位不同于语言学中的“词”,不同的算法下的分词结果千差万别,有的分出的是语言学意义上的词,而有的分出的是语言学意义上的“短语”(或者说“词组”)因此,我们希望寻找一个可理解的统一的粒度标准,而这个粒度标准能够实现对不同分词任务的不同层次的分词。
在上周的标注过程中,我们针对2000条金融新闻语料进行了标注。
常用记录
参考博客链接: 🔗 这个
在机器学习和深度学习的任务中,我们都无法直接处理字符串或平文本,所以需要通过一种编码方式将其处理为数值,Word Embedding 就是这样将文本处理成数值的一类方法。