贝:什么句子的数量手段(shell: What the means of number of sen

2019-10-19 05:01发布

我需要计算句子和段落的号码,但我不明白如何从一个文本文件做到这一点。

我可以指望用线条和文字的数量wc的命令,但我不明白的句子和段落的文本文件中的含义。 是否有任何外壳命令做到这一点?

下面是我们如何计算一个文本文件中的单词和行数:

wc -w filename

wc -l filename

对于句子和段落,这里是我的尝试:

 grep -c \\. #to count number of sentences.
 grep -o [.'\n'] #to count number of paragraph.

我不知道如何计算一个文本文件中的句子和段落的数量。

任何想法会有所帮助。

例如:

主要文章:SSID隐藏SSID的安全#。

一个简单但无效法来保护无线网络是SSID(服务集标识符)。[12] [13] 这就提供了什么,但最休闲的入侵努力很少保护...

2段和3句。

Answer 1:

第一近似值可以在假设下获得:

  1. 句结束与一个周期和周期仅用于(没有十进制数,没有省略号等等)
  2. 段落只与一个空行分隔

(当然,那些在现实中得不到​​满足,但它应该让你开始)

grep -oc \\.

将计算句子的数量,和

grep -c "^$"

将计算段落数。 如果您的文本格式强烈可到东西的作品,否则,你可以如考虑使用自然语言处理工具NLTK 。



Answer 2:

要计算句子数,你能数peroids,问号,惊叹号等的数量。 但你碰上一个省略号(...)的问题。 我想,如果有空格之后你只能指望它。

段落是另一回事。 他们是缩进? 怎么样,有一个标签? 再算上他们。

最大的问题是“什么是句子与段落之间的分隔符?

当你知道,定义分隔符正则表达式,并计算有多少人使用您所选择的工具的文件中。



文章来源: shell: What the means of number of sentence
标签: shell unix