我使用NLTK word_tokenizer
一个句子分成词。
我要来标记这句话:
في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء
我写的代码是:
import re
import nltk
lex = u" في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.word_tokenize(lex)
print " ".join(wordsArray)
问题是, word_tokenize
功能不通过的话分裂。 相反,它拆分用字母,这样的输出是:
"ف ي _ ب ي ت ن ا ك ل ش ي ل م ا ت ح ت ا ج ه ي ض ي ع ... ا د و ر ع ل ى ش ا ح ن ف ج أ ة ي خ ت ف ي .. ل د ر ج ة ا ن ي ا س و ي ن ف س ي ا د و ر ش ي ء"
有任何想法吗 ?
我到目前为止已经达到:
试图在文本这里 ,它似乎是由字母标记化。 此外,然而,其他断词正确标记化它。 这是否意味着word_tokenize
仅用于英语吗? 这是否去了大部分NLTK的功能呢?