我的项目是发生错误在阿拉伯语识别情绪或正或负(情感分析),做这个任务我用NLTK和蟒蛇,当我在阿拉伯语进入微博
>>> pos_tweets = [(' أساند كل عون أمن شريف', 'positive'),
('ما أحلى الثورة التونسية', 'positive'),
('أجمل طفل في العالم', 'positive'),
('الشعب يحرس', 'positive'),
('ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')]
Unsupported characters in input
我怎么解决这个问题?
你的问题就从空闲外壳。 AFAIK IDLE不会接受在交互模式下UTF-8的输入。
我建议YOUE使用替代(更好)外壳,如DreamPie或PythonWin的 。
有一个简单的黑客,我通常做输入UTF-8
到我的Python代码。 我不知道为什么它的工作原理,但它接受Unicode字符串,并运行平稳后,我添加这些行的脚本:
#! /usr/local/bin/python -*- coding: UTF-8 -*-
pos_tweets = [(u' أساند كل عون أمن شريف', 'positive'),
(u'ما أحلى الثورة التونسية', 'positive'),
(u'أجمل طفل في العالم', 'positive'),
(u'الشعب يحرس', 'positive'),
(u'ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')]
for i in pos_tweets:
print i[0], i[1]