我拿起大熊猫做我的生物学研究的一些数据分析工作。 事实证明我的分析被称为“NA”的蛋白质之一。
我有成对矩阵“HA,M1,M2,NA,NP ......”列标题,和同为“行头”(对于谁可能读到这封信的生物学家,我与流感工作)。
当我从一个CSV文件导入数据到熊猫直接,它读取的“行头”为“HA,M1,M2 ......”然后NA被解读为NaN的。 有没有什么办法阻止呢? 列标题都很好 - 'HA,M1,M2,NA,NP等......'
我拿起大熊猫做我的生物学研究的一些数据分析工作。 事实证明我的分析被称为“NA”的蛋白质之一。
我有成对矩阵“HA,M1,M2,NA,NP ......”列标题,和同为“行头”(对于谁可能读到这封信的生物学家,我与流感工作)。
当我从一个CSV文件导入数据到熊猫直接,它读取的“行头”为“HA,M1,M2 ......”然后NA被解读为NaN的。 有没有什么办法阻止呢? 列标题都很好 - 'HA,M1,M2,NA,NP等......'
关闭NaN的检测是这样的: pd.read_csv(filename, keep_default_na=False)
我本来建议na_filter=False
,它能够完成任务。 但是,如果我的理解如下杰夫的意见,这是一个清晰的解决方案。
例:
In [1]: pd.read_csv('test')
Out[1]:[4]: pd.read_csv('test', keep_default_na=False)
Out[4]:1 2
2 3
恰好碰到了这个问题-我指定的列,而不是一个个STR转换器,这样我可以保持呐别处: pd.read_csv(... , converters={ "file name": str, "company name": str})