已经完成了我的应用程序,它乘CRS矩阵和向量(SPMV),现在要做的唯一事情就是数FLOPS我的应用程序一样。 在我看来,这真的很难估计稀疏矩阵的情况下浮点运算的数 - 向量乘法,因为在一个行相乘的数量实在是“跳跃”或流畅。
我只是试图用“cudaprof”(在./CUDA/bin目录中提供)来测量时间 - 它工作正常。
任何sugestions和指导膏感谢!
已经完成了我的应用程序,它乘CRS矩阵和向量(SPMV),现在要做的唯一事情就是数FLOPS我的应用程序一样。 在我看来,这真的很难估计稀疏矩阵的情况下浮点运算的数 - 向量乘法,因为在一个行相乘的数量实在是“跳跃”或流畅。
我只是试图用“cudaprof”(在./CUDA/bin目录中提供)来测量时间 - 它工作正常。
任何sugestions和指导膏感谢!
这不只是你的意见; 这是一个简单的事实是,在稀疏矩阵的情况下,操作数是依赖于数据的,所以你不能在不知道一些有关的数据得到一个合理的答案。 这使得它不可能有统一号码适合所有数据的估计。
这可能是在那里你可以好好想想这几个小时(和做大量的研究)做出也许准确估计的各种情形之一,或者你可以花几分钟时间写你的现有实现的变型增量每一个它的运行时间计数器。 当然,那将需要相当一段时间才能运行(特别是如果你不支持CUDA的形式做到这一点),但可能时间比它少了很多会采取去做的事情,而当回答出来,你不必做了很多工作来说服自己,这是正确的。