我碰到一个情况我有一个相当大的文件,我需要读取二进制数据。
因此,我意识到,在.NET中的默认BinaryReader在实现是相当缓慢的。 在与看着它.net反射我碰到这样的:
public virtual int ReadInt32()
{
if (this.m_isMemoryStream)
{
MemoryStream stream = this.m_stream as MemoryStream;
return stream.InternalReadInt32();
}
this.FillBuffer(4);
return (((this.m_buffer[0] | (this.m_buffer[1] << 8)) | (this.m_buffer[2] << 0x10)) | (this.m_buffer[3] << 0x18));
}
这给我的印象极其低效的,在计算机是如何设计的32位值来工作,因为32位CPU的发明想法。
所以我做了我自己的(不安全)FastBinaryReader与代码类如这个:
public unsafe class FastBinaryReader :IDisposable
{
private static byte[] buffer = new byte[50];
//private Stream baseStream;
public Stream BaseStream { get; private set; }
public FastBinaryReader(Stream input)
{
BaseStream = input;
}
public int ReadInt32()
{
BaseStream.Read(buffer, 0, 4);
fixed (byte* numRef = &(buffer[0]))
{
return *(((int*)numRef));
}
}
...
}
这是更快-我设法剃掉5-7秒掉花了读取500MB的文件时,但它仍然是相当缓慢的整体(29秒开始,并〜22日秒钟现在我FastBinaryReader
)。
它还是一种令我感到困惑,为什么它仍然需要很长时间来读取这样一个相对较小的文件。 如果我从一个磁盘文件复制到另一个只需要几秒钟,所以磁盘吞吐量是不是一个问题。
我还内联ReadInt32等电话,我结束了这段代码:
using (var br = new FastBinaryReader(new FileStream(cacheFilePath, FileMode.Open, FileAccess.Read, FileShare.Read, 0x10000, FileOptions.SequentialScan)))
while (br.BaseStream.Position < br.BaseStream.Length)
{
var doc = DocumentData.Deserialize(br);
docData[doc.InternalId] = doc;
}
}
public static DocumentData Deserialize(FastBinaryReader reader)
{
byte[] buffer = new byte[4 + 4 + 8 + 4 + 4 + 1 + 4];
reader.BaseStream.Read(buffer, 0, buffer.Length);
DocumentData data = new DocumentData();
fixed (byte* numRef = &(buffer[0]))
{
data.InternalId = *((int*)&(numRef[0]));
data.b = *((int*)&(numRef[4]));
data.c = *((long*)&(numRef[8]));
data.d = *((float*)&(numRef[16]));
data.e = *((float*)&(numRef[20]));
data.f = numRef[24];
data.g = *((int*)&(numRef[25]));
}
return data;
}
如何使这甚至更快的任何进一步的想法? 我想也许我可以使用编组将整个文件映射径直插入一些自定义结构顶部的内存,因为数据是线性的,固定的大小和顺序。
解决:我得出的结论是的FileStream的缓冲/ BufferedStream是有缺陷的。 请参阅下面的接受的答案和我自己的答案(与解决方案)。