通过处理一时间序列图,我想检测一下类似这样的模式:
使用样本时间序列为例,我想能够检测模式如下标注:
什么样的AI算法(我假设marchine学习技术),我需要用它来实现这一目标? 是否有任何库(在C / C ++),在那里,我可以使用吗?
通过处理一时间序列图,我想检测一下类似这样的模式:
使用样本时间序列为例,我想能够检测模式如下标注:
什么样的AI算法(我假设marchine学习技术),我需要用它来实现这一目标? 是否有任何库(在C / C ++),在那里,我可以使用吗?
下面是一个小项目,我做了分区心电图数据的样本结果。
我的做法是一个“转换自回归HMM”(google一下,如果你还没有听说过它),其中每个数据点是从以前的数据点使用贝叶斯回归模型预测。 我创建81种隐藏状态:垃圾状态到每个节拍之间捕获数据,以及对应于心跳图案内的不同位置80个分开的隐藏状态。 图案80点的状态直接从一个子采样单拍模式构建,有两个转变 - 一个自转变和模式下一个状态的转换。 在模式的最终状态过渡到自行或垃圾状态。
我训练模型维特比训练 ,只有更新回归参数。
结果在大多数情况下足够了。 另外一种类似结构条件随机场可能会表现得更好,但培养了CRF将需要手动标记模式在数据集中,如果你不已经标记的数据。
编辑:
下面是一些例子Python代码 - 它并不完美,但它给人的一般方法。 它实现了EM而非维特比训练,这可能会稍微更稳定。 心电图数据集是从http://www.cs.ucr.edu/~eamonn/discords/ECG_data.zip
import numpy as np
import numpy.random as rnd
import matplotlib.pyplot as plt
import scipy.linalg as lin
import re
data=np.array(map(lambda l: map(float,filter(lambda x: len(x)>0,re.split('\\s+',l))),open('chfdb_chf01_275.txt'))).T
dK=230
pattern=data[1,:dK]
data=data[1,dK:]
def create_mats(dat):
'''
create
A - an initial transition matrix
pA - pseudocounts for A
w - emission distribution regression weights
K - number of hidden states
'''
step=5 #adjust this to change the granularity of the pattern
eps=.1
dat=dat[::step]
K=len(dat)+1
A=np.zeros( (K,K) )
A[0,1]=1.
pA=np.zeros( (K,K) )
pA[0,1]=1.
for i in xrange(1,K-1):
A[i,i]=(step-1.+eps)/(step+2*eps)
A[i,i+1]=(1.+eps)/(step+2*eps)
pA[i,i]=1.
pA[i,i+1]=1.
A[-1,-1]=(step-1.+eps)/(step+2*eps)
A[-1,1]=(1.+eps)/(step+2*eps)
pA[-1,-1]=1.
pA[-1,1]=1.
w=np.ones( (K,2) , dtype=np.float)
w[0,1]=dat[0]
w[1:-1,1]=(dat[:-1]-dat[1:])/step
w[-1,1]=(dat[0]-dat[-1])/step
return A,pA,w,K
#initialize stuff
A,pA,w,K=create_mats(pattern)
eta=10. #precision parameter for the autoregressive portion of the model
lam=.1 #precision parameter for the weights prior
N=1 #number of sequences
M=2 #number of dimensions - the second variable is for the bias term
T=len(data) #length of sequences
x=np.ones( (T+1,M) ) # sequence data (just one sequence)
x[0,1]=1
x[1:,0]=data
#emissions
e=np.zeros( (T,K) )
#residuals
v=np.zeros( (T,K) )
#store the forward and backward recurrences
f=np.zeros( (T+1,K) )
fls=np.zeros( (T+1) )
f[0,0]=1
b=np.zeros( (T+1,K) )
bls=np.zeros( (T+1) )
b[-1,1:]=1./(K-1)
#hidden states
z=np.zeros( (T+1),dtype=np.int )
#expected hidden states
ex_k=np.zeros( (T,K) )
# expected pairs of hidden states
ex_kk=np.zeros( (K,K) )
nkk=np.zeros( (K,K) )
def fwd(xn):
global f,e
for t in xrange(T):
f[t+1,:]=np.dot(f[t,:],A)*e[t,:]
sm=np.sum(f[t+1,:])
fls[t+1]=fls[t]+np.log(sm)
f[t+1,:]/=sm
assert f[t+1,0]==0
def bck(xn):
global b,e
for t in xrange(T-1,-1,-1):
b[t,:]=np.dot(A,b[t+1,:]*e[t,:])
sm=np.sum(b[t,:])
bls[t]=bls[t+1]+np.log(sm)
b[t,:]/=sm
def em_step(xn):
global A,w,eta
global f,b,e,v
global ex_k,ex_kk,nkk
x=xn[:-1] #current data vectors
y=xn[1:,:1] #next data vectors predicted from current
#compute residuals
v=np.dot(x,w.T) # (N,K) <- (N,1) (N,K)
v-=y
e=np.exp(-eta/2*v**2,e)
fwd(xn)
bck(xn)
# compute expected hidden states
for t in xrange(len(e)):
ex_k[t,:]=f[t+1,:]*b[t+1,:]
ex_k[t,:]/=np.sum(ex_k[t,:])
# compute expected pairs of hidden states
for t in xrange(len(f)-1):
ex_kk=A*f[t,:][:,np.newaxis]*e[t,:]*b[t+1,:]
ex_kk/=np.sum(ex_kk)
nkk+=ex_kk
# max w/ respect to transition probabilities
A=pA+nkk
A/=np.sum(A,1)[:,np.newaxis]
# solve the weighted regression problem for emissions weights
# x and y are from above
for k in xrange(K):
ex=ex_k[:,k][:,np.newaxis]
dx=np.dot(x.T,ex*x)
dy=np.dot(x.T,ex*y)
dy.shape=(2)
w[k,:]=lin.solve(dx+lam*np.eye(x.shape[1]), dy)
#return the probability of the sequence (computed by the forward algorithm)
return fls[-1]
if __name__=='__main__':
#run the em algorithm
for i in xrange(20):
print em_step(x)
#get rough boundaries by taking the maximum expected hidden state for each position
r=np.arange(len(ex_k))[np.argmax(ex_k,1)<3]
#plot
plt.plot(range(T),x[1:,0])
yr=[np.min(x[:,0]),np.max(x[:,0])]
for i in r:
plt.plot([i,i],yr,'-r')
plt.show()
为什么不使用简单的匹配滤波器? 或它的一般统计对口称为交叉关系。 给定的已知图案X(t)和含有您的图案的嘈杂化合物时间序列A,B,...,Z像偏移y(t) = x(ta) + x(tb) +...+ x(tz) + n(t).
x和y之间的互相关函数应该给峰A,B,...,Z
WEKA是机器学习软件的功能强大的集合,并且支持一些时间序列分析工具,但我不知道有足够的了解该领域推荐一个最好的办法。 但是,它是基于Java的; 你可以调用从C / C ++的Java代码没有大做文章。
对于时间序列进行打包处理大多是冲着股市。 我建议克洛诺斯的意见; 我不知道该怎么做模式识别有了它,除了显而易见的:你的系列长度的任何好的模型能够预测的是,在之后的最后一个小凸点一定的距离小颠簸,颠簸大跟随。 也就是说,你的序列表现出的自相似性,并在克洛诺斯所使用的模型的设计建模。
如果你不介意C#中,你应该要求一个版本的TimeSearcher2在HCIL从乡亲-模式识别,对于这个系统,画什么图案的样子,然后检查你的模型是否足够一般以捕捉大多数情况下与低误报率。 也许最人性化的方式,你会发现; 所有其他需要统计或模式识别策略颇有背景。
我不知道什么包会工作最适合此。 我没有在大学一个地步,我试图自动检测在XY轴一定的相似形状的一堆不同的图形类似的东西。 你可以这样做以下。
类的标签,如:
的功能,如:
我使用的深度学习,如果它是一个选择。 它在Java中,完成Deeplearning4j 。 我与LSTM试验。 我试图1隐含层和2隐藏层以处理时间序列。
return new NeuralNetConfiguration.Builder()
.seed(HyperParameter.seed)
.iterations(HyperParameter.nItr)
.miniBatch(false)
.learningRate(HyperParameter.learningRate)
.biasInit(0)
.weightInit(WeightInit.XAVIER)
.momentum(HyperParameter.momentum)
.optimizationAlgo(
OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT // RMSE: ????
)
.regularization(true)
.updater(Updater.RMSPROP) // NESTEROVS
// .l2(0.001)
.list()
.layer(0,
new GravesLSTM.Builder().nIn(HyperParameter.numInputs).nOut(HyperParameter.nHNodes_1).activation("tanh").build())
.layer(1,
new GravesLSTM.Builder().nIn(HyperParameter.nHNodes_1).nOut(HyperParameter.nHNodes_2).dropOut(HyperParameter.dropOut).activation("tanh").build())
.layer(2,
new GravesLSTM.Builder().nIn(HyperParameter.nHNodes_2).nOut(HyperParameter.nHNodes_2).dropOut(HyperParameter.dropOut).activation("tanh").build())
.layer(3, // "identity" make regression output
new RnnOutputLayer.Builder(LossFunctions.LossFunction.MSE).nIn(HyperParameter.nHNodes_2).nOut(HyperParameter.numOutputs).activation("identity").build()) // "identity"
.backpropType(BackpropType.TruncatedBPTT)
.tBPTTBackwardLength(100)
.pretrain(false)
.backprop(true)
.build();
发现几件事情: