近日,厦门大学自动化系陈碧连副教授团队在人工智能、模式识别与计算机视觉领域国际顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》发表题为“Unsupervised Feature Selection via Graph Regularized Nonnegative CP Decomposition”的研究论文。
研究背景
由于高维数据的大规模普及,现有技术把数据转化为向量或者矩阵来处理,不可避免地破坏了数据的内在结构信息,因此开发面向张量的无监督特征选择方法成为了重要的任务。然而,遗憾的是,业内几乎找不到任何面向张量的无监督特征选择方法。本研究旨在研发一套完善的基于张量优化的无监督特征选择方案,这对机器学习领域的发展具有重要意义。
研究内容
本研究采用了基于图正则的非负张量CP分解技术来为张量产生伪标签,并设计了新颖的面向张量的线性分类器、特征选择矩阵以及特征选择机制。以这种方式,在整个特征选择的全过程中,高维数据的内在结构信息都被完好地保留了下来。
在求解所提出的方法方面,本研究提出了一种具有理论收敛性保证的高效迭代优化算法。除此之外,该优化算法的计算复杂度与特征数量仅呈线性关系,从而保证了整个特征选择过程的效率。
本研究在十个真实世界基准数据集中测试了所提出的方法。结果表明,所提出的方法优于前沿的无监督特征选择方法,并展现了显著的性能提升。

图:本研究所提出方法的流程图

图:选择出的特征对比(CPUFS为本研究提出方法,而RUFS为已有方法)
研究相关
该项工作由厦门大学自动化系与朴次茅斯大学数学与物理学院合作完成,厦门大学自动化系为该文章的第一署名单位和通讯单位。硕士研究生关劼文参与了该项目研究。研究工作得到了国家自然科学基金重点项目(61836005)和厦门市青年创新基金(3502Z20206049)的资助。