8. ICDM 2008: Pisa, Italy

Proceedings of the 8th IEEE International Conference on Data Mining (ICDM 2008), December 15-19, 2008, Pisa, Italy. IEEE Computer Society 2008

Regular Papers

Loulwah AlSumait, Daniel Barbará, Carlotta Domeniconi:
On-line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking. 3-12
Shin Ando, Einoshin Suzuki:
Unsupervised Cross-Domain Learning by Interaction Information Co-clustering. 13-22
Stephen H. Bach, Marcus A. Maloof:
Paired Learners for Concept Drift. 23-32
Mirko Böttcher, Martin Spott, Rudolf Kruse:
Predicting Future Decision Trees from Evolving Data. 33-42
Mario Boley, Henrik Grosskreutz:
A Randomized Approach for Approximating the Number of Frequent Sets. 43-52
Alexis Bondu, Marc Boullé, Vincent Lemaire, Stéphane Loiseau, Béatrice Duval:
A Non-parametric Semi-supervised Discretization Method. 53-62
Deng Cai, Xiaofei He, Xiaoyun Wu, Jiawei Han:
Non-negative Matrix Factorization on Manifold. 63-72
Toon Calders, Jan Ramon, Dries Van Dyck:
Anti-monotonic Overlap-Graph Support Measures. 73-82
Lei Chang, Tengjiao Wang, Dongqing Yang, Hua Luan:
SeqStream: Mining Closed Sequential Patterns over Stream Sliding Windows. 83-92
Vineet Chaoji, Mohammad Al Hasan, Saeed Salem, Mohammed J. Zaki:
SPARCL: Efficient and Effective Shape-Based Clustering. 93-102
Chen Chen, Xifeng Yan, Feida Zhu, Jiawei Han, Philip S. Yu:
Graph OLAP: Towards Online Analytical Processing on Graphs. 103-112
Haifeng Chen, Haibin Cheng, Guofei Jiang, Kenji Yoshihira:
Exploiting Local and Global Invariants for the Management of Large Scale Information Systems. 113-122
Ling Chen, Yiqun Hu, Wolfgang Nejdl:
DECK: Detecting Events from Web Click-Through Data. 123-132
Chun Kit Chui, Ben Kao, Kevin Y. Yip, Sau Dan Lee:
Mining Order-Preserving Submatrices from Data with Repeated Measurements. 133-142
David A. Cieslak, Nitesh V. Chawla:
Start Globally, Optimize Locally, Predict Globally: Improving Performance on Imbalanced Data. 143-152
Bonaventura Coppola, Alessandro Moschitti, Daniele Pighin:
Generalized Framework for Syntax-Based Relation Mining. 153-162
Hongbo Deng, Irwin King, Michael R. Lyu:
Formal Models for Expert Finding on DBLP Bibliography Data. 163-172
Denny, Graham J. Williams, Peter Christen:
ReDSOM: Relative Density Visualization of Temporal Changes in Cluster Structures Using Self-Organizing Maps. 173-182
Chris H. Q. Ding, Tao Li, Michael I. Jordan:
Nonnegative Matrix Factorization for Combinatorial Optimization: Spectral Clustering, Graph Matching, and Clique Finding. 183-192
Johannes Fischer, Veli Mäkinen, Niko Välimäki:
Space Efficient String Mining under Frequency Constraints. 193-202
Wilhelmiina Hämäläinen, Matti Nykänen:
Efficient Discovery of Statistically Significant Association Rules. 203-212
Andreas Hapfelmeier, Jana Schmidt, Marianne Mueller, Stefan Kramer, Robert Perneczky, Alexander Kurz, Alexander Drzezga:
Interpreting PET Scans by Structured Patient Data: A Data Mining Case Study in Dementia Research. 213-222
Shohei Hido, Yuta Tsuboi, Hisashi Kashima, Masashi Sugiyama, Takafumi Kanamori:
Inlier-Based Outlier Detection via Direct Density Ratio Estimation. 223-232
Karen Hovsepian, Peter Anselmo, Subhasish Mazumdar:
Supervised Inductive Learning with Lotka-Volterra Derived Models. 233-242
Jen-Hao Hsiao, Chu-Song Chen, Ming-Syan Chen:
A Novel Language-Model-Based Approach for Image Object Mining and Re-ranking. 243-252
Yang Hu, Jingdong Wang, Nenghai Yu, Xian-Sheng Hua:
Maximum Margin Clustering with Pairwise Constraints. 253-262
Yifan Hu, Yehuda Koren, Chris Volinsky:
Collaborative Filtering for Implicit Feedback Datasets. 263-272
Kaizhu Huang, Zenglin Xu, Irwin King, Michael R. Lyu:
Semi-supervised Learning from General Unlabeled Data. 273-282
Christian Hübler, Hans-Peter Kriegel, Karsten M. Borgwardt, Zoubin Ghahramani:
Metropolis Algorithms for Representative Subgraph Sampling. 283-292
TaeHyun Hwang, Ze Tian, Rui Kuang, Jean-Pierre Kocher:
Learning on Weighted Hypergraphs to Integrate Protein Interactions and Gene Expressions for Cancer Outcome Prediction. 293-302
Akihiro Inokuchi, Takashi Washio:
A Fast Method to Mine Frequent Subsequences from Graph Sequence Data. 303-312
Ruoming Jin, Yang Xiang, David Fuhry, Feodor F. Dragan:
Overlapping Matrix Pattern Visualization: A Hypergraph Approach. 313-322
Khurum Nazir Junejo, Asim Karim:
A Robust Discriminative Term Weighting Based Linear Discriminant Method for Text Classification. 323-332
Ben Kao, Sau Dan Lee, David W. Cheung, Wai-Shing Ho, K. F. Chan:
Clustering Uncertain Data Using Voronoi Diagrams. 333-342
Abdellali Kelil, Shengrui Wang:
SCS: A New Similarity Measure for Categorical Sequences. 343-352
Jingu Kim, Haesun Park:
Toward Faster Nonnegative Matrix Factorization: A New Algorithm and Comparisons. 353-362
Tamara G. Kolda, Jimeng Sun:
Scalable Tensor Decompositions for Multi-aspect Data Mining. 363-372
Mayank Lahiri, Tanya Y. Berger-Wolf:
Mining Periodic Behavior in Dynamic Social Networks. 373-382
Duy-Dinh Le, Shin'ichi Satoh:
Unsupervised Face Annotation by Mining the Web. 383-392
Guichong Li, Nathalie Japkowicz, Trevor J. Stocki, R. Kurt Ungar:
Border Sampling through Coupling Markov Chain Monte Carlo. 393-402
Ping Li:
Computationally Efficient Estimators for Dimension Reductions UsingStable Random Projections. 403-412
Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou:
Isolation Forest. 413-422
Li-Ping Liu, Yang Yu, Yuan Jiang, Zhi-Hua Zhou:
TEFE: A Time-Efficient Approach to Feature Extraction. 423-432
Wei Liu, Dacheng Tao, Jianzhuang Liu:
Transductive Component Analysis. 433-442
Yang Liu, Xiangji Huang, Aijun An, Xiaohui Yu:
Modeling and Predicting the Helpfulness of Online Reviews. 443-452
Francisco Martínez-Álvarez, Alicia Troncoso Lora, José C. Riquelme, Jesús S. Aguilar-Ruiz:
LBF: A Labeled-Based Forecasting Algorithm and Its Application to Electricity Price Time Series. 453-461
Dimitrios Mavroeidis, Ella Bingham:
Enhancing the Stability of Spectral Ordering with Sparsification and Partial Supervision: Application to Paleontological Data. 462-471
Christopher Moretti, Karsten Steinhaeuser, Douglas Thain, Nitesh V. Chawla:
Scaling up Classifiers to Cloud Computers. 472-481
Atsuyoshi Nakamura, Mineichi Kudo:
What Sperner Family Concept Class is Easy to Be Enumerated? 482-491
Bingbing Ni, Shuicheng Yan, Ashraf A. Kassim, Loong Fah Cheong:
Learning by Propagability. 492-501
Rong Pan, Yunhong Zhou, Bin Cao, Nathan Nan Liu, Rajan M. Lukose, Martin Scholz, Qiang Yang:
One-Class Collaborative Filtering. 502-511
Spiros Papadimitriou, Jimeng Sun:
DisCo: Distributed Co-clustering with Map-Reduce: A Case Study towards Petabyte-Scale End-to-End Mining. 512-521
Carsten Riggelsen:
Learning Bayesian Networks: A MAP Criterion for Joint Selection of Model Structure and Parameter. 522-529
Hanhuai Shan, Arindam Banerjee:
Bayesian Co-clustering. 530-539
Umang Sharan, Jennifer Neville:
Temporal-Relational Classifiers for Prediction in Evolving Domains. 540-549
Kostyantyn M. Shchekotykhin, Dietmar Jannach, Gerhard Friedrich:
xCrawl: A High-Recall Crawling Method for Web Mining. 550-559
Mingzhou (Joe) Song, Lin Zhang:
Comparison of Cluster Representations from Partial Second- to Full Fourth-Order Cross Moments for Data Stream Clustering. 560-569
Ilija Subasic, Bettina Berendt:
Web Mining for Understanding Stories through Graph Visualisation. 570-579
Bálint Takács, Yiannis Demiris:
Balancing Spectral Clustering for Segmenting Spatio-temporal Observations of Multi-agent Systems. 580-587
Nikolaj Tatti, Jilles Vreeken:
Finding Good Itemsets by Packing Data. 588-597
Hanghang Tong, Huiming Qu, Hani Jamjoom:
Measuring Proximity on Graphs with Side Information. 598-607
Charalampos E. Tsourakakis:
Fast Counting of Triangles in Large Real Networks without Counting: Algorithms and Laws. 608-617
Akhmed Umyarov, Alexander Tuzhilin:
Improving Collaborative Filtering Recommendations Using External Data. 618-627
Hongning Wang, Minlie Huang, Xiaoyan Zhu:
A Generative Probabilistic Model for Multi-label Classification. 628-637
Liang Wang, Xin Geng, James C. Bezdek, Christopher Leckie, Kotagiri Ramamohanarao:
SpecVAT: Enhanced Visual Cluster Analysis. 638-647
Tianbing Xu, Zhongfei (Mark) Zhang, Philip S. Yu, Bo Long:
Dirichlet Process Based Evolutionary Clustering. 648-657
Tianbing Xu, Zhongfei (Mark) Zhang, Philip S. Yu, Bo Long:
Evolutionary Clustering by Hierarchical Dirichlet Process with Hidden Markov State. 658-667
Jun Yan, Ning Liu, Qiang Yang, Weiguo Fan, Zheng Chen:
TOFA: Trace Oriented Feature Analysis in Text Categorization. 668-677
Jie Yin, Mohamed Medhat Gaber:
Clustering Distributed Time Series in Sensor Networks. 678-687
Min-Ling Zhang, Zhi-Hua Zhou:
M3MIML: A Maximum Margin Method for Multi-instance Multi-label Learning. 688-697

Short Papers

Leman Akoglu, Mary McGlohon, Christos Faloutsos:
RTM: Laws and a Recursive Generator for Weighted Time-Evolving Graphs. 701-706
Pelin Angin, Jennifer Neville:
A Shrinkage Approach for Modeling Non-stationary Relational Autocorrelation. 707-712
Rachit Arora, Balaraman Ravindran:
Latent Dirichlet Allocation and Singular Value Decomposition Based Multi-document Summarization. 713-718
Ira Assent, Ralph Krieger, Emmanuel Müller, Thomas Seidl:
INSCY: Indexing Subspace Clusters with In-Process-Removal of Redundancy. 719-724
Alex Aussem, Sergio Rodrigues de Morais:
A Conservative Feature Subset Selection Algorithm with Missing Data. 725-730
Nicola Barile, Ad Feelders:
Nonparametric Monotone Classification with MOCA. 731-736
Ilaria Bordino, Debora Donato, Aristides Gionis, Stefano Leonardi:
Mining Large Networks with Subgraph Counting. 737-742
Varun Chandola, Varun Mithal, Vipin Kumar:
Comparative Evaluation of Anomaly Detection Techniques for Sequence Data. 743-748
Feng Chen, Chang-Tien Lu, Arnold P. Boedihardjo:
On Locally Linear Classification by Pairwise Coupling. 749-754
Lifei Chen, Qingshan Jiang, Shengrui Wang:
A Probability Model for Projective Clustering on High Dimensional Data. 755-760
Edith Cohen, Haim Kaplan:
Estimating Aggregates over Multiple Sets. 761-766
Peng Cui, Fei Wang, Lifeng Sun, Shi-Qiang Yang:
A Joint Matrix Factorization Approach to Unsupervised Action Categorization. 767-772
Ian Davidson, Zijie Qi:
Finding Alternative Clusterings Using Constraints. 773-778
Paramveer S. Dhillon, Dean P. Foster, Lyle H. Ungar:
Efficient Feature Selection in the Presence of Multiple Feature Classes. 779-784
Andrew Fast, David Jensen:
Why Stacked Models Perform Effective Collective Classification. 785-790
Qiang Fu, Arindam Banerjee:
Multiplicative Mixture Models for Overlapping Clustering. 791-796
Ryohei Fujimaki:
Anomaly Detection Support Vector Machine and Its Application to Fault Diagnosis. 797-802
Thomas George, Anshul Gupta, Vivek Sarin:
A Recommendation System for Preconditioned Iterative Solvers. 803-808
Robby Goetschalckx, Kurt Driessens, Scott Sanner:
Cost-Sensitive Parsimonious Linear Regression. 809-814
Tianxia Gong, Chew Lim Tan, Tze-Yun Leong, Cheng Kiang Lee, Boon Chuan Pang, C. C. Tchoyoson Lim, Qi Tian, Suisheng Tang, Zhuo Zhang:
Text Mining in Radiology Reports. 815-820
Francesco Gullo, Giovanni Ponti, Andrea Tagarelli, Sergio Greco:
A Hierarchical Algorithm for Clustering Uncertain Data via an Information-Theoretic Approach. 821-826
Robert Gwadera, Fabio Crestani:
Discovering Significant Patterns in Multi-stream Sequences. 827-832
Jingrui He, Yan Liu, Richard D. Lawrence:
Graph-Based Rare Category Detection. 833-838
Anna Huang, David N. Milne, Eibe Frank, Ian H. Witten:
Clustering Documents with Active Learning Using Wikipedia. 839-844
Kaizhu Huang, Irwin King, Michael R. Lyu:
Direct Zero-Norm Optimization for Feature Selection. 845-850
James M. Kang, Shashi Shekhar, Christine Wennen, Paige J. Novak:
Discovering Flow Anomalies: A SWEET Approach. 851-856
Andreas Karwath, Kristian Kersting, Niels Landwehr:
Boosting Relational Sequence Alignments. 857-862
Faisal M. Khan, Valentina Bayer Zubek:
Support Vector Regression for Censored Data (SVRc): A Novel Tool for Survival Analysis. 863-868
Ludmila I. Kuncheva, J. Salvador Sánchez:
Nearest Neighbour Classifiers for Streaming Data with Delayed Labelling. 869-874
Carson Kai-Sang Leung, Pourang Irani, Christopher L. Carmichael:
WiFIsViz: Effective Visualization of Frequent Itemsets. 875-880
Hua-Fu Li, Hsin-Yun Huang, Yi-Cheng Chen, Yu-Jiun Liu, Suh-Yin Lee:
Fast and Memory Efficient Mining of High Utility Itemsets in Data Streams. 881-886
Tao Li, Sarabjot S. Anand:
HIREL: An Incremental Clustering Algorithm for Relational Datasets. 887-892
Xin Li, Bing Liu, Philip S. Yu:
Time Sensitive Ranking with Application to Publication Search. 893-898
Keng-Pei Lin, Ming-Syan Chen:
Releasing the SVM Classifier with Privacy-Preservation. 899-904
Cindy Xide Lin, Bolin Ding, Jiawei Han, Feida Zhu, Bo Zhao:
Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. 905-910
Bo Liu, Longbing Cao, Philip S. Yu, Chengqi Zhang:
Multi-Space-Mapped SVMs for Multi-class Classification. 911-916
Zheng Liu, Jeffrey Xu Yu, Yiping Ke, Xuemin Lin, Lei Chen:
Spotting Significant Changing Subgraphs in Evolving Graphs. 917-922
Hassan H. Malik, John R. Kender:
Classifying High-Dimensional Text and Web Data Using Very Short Patterns. 923-928
Mohammad M. Masud, Jing Gao, Latifur Khan, Jiawei Han, Bhavani M. Thuraisingham:
A Practical Approach to Classify Evolving Data Streams: Training with Limited Amount of Labeled Data. 929-934
Amy McGovern, Nathan C. Hiers, Matthew W. Collier, David J. Gagne II, Rodger A. Brown:
Spatiotemporal Relational Probability Trees: An Introduction. 935-940
Luiz F. Mendes, Bolin Ding, Jiawei Han:
Stream Sequential Pattern Mining with Precise Error Bounds. 941-946
Fabian Mörchen:
Organic Pie Charts. 947-952
Sebastian Nowozin, Koji Tsuda:
Frequent Subgraph Retrieval in Geometric Graph Databases. 953-958
Adam J. Oliner, Alex Aiken, Jon Stearley:
Alert Detection in System Logs. 959-964
Róbert Ormándi:
Variance Minimization Least Squares Support Vector Machines for Time Series Analysis. 965-970
Feng Pan, Lynda Yang, Leonard McMillan, Fernando Pardo-Manuel de Villena, David Threadgill, Wei Wang:
Quantitative Association Analysis Using Tree Hierarchies. 971-976
Sabyasachi Patra, Kripa Shanker, Debasis Kundu:
Sparse Maximum Margin Logistic Regression for Credit Scoring. 977-982
Ali Mustafa Qamar, Éric Gaussier, Jean-Pierre Chevallet, Joo-Hwee Lim:
Similarity Learning for Nearest Neighbor Classification. 983-988
Pratibha Rani, Vikram Pudi:
RBNBC: Repeat Based Naive Bayes Classifier for Biological Sequences. 989-994
Jesse Read, Bernhard Pfahringer, Geoffrey Holmes:
Multi-label Classification Using Ensembles of Pruned Sets. 995-1000
Steffen Rendle, Lars Schmidt-Thieme:
Active Learning of Equivalence Relations by Minimizing the Expected Loss Using Constraint Inference. 1001-1006
Hiroto Saigo, Koji Tsuda:
Iterative Subgraph Mining for Principal Component Analysis. 1007-1012
Makoto Sato, Shuichiro Imahara:
Clustering Geospatial Objects via Hidden Markov Random Fields. 1013-1018
Zhiyong Shen, Jun Sun, Yi-Dong Shen:
Collective Latent Dirichlet Allocation. 1019-1024
Vikas Sindhwani, Prem Melville:
Document-Word Co-regularization for Semi-supervised Sentiment Analysis. 1025-1030
Yang Song, Lu Zhang, C. Lee Giles:
A Non-parametric Approach to Pair-Wise Dynamic Topic Correlation Detection. 1031-1036
Suvrit Sra:
Block-Iterative Algorithms for Non-negative Matrix Approximation. 1037-1042
Tingkai Sun, Songcan Chen, Jing-Yu Yang, Pengfei Shi:
A Novel Method of Combined Feature Extraction for Recognition. 1043-1048
Yi Sun, Gary P. Moss, Maria Prapopoulou, Rod Adams, Marc B. Brown, Neil Davey:
Prediction of Skin Penetration Using Machine Learning Methods. 1049-1054
Jie Tang, Ruoming Jin, Jing Zhang:
A Topic Modeling Approach and Its Integration into the Random Walk Framework for Academic Search. 1055-1060
Roberto Trasarti, Francesco Bonchi, Bart Goethals:
Sequence Mining Automata: A New Technique for Mining Frequent Sequences under Regular Expressions. 1061-1066
Jilles Vreeken, Arno Siebes:
Filling in the Blanks - Krimp Minimisation for Missing Data. 1067-1072
Dianhui Wang, Nung Kion Lee:
Computational Discovery of Motifs Using Hierarchical Clustering Techniques. 1073-1078
Guan Wang, Zutao Zhu, Wenliang Du, Zhouxuan Teng:
Inference Analysis in Privacy-Preserving Data Re-publishing. 1079-1084
Pu Wang, Carlotta Domeniconi, Jian Hu:
Using Wikipedia for Co-clustering Based Cross-Domain Text Classification. 1085-1090
Richard C. Wang, William W. Cohen:
Iterative Set Expansion of Named Entities Using the Web. 1091-1096
Guillaume Wisniewski, Patrick Gallinari:
Experimental Evaluation of the Value of Structure: How to Efficiently Exploit Interdependencies in Sequence Labeling. 1097-1102
Rongjing Xiang, Jennifer Neville:
Pseudolikelihood EM for Within-network Relational Learning. 1103-1108
Yabo Xu, Benjamin C. M. Fung, Ke Wang, Ada Wai-Chee Fu, Jian Pei:
Publishing Sensitive Transactions for Itemset Utility. 1109-1114
Jun Yan, Shuicheng Yan, Ning Liu, Zheng Chen:
Learning the Latent Semantic Space for Ranking in Text Retrieval. 1115-1120
Hyunjin Yoon, Cyrus Shahabi:
Robust Time-Referenced Segmentation of Moving Object Trajectories. 1121-1126
Bin Zhao, Fei Wang, Changshui Zhang:
Maximum Margin Embedding. 1127-1132
ErHeng Zhong, Sihong Xie, Wei Fan, Jiangtao Ren, Jing Peng, Kun Zhang:
Graph-Based Iterative Hybrid Feature Selection. 1133-1138
Xingquan Zhu, Peng Zhang, Xindong Wu, Dan He, Chengqi Zhang, Yong Shi:
Cleansing Noisy Data Streams. 1139-1144