6. ICDM 2006: Hong Kong, China

Proceedings of the 6th IEEE International Conference on Data Mining (ICDM 2006), 18-22 December 2006, Hong Kong, China. IEEE Computer Society 2006

Invited Papers

Tomaso Poggio:
Neuroscience: New Insights for AI? 3-8
Raghu Ramakrishnan:
Exploratory Mining in Cube Space. 6
Weixiong Zhang:
Data Mining Methods for Modeling Gene Expression Regulation and Their Applications. 7

Regular Papers

Shin Ando, Einoshin Suzuki:
An Information Theoretic Approach to Detection of Minority Subsets in Database. 11-20
Tomohiro Ando:
Bayesian State Space Modeling Approach for Measuring the Effectiveness of Marketing Activities and Baseline Sales from POS Data. 21-32
Maria-Luiza Antonie, Osmar R. Zaïane, Robert C. Holte:
Learning to Use a Learned Model: A Two-Stage Approach to Classification. 33-42
Korinna Bade, Eyke Hüllermeier, Andreas Nürnberger:
Hierarchical Classification by Expected Utility Maximization. 43-52
Eric Bae, James Bailey:
COALA: A Novel Approach for the Extraction of an Alternate Clustering of High Quality and High Dissimilarity. 53-62
Ziv Bar-Yossef, Ido Guy, Ronny Lempel, Yoëlle S. Maarek, Vladimir Soroka:
Cluster Ranking with an Application to Mining Mailbox Networks. 63-74
Stephen Bay, Krishna Kumaraswamy, Markus G. Anderle, Rohit Kumar, David M. Steier:
Large Scale Detection of Irregularities in Accounting Data. 75-86
Mikhail Bilenko, Beena Kamath, Raymond J. Mooney:
Adaptive Blocking: Learning to Scale Up Record Linkage. 87-96
Gregory Buehrer, Srinivasan Parthasarathy, Yen-Kuang Chen:
Adaptive Parallel Graph Mining for CMP Architectures. 97-106
Rich Caruana, Mohamed Farid Elhawary, Nam Nguyen, Casey Smith:
Meta Clustering. 107-118
Mete Celik, Shashi Shekhar, James P. Rogers, James A. Shine, Jin Soung Yoo:
Mixed-Drove Spatio-Temporal Co-occurence Pattern Mining: A Summary of Results. 119-128
Xin Chen, Chengcui Zhang:
An Interactive Semantic Video Mining and Retrieval Platform--Application in Transportation Surveillance Video for Incident Detection. 129-138
James Cheng, Yiping Ke, Wilfred Ng:
delta-Tolerance Closed Frequent Itemsets. 139-148
Matt Culver, Kun Deng, Stephen D. Scott:
Active Learning to Maximize Area Under the ROC Curve. 149-158
Bing Tian Dai, Nick Koudas, Beng Chin Ooi, Divesh Srivastava, Suresh Venkatasubramanian:
Rapid Identification of Column Heterogeneity. 159-170
Jeroen S. de Bruin, Tim K. Cocx, Walter A. Kosters, Jeroen F. J. Laros, Joost N. Kok:
Data Mining Approaches to Criminal Career Analysis. 171-177
Chris H. Q. Ding, Ya Zhang, Tao Li, Stephen R. Holbrook:
Biclustering Protein Complex Interactions with a Biclique Finding Algorithm. 178-187
Mohamed G. Elfeky, Walid G. Aref, Ahmed K. Elmagarmid:
STAGGER: Periodicity Mining of Data Streams Using Expanding Sliding Windows. 188-199
Byron J. Gao, Martin Ester:
Turning Clusters into Patterns: Rectangle-Based Discriminative Data Description. 200-211
Jing Gao, Pang-Ning Tan:
Converting Output Scores from Outlier Detection Algorithms into Probability Estimates. 212-221
Michele Gorgoglione, Cosimo Palmisano, Alexander Tuzhilin:
Personalization in Context: Does Context Matter When Building Personalized Customer Models? 222-231
Gunjan Gupta, Joydeep Ghosh:
Bregman Bubble Clustering: A Robust, Scalable Framework for Locating Multiple, Dense Regions in Data. 232-243
Robert Gwadera, Aristides Gionis, Heikki Mannila:
Optimal Segmentation Using Tree Models. 244-253
Eveline Hoekx, Jan Van den Bussche:
Mining for Tree-Query Associations in a Graph. 254-264
Chun-Nan Hsu, Han-Shen Huang, Bo-Hou Yang:
Global and Componentwise Extrapolation for Accelerating Data Mining from Large Incomplete Data Sets with the EM Algorithm. 265-274
Chong Huang, YongHong Tian, Zhi Zhou, Charles X. Ling, Tiejun Huang:
Keyphrase Extraction Using Semantic Networks Structure Analysis. 275-284
Shen Huang, Jian-Tao Sun, Xuanhui Wang, Hua-Jun Zeng, Zheng Chen:
Subjectivity Categorization of Weblog with Part-of-Speech Based Smoothing. 285-294
Xiangji Huang, Yan Rui Huang, Miao Wen, Aijun An, Yang Liu, Josiah Poon:
Applying Data Mining to Pseudo-Relevance Feedback for High Performance Text Retrieval. 295-306
Tianyi Jiang, Alexander Tuzhilin:
Improving Personalization Solutions through Optimal Segmentation of Customer Bases. 307-318
Wei Jiang, Maurizio Atzori:
Secure Distributed k-Anonymous Pattern Mining. 319-329
Toshihiro Kamishima, Shotaro Akaho:
Dimension Reduction for Supervised Ordering. 330-339
Hisashi Kashima, Naoki Abe:
A Parameterized Probabilistic Model of Network Evolution for Supervised Link Prediction. 340-349
Guoliang Li, Jianhua Feng, Jianyong Wang, Yong Zhang, Lizhu Zhou:
Incremental Mining of Frequent Query Patterns from XML Queries for Caching. 350-361
Tao Li, Chris H. Q. Ding:
The Relationships Among Various Nonnegative Matrix Factorization Methods for Clustering. 362-371
Tao Li, Mitsunori Ogihara, Shenghuo Zhu:
Integrating Features from Different Sources for Music Information Retrieval. 372-381
Chao Liu, Zeng Lian, Jiawei Han:
How Bayesians Debug. 382-393
Keith Marsolo, Srinivasan Parthasarathy:
On the Use of Structure and Sequence-Based Features for Protein Classification and Retrieval. 394-403
Arpit Mathur, Soumen Chakrabarti:
Accelerating Newton Optimization for Log-Linear Models through Feature Redundancy. 404-413
Gabriela Moise, Jörg Sander, Martin Ester:
P3C: A Robust Projected Clustering Algorithm. 414-425
H. D. K. Moonesinghe, Samah Jamal Fodeh, Pang-Ning Tan:
Frequent Closed Itemset Mining Using Prefix Graphs with an Efficient Flow-Based Pruning Strategy. 426-435
Wang Kay Ngai, Ben Kao, Chun Kit Chui, Reynold Cheng, Michael Chau, Kevin Y. Yip:
Efficient Clustering of Uncertain Data. 436-445
Peter Owotoki, Natasa Manojlovic, Friedrich Mayer-Lindenberg, Erik Pasche:
A Data Mining Approach for Capacity Building of Stakeholders in Integrated Flood Management. 446-455
Spiros Papadimitriou, Jimeng Sun, Philip S. Yu:
Local Correlation Tracking in Time Series. 456-465
Nishith Pathak, Sandeep Mane, Jaideep Srivastava:
Who Thinks Who Knows Who? Socio-cognitive Analysis of Email Networks. 466-477
Yaling Pei, Osmar R. Zaïane, Yong Gao:
An Efficient Reference-Based Approach to Outlier Detection in Large Datasets. 478-487
Roberto Perdisci, Guofei Gu, Wenke Lee:
Using an Ensemble of One-Class SVM Classifiers to Harden Payload-based Anomaly Detection Systems. 488-498
Christine Preisach, Lars Schmidt-Thieme:
Relational Ensemble Classification. 499-509
Deepak Rajan, Philip S. Yu:
Discovering Partial Orders in Binary Data. 510-521
Chandan K. Reddy, Hsiao-Dong Chiang, Bala Rajaratnam:
Stability Region Based Expectation Maximization for Model-based Clustering. 522-531
Manjeet Rege, Ming Dong, Farshad Fotouhi:
Co-clustering Documents and Words Using Bipartite Isoperimetric Graph Partitioning. 532-541
M. Mahdi Shafiei, Evangelos E. Milios:
Latent Dirichlet Co-Clustering. 542-551
Dou Shen, Jian-Tao Sun, Qiang Yang, Zheng Chen:
Latent Friend Mining from Blog Data. 552-561
Mahesh Shrestha, Howard J. Hamilton, Yiyu Yao, Ken Konkel, Liqiang Geng:
The PDD Framework for Detecting Categories of Peculiar Data. 562-571
Parag Singla, Pedro Domingos:
Entity Resolution with Markov Logic. 572-582
Ping Sun, Xin Yao:
Boosting Kernel Models for Regression. 583-591
Yanmin Sun, Mohamed S. Kamel, Yang Wang:
Boosting for Learning Multiple Classes with Imbalanced Class Distribution. 592-602
Nikolaj Tatti, Taneli Mielikäinen, Aristides Gionis, Heikki Mannila:
What is the Dimension of Your Binary Data? 603-612
Hanghang Tong, Christos Faloutsos, Jia-Yu Pan:
Fast Random Walk with Restart and Its Applications. 613-622
Ken Ueno, Xiaopeng Xi, Eamonn J. Keogh, Dah-Jye Lee:
Anytime Classification Using the Nearest Neighbor Algorithm with Applications to Stream Mining. 623-632
Atulya Velivelli, Thomas S. Huang:
Dirichlet Aspect Weighting: A Generalized EM Algorithm for Integrating External Data Fields with Semantically Structured Queries by Using Gradient Projection Method. 633-644
Adriano Veloso, Wagner Meira Jr., Mohammed J. Zaki:
Lazy Associative Classification. 645-654
Florian Verhein, Sanjay Chawla:
Geometrically Inspired Itemset Mining. 655-666
Olivier Verscheure, Michail Vlachos, Aris Anagnostopoulos, Pascal Frossard, Eric Bouillet, Philip S. Yu:
Finding "Who Is Talking to Whom" in VoIP Networks via Progressive Stream Clustering. 667-677
Nikil Wale, George Karypis:
Comparison of Descriptor Spaces for Chemical Compound Retrieval and Classification. 678-689
Li Wang, Michael D. Gordon, Ji Zhu:
Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning. 690-700
Peng Wang, Haixun Wang, Wei Wang, Baile Shi, Philip S. Yu:
LOCI: Load Shedding through Class-Preserving Data Acquisition. 701-710
Li Wei, Eamonn J. Keogh, Xiaopeng Xi:
SAXually Explicit Images: Finding Unusual Shapes. 711-720
Jun Yan, Ning Liu, Benyu Zhang, Qiang Yang, Shuicheng Yan, Zheng Chen:
A Novel Scalable Algorithm for Supervised Subspace Learning. 721-730
Ji Zhang, Qigang Gao, Hai H. Wang:
A Novel Method for Detecting Outlying Subspaces in High-dimensional Databases Using Genetic Algorithm. 731-740
Kun Zhang, Wei Fan, Bill P. Buckles, Xiaojing Yuan, Zujia Xu:
Discovering Unrevealed Properties of Probability Estimation Trees: On Algorithm Selection and Performance Explanation. 741-752
Kun Zhang, Wei Fan, Xiaojing Yuan, Ian Davidson, Xiangshang Li:
Forecasting Skewed Biased Stochastic Ozone Days: Analyses and Solutions. 753-764
Shichao Zhang, Jilian Zhang, Xiaofeng Zhu, Zifang Huang:
Identifying Follow-Correlation Itemset-Pairs. 765-774
Zhenjie Zhang, Bing Tian Dai, Anthony K. H. Tung:
On the Lower Bound of Local Optimums in K-Means Algorithm. 775-786

Short Papers

Fabio Aiolli, Giovanni Da San Martino, Alessandro Sperduti, Alessandro Moschitti:
Fast On-line Kernel Learning for Trees. 787-791
Sujeevan Aseervatham, Aomar Osmani, Emmanuel Viennet:
bitSPADE: A Lattice-based Sequential Pattern Mining Algorithm Using Bitmap Representation. 792-797
Suhrid Balakrishnan, David Madigan:
Decision Trees for Functional Variables. 798-802
Shenghua Bao, Yunbo Cao, Bing Liu, Yong Yu, Hang Li:
Mining Latent Associations of Objects Using a Typed Mixture Model--A Case Study on Expert/Expertise Mining. 803-807
Stephan Bloehdorn, Roberto Basili, Marco Cammisa, Alessandro Moschitti:
Semantic Kernels for Text Classification Based on Topological Measures of Feature Similarity. 808-812
Vania Bogorny, João Francisco Valiati, Sandro da Silva Camargo, Paulo Martins Engel, Bart Kuijpers, Luis Otávio Alvares:
Mining Maximal Generalized Frequent Geographic Patterns with Knowledge Constraints. 813-817
Karsten M. Borgwardt, Hans-Peter Kriegel, Peter Wackersreuther:
Pattern Mining in Frequent Dynamic Subgraphs. 818-822
Huiping Cao, Nikos Mamoulis, David W. Cheung:
Discovery of Collocation Episodes in Spatiotemporal Data. 823-827
Rich Caruana, Art Munson, Alexandru Niculescu-Mizil:
Getting the Most Out of Ensemble Selection. 828-833
Jilin Chen, Jun Yan, Benyu Zhang, Qiang Yang, Zheng Chen:
Diverse Topic Phrase Extraction through Latent Semantic Analysis. 834-838
Hong Cheng, Philip S. Yu, Jiawei Han:
AC-Close: Efficiently Mining Approximate Closed Itemsets by Core Pattern Recovery. 839-844
Frank DiMaio, Jude W. Shavlik:
Belief Propagation in Large, Highly Connected Graphs for 3D Part-Based Object Recognition. 845-850
Wei Ding, Christoph F. Eick, Jing Wang, Xiaojing Yuan:
A Framework for Regional Association Rule Mining in Spatial Datasets. 851-856
Pavel Dmitriev, Carl Lagoze:
Mining Generalized Graph Patterns Based on User Examples. 857-862
François Fouss, Luh Yen, Alain Pirotte, Marco Saerens:
An Experimental Investigation of Graph Kernels on a Collaborative Recommendation Task. 863-868
Gabriel Pui Cheong Fung, Jeffrey Xu Yu, Haixun Wang, David W. Cheung, Huan Liu:
A Balanced Ensemble Approach to Weighting Classifiers for Text Classification. 869-873
Murat Can Ganiz, Sudhan Kanitkar, Mooi Choo Chuah, William M. Pottenger:
Detection of Interdomain Routing Anomalies Based on Higher-Order Path Analysis. 874-879
Bin Gao, Tie-Yan Liu, Wei-Ying Ma:
Star-Structured High-Order Heterogeneous Data Co-clustering Based on Consistent Information Theory. 880-884
Huahai He, Ambuj K. Singh:
GraphRank: Statistical Modeling and Mining of Significant Subgraphs in the Feature Space. 885-890
Olivier Henchiri, Nathalie Japkowicz:
A Feature Selection and Evaluation Scheme for Computer Virus Detection. 891-895
Shoji Hirano, Shusaku Tsumoto:
Cluster Analysis of Time-Series Medical Data Based on the Trajectory Representation and Multiscale Comparison Techniques. 896-901
Jin Huang, Charles X. Ling:
Constructing Ensembles for Better Ranking. 902-906
Robert Jäschke, Andreas Hotho, Christoph Schmitz, Bernhard Ganter, Gerd Stumme:
TRIAS - An Algorithm for Mining Iceberg Tri-Lattices. 907-911
Eamonn J. Keogh, Li Wei, Xiaopeng Xi, Stefano Lonardi, Jin Shieh, Scott Sirowy:
Intelligent Icons: Integrating Lite-Weight Data Mining and Visualization into GUI Operating Systems. 912-916
Hans-Peter Kriegel, Alexey Pryakhin, Matthias Schubert, Arthur Zimek:
COSMIC: Conceptually Specified Multi-Instance Clusters. 917-921
Yi-Ting Lai, Ke Wang, Daymond Ling, Hua Shi, Jason Zhang:
Direct Marketing When There Are Voluntary Buyers. 922-927
Carson Kai-Sang Leung, Quamrul I. Khan:
DSTree: A Tree Structure for the Mining of Frequent Sets from Data Streams. 928-932
Guichong Li, Howard J. Hamilton:
Searching for Pattern Rules. 933-937
Hua Li, Dou Shen, Benyu Zhang, Zheng Chen, Qiang Yang:
Adding Semantics to Email Clustering. 938-942
Jun Li, Haofeng Zhou, Wei Wang:
Gradual Cube: Customize Profile on Mobile OLAP. 943-947
Rui Li, Shenghua Bao, Jin Wang, Yong Yu, Yunbo Cao:
CoMiner: An Effective Algorithm for Mining Competitors from the Web. 948-952
Yuefeng Li, Wanzhong Yang, Yue Xu:
Multi-Tier Granule Mining for Representations of Multidimensional Association Rules. 953-958
Louis Licamele, Lise Getoor:
Social Capital in Friendship-Event Networks. 959-964
Xu-Ying Liu, Jianxin Wu, Zhi-Hua Zhou:
Exploratory Under-Sampling for Class-Imbalance Learning. 965-969
Xu-Ying Liu, Zhi-Hua Zhou:
The Influence of Class Imbalance on Cost-Sensitive Learning: An Empirical Study. 970-974
Ning Liu, Shuzhen Nong, Jun Yan, Benyu Zhang, Zheng Chen, Ying Li:
Similarity of Temporal Query Logs Based on ARIMA Model. 975-979
Vebjorn Ljosa, Ambuj K. Singh:
Probabilistic Segmentation and Analysis of Horizontal Cells. 980-985
Yi Lu, Shiyong Lu, Adrian E. Platts, Stephen A. Krawetz:
Mining Correlation between Motifs and Gene Expression. 986-990
Hassan H. Malik, John R. Kender:
High Quality, Efficient Hierarchical Document Clustering Using Closed Interesting Itemsets. 991-996
Sameep Mehta, Srinivasan Parthasarathy, Raghu Machiraju:
On Trajectory Representation for Scientific Features. 997-1001
Marc-André Mittermayer, Gerhard Knolmayer:
NewsCATS: A News Categorization and Trading System. 1002-1007
Byung-Won On, Ergin Elmacioglu, Dongwon Lee, Jaewoo Kang, Jian Pei:
Improving Grouped-Entity Resolution Using Quasi-Cliques. 1008-1015
Chang-Shing Perng, Haixun Wang, Sheng Ma:
Fast Relevance Discovery in Time Series. 1016-1020
Rodolphe Priam, Mohamed Nadif:
Probabilistic Enhanced Mapping with the Generative Tabular Model. 1021-1025
Steffen Rendle, Lars Schmidt-Thieme:
Object Identification with Constraints. 1026-1031
Binyamin Rosenfeld, Ronen Feldman:
High-Performance Unsupervised Relation Extraction from Large Corpora. 1032-1037
Asharaf S, M. Narasimha Murty, Shirish Krishnaj Shevade:
Cluster Based Core Vector Machine. 1038-1042
Shady Shehata, Fakhri Karray, Mohamed S. Kamel:
Enhancing Text Clustering Using Concept-based Mining Model. 1043-1048
Guoyang Shen, Bin Gao, Tie-Yan Liu, Guang Feng, Shiji Song, Hang Li:
Detecting Link Spam Using Temporal Information. 1049-1053
Shirish Krishnaj Shevade, Wei Chu:
Minimum Enclosing Spheres Formulations for Support Vector Ordinal Regression. 1054-1058
Kelvin Sim, Jinyan Li, Vivekanand Gopalkrishnan, Guimei Liu:
Mining Maximal Quasi-Bicliques to Co-Cluster Stocks and Financial Ratios for Value Investment. 1059-1063
Yang Song, Ding Zhou, Jian Huang, Isaac G. Councill, Hongyuan Zha, C. Lee Giles:
Boosting the Feature Space: Text Classification for Unstructured Data on the Web. 1064-1069
Daria Sorokina, Johannes Gehrke, Simeon Warner, Paul Ginsparg:
Plagiarism Detection in arXiv. 1070-1075
Jimeng Sun, Spiros Papadimitriou, Philip S. Yu:
Window-based Tensor Analysis on High-dimensional and Multi-aspect Streams. 1076-1080
Ruchaneewan Susomboon, Daniela Stan Raicu, Jacob D. Furst, David S. Channin:
Automatic Single-Organ Segmentation in Computed Tomography Images. 1081-1086
Muhammad Atif Tahir, Jim E. Smith:
Improving Nearest Neighbor Classifier Using Tabu Search and Ensemble Distance Metrics. 1086-1090
Zhouxuan Teng, Wenliang Du:
Comparisons of K-Anonymization and Randomization Schemes under Linking Attacks. 1091-1096
Lini T. Thomas, Satyanarayana R. Valluri, Kamalakar Karlapalem:
MARGIN: Maximal Frequent Subgraph Mining. 1097-1101
Deepak S. Turaga, Olivier Verscheure, Upendra V. Chaudhari, Lisa Amini:
Resource Management for Networked Classifiers in Distributed Stream Mining Systems. 1102-1107
Soujanya Vadapalli, Satyanarayana R. Valluri, Kamalakar Karlapalem:
A Simple Yet Effective Data Clustering Algorithm. 1108-1112
Peter Vorburger, Abraham Bernstein:
Entropy-based Concept Shift Detection. 1113-1118
Fei Wang, Sheng Ma, Liuzhong Yang, Tao Li:
Recommendation on Item Graphs. 1119-1123
Gang Wang, Tao Chen, Dit-Yan Yeung, Frederick H. Lochovsky:
Solution Path for Semi-Supervised Classification with Manifold Regularization. 1124-1129
Meng Wang, Xian-Sheng Hua, Yan Song, Li-Rong Dai, HongJiang Zhang:
Semi-Supervised Kernel Regression. 1130-1135
Yi Wang, Lizhu Zhou, Jianhua Feng, Jianyong Wang, Zhi-Qiang Liu:
Mining Complex Time-Series Data by Learning Markovian Models. 1136-1140
Brent Wenerstrom, Christophe G. Giraud-Carrier:
Temporal Data Mining in Dynamic Feature Spaces. 1141-1145
Man Leung Wong, Yuan Yuan Guo:
Discover Bayesian Networks from Incomplete Data Using a Hybrid Evolutionary Algorithm. 1146-1150
Adam Woznica, Alexandros Kalousis, Melanie Hilario:
Distances and (Indefinite) Kernels for Sets of Objects. 1151-1156
Sheng-Tang Wu, Yuefeng Li, Yue Xu:
Deploying Approaches for Pattern Refinement in Text Mining. 1157-1161
Hui Xiong, Mark Brodie, Sheng Ma:
TOP-COP: Mining TOP-K Strongly Correlated Pairs in Large Databases. 1162-1166
Dragomir Yankov, Eamonn J. Keogh:
Manifold Clustering of Shapes. 1167-1171
Dimitrios Zeimpekis, Efstratios Gallopoulos:
Linear and Non-Linear Dimensional Reduction via Class Representatives for Text Classification. 1172-1177
Daoqiang Zhang, Zhi-Hua Zhou, Songcan Chen:
Adaptive Kernel Principal Component Analysis with Unsupervised Learning of Kernels. 1178-1182
Jianping Zhang, Manu Shukla:
Rule-Based Platform for Web User Profiling. 1183-1187
Jianting Zhang, Le Gruenwald:
Opening the Black Box of Feature Extraction: Incorporating Visualization into High-Dimensional Data Mining Processes. 1188-1192
Xiaodan Zhang, Xiaohua Zhou, Xiaohua Hu:
Semantic Smoothing for Model-based Document Clustering. 1193-1198
Yan Zhang, Xingquan Zhu, Xindong Wu:
Corrective Classification: Classifier Ensembling with Corrective and Diverse Base Learners. 1199-1204
Jianjun Zhou, Jörg Sander:
Speedup Clustering with Hierarchical Ranking. 1205-1210
Zhi-Hua Zhou, Hong-Bin Dai:
Query-Sensitive Similarity Measure for Content-Based Image Retrieval. 1211-1215