Maximum Information Extraction From Noisy Data Via Shannon Entropy Minimization

Becchi, Matteo; Pavan, Giovanni Maria

Physics > Data Analysis, Statistics and Probability

arXiv:2504.12990 (physics)

[Submitted on 17 Apr 2025 (v1), last revised 22 Apr 2025 (this version, v3)]

Title:Maximum Information Extraction From Noisy Data Via Shannon Entropy Minimization

Authors:Matteo Becchi (1), Giovanni Maria Pavan (1) ((1) Politecnico di Torino, Dipartimento di Scienze Applicate e Tecnologia)

View PDF HTML (experimental)

Abstract:Granting maximum information extraction in the analysis of noisy data is non-trivial. We introduce a general, data-driven approach that employs Shannon entropy as a transferable metric to quantify the maximum information extractable from noisy data via their clustering into statistically-relevant micro-domains. We demonstrate the method's efficiency by analyzing, as a first example, time-series data extracted from molecular dynamics simulations of water and ice coexisting at the solid/liquid transition temperature. The method allows quantifying the information contained in the data distributions (time-independent component) and the additional information gain attainable by analyzing data as time-series (i.e., accounting for the information contained in data time-correlations). A second test case shows how the MInE approach is also highly effective for high-dimensional datasets, providing clear demonstrations of how, e.g., considering components/data that are little informative, but noisy, may be not only useless but even detrimental to maximum information extraction. This provides a general and robust parameter-free approach and quantitative metrics for data-analysis, and for the study of any type of system from its data.

Comments:	Main text 7 pages, 3 figures; Supplemental Materials 3 pages, 3 figures. v3: abstract improved
Subjects:	Data Analysis, Statistics and Probability (physics.data-an)
Cite as:	arXiv:2504.12990 [physics.data-an]
	(or arXiv:2504.12990v3 [physics.data-an] for this version)
	https://doi.org/10.48550/arXiv.2504.12990

Submission history

From: Matteo Becchi [view email]
[v1] Thu, 17 Apr 2025 14:54:46 UTC (1,730 KB)
[v2] Fri, 18 Apr 2025 12:44:56 UTC (1,730 KB)
[v3] Tue, 22 Apr 2025 14:01:56 UTC (1,730 KB)

Physics > Data Analysis, Statistics and Probability

Title:Maximum Information Extraction From Noisy Data Via Shannon Entropy Minimization

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Physics > Data Analysis, Statistics and Probability

Title:Maximum Information Extraction From Noisy Data Via Shannon Entropy Minimization

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators