Los 5 mejores programas gratuitos de minería de datos para Windows

Aquí hay una lista de los mejores programas gratuitos de minería de datos para Windows. Este software se utiliza para realizar diversas operaciones de minería de datos con el fin de extraer información útil de los conjuntos de datos. Los formatos de archivo admitidos para importar conjuntos de datos incluyen archivos CSV, ARFF, DATA, TXT, XLS, etc. La mayoría de estos proporcionan un conjunto de archivos de conjuntos de datos de muestra que puede importar para su análisis.

En términos de operaciones, estas le permiten realizar manipulación, clasificación, asociación, regresión, agrupación, modelado y visualización de datos. Cada uno de estos proporciona varios algoritmos para respaldar las tareas respectivas. Por ejemplo, para agrupación en clústeres, puede utilizar algoritmos K-Means, Kohonen-SOM, LVQ, Neighborhood Graph,, etc. Para la Asociación, puede aplicar A priori, A priori MR, A priori PT, Assoc Outlier, Frequent Itemsets, etc. normas. Para Visualización de datos, Diagramas de dispersión, Diagrama de caja, Distribución, Mapa de calor, etc. los métodos pueden ser nosotrosed, y así sucesivamente. Uno de ellos es un software de minería de datos de texto que le permite analizar datos de texto utilizando varios métodos.

Los resultados se pueden ver en la interfaz y también se pueden guardar como informes en diferentes formatos. En general, se trata de un buen software que puede utilizar para tareas de minería de datos de forma gratuita.

Mi software de minería de datos favorito para Windows:

Me gustó bastante Weka, ya que proporciona todas las herramientas suficientes para realizar tareas primarias de extracción de datos. Tampoco es tan difícil de usar. Orange también es bueno para los profesionales, ya que proporciona un enfoque único para realizar operaciones de extracción de datos mediante el uso de widgets.

Weka

Weka es un software de minería de datos gratuito y de código abierto para Windows, Mac y Linux. Contiene todas las herramientas esenciales requeridas en las tareas de minería de datos. Su interfaz principal se divide en diferentesaplicaciones ent que le permiten realizar varias tareas que incluyen preparación de datos, clasificación, regresión, agrupación, minería de reglas de asociación y visualización. Obtiene varias técnicas y algoritmos para realizar estas tareas. Veamos sus características principales:

Minería de datos con Weka:

Estas son las aplicaciones que dividen las tareas de minería de datos en secciones fácilmente manejables:

  • Explorer: esta aplicación se utiliza para el procesamiento previo de datos, clasificación de datos, agrupación de datos, asociación y visualización de datos. Puede abrir archivos de datos en varios formatos, incluidos arff, datos, CSV, JSON, archivos Matlab ASCII, dat,, etc. También puede abrir un conjunto de instancias desde una URL o una base de datos. También proporciona una herramienta llamada DataGenerator para generar datos artificiales. Se pueden elegir varias reglas de clasificador, incluidas DecisionTable, OneR, PART, ZeroR, etc. EM, Canopy, Cobweb, FarthestFirst, FilteredClusterer, HierarchicalClusterer, SimpleKMeans, etc. Los algoritmos de agrupamiento están disponibles para seleccionar. Se pueden usar reglas de asociación que incluyen Apriori, FilteredAssociator y FPGrowth. Proporciona una pestaña llamada Seleccionar atributos que básicamente evalúa la relevancia de los atributos. Para ello, puede seleccionar un evaluador de atributos (CfsSubsetEval, ClassifierAttributeEval, OneRAttributeEval, InfoGainAttributeEval, etc.) y un método (GreedyStepwise, BestFirst, Ranker). El resultado respectivo se muestra en las pestañas respectivas para cada una de las tareas antes mencionadas.
  • KnowledgeFlow: realiza los mismos procesos de extracción de datos que se mencionan en Explorer, pero con más herramientas. Maneja datos de forma incremental o por lotes. Algunas de sus características incluyen: filtrar en cadena juntos, mostrar modelos producidos por clasificadores para cada pliegue en una validación cruzada y visualizar el rendimiento de los clasificadores incrementales durante el procesamiento. Aquí, también obtienes numerososs métodos de visualización de datos que incluyen Visor de texto, Visor de imágenes, Resumen de atributos, Gráfico de franjas, Gráfico de rendimiento del modelo, Trazador de límites, Matriz de gráficos de dispersión, Visor de gráficos y Análisis de costo-beneficio.
  • Experimentador: con esta aplicación, puede crear, ejecutar y analizar experimentos de diferentes tipos, incluidos validación cruzada, división de porcentaje de entrenamiento/prueba, resultado de división aleatoria, resultado de tasa de aprendizaje, etc. Puede definir un conjunto de datos, especificar controles de iteración y elegir un algoritmo para realizar el experimento.

También se proporciona una aplicación Workbench que se utiliza para realizar las mismas tareas que se mencionan en las aplicaciones anteriores.

En general, es un buen software gratuito de minería de datos. Tampoco es tan difícil de operar, pero si aún tiene dificultades, puede consultar este videotutorial para verlo en detalleexplicaciones de tareas.

Página de inicio Página de descarga

Naranja

Orange es otro software de extracción de datos gratuito y de código abierto para Windows. Proporciona varias herramientas para la manipulación de datos, el modelado de datos, la visualización de datos y el análisis de datos. Divide estas tareas en diferentes categorías para realizarlas fácilmente.

Características de naranja:

  • Datos: Proporciona tHerramientas para la manipulación de datos. Las principales herramientas proporcionadas aquí son Pintar datos, Muestreador de datos, Clasificar y filtrar datos, Combinar conjuntos de datos, Transponer tabla de datos, Aleatorizar, Continuar, Constructor de características, Purgar dominio, Discretizar, Valores atípicos, etc.
  • Visualizar: aquí puede realizar la visualización de datos. Puede visualizar datos utilizando varios métodos, incluidos Visor de árbol, Diagrama de caja, Distribución, Diagrama de dispersión, Diagrama de tamiz, Proyección FreeViz, Proyección lineal, Radviz, Mapa de calor, Diagrama de Venn, Diagrama SIlhoutte, Visualización de árbol pitagórico, Nomograma, etc.
  • Modelo: Obtiene varios modelos para la tarea de modelado y predicción de datos. Estos incluyen Inducción de regla CN2, Constante, Regresión lineal, Regresión logística, Naive Bayes, AdaBoost, Red neuronal, Descenso de gradiente estocástico, etc.
  • Evaluar: desde aquí, puede evaluar el rendimiento de clasificación o regresión utilizando varias técnicas de estimación como Prueba y puntuación, predicciones, matriz de confusión, análisis ROC, curva de elevación y gráfico de calibración.
  • Minería de texto: Contiene herramientas de análisis y minería de texto como preprocesamiento de texto, minería de texto de Twitter, minería de texto de Wikipedia, análisis de sentimiento, bolsa de palabras, etc.
  • Sin supervisión: este módulo se utiliza para el aprendizaje no supervisado que proporciona herramientas para leer distancias de archivos, ver matriz de distancias, agrupamiento jerárquico, análisis de correspondencia, escalado multidimensional, aprendizaje múltiple,etc.

Cómo utilizar Naranja:

Para trabajar con este software, necesita usar varias herramientas como widgets. Para crear widgets, puede arrastrar herramientas desde el panel izquierdo y soltarlas en el lienzo. Por ejemplo, para importar un conjunto de datos, arrastre y suelte la herramienta Archivo en el lienzo. Puede conectar un widget a otro para realizar la tarea respectiva en el conjunto de datos y ver los resultados respectivos. Aquí hay un videotutorial rápido para comience a usar este software.

Este es otro buen software de minería de datos que se proporciona de forma gratuita.

Página de inicio Página de descarga

Tanagra

Tanagra es otro software gratuito de extracción de datos para Windows. Te permite realizar diferentes operaciones de minería de datos.complementos Estas operaciones incluyen asociación, regresión, agrupamiento, aprendizaje de spv, aprendizaje de meta-spv, estadísticas, estadísticas no paramétricas, análisis factorial, PLS, evaluación de aprendizaje de spv y visualización de datos. Todas estas tareas de minería de datos se pueden realizar utilizando varios algoritmos y técnicas relacionadas. Primero, le permite importar conjuntos de datos en TXT, ARFF y XLS y crear un diagrama de minería de datos con ellos. A continuación, puede utilizar cualquiera de las operaciones de minería de datos antes mencionadas para extraer información útil. El diagrama de minería de datos puede copiarse como una imagen o guardarse como diagrama de minería de datos de texto (tdm) o diagrama de minería de datos binarios (bdm). Un informe de resultados HTML también se puede guardar localmente.

Veamos cuáles son los algoritmos que obtienes para realizar una tarea de minería de datos en él:

  • Asociación: A priori, A priori MR, A priori PT, Assoc Outlier, Frequent Itemsets, Spv Assoc Rule, Spv Assoc Tree.
  • Regresión: Registro de eliminación hacia atrás, C-RT Regression Tree, DfBetas, Epsilon SVR, regresión de entrada directa, regresión lineal múltiple, Nu SVR, detección de valores atípicos, evaluación de regresión, árbol de regresión, regresión simultánea.
  • Clustering: CT, CTP, EM-Clustering, EM-Selection, HAC, K-Means, Kohonen-SOM, LVQ, Neighborhood Graph, VARCLUS, VARHCA, VARKMignifica.
  • Visualización de datos: Gráfica de dispersión de correlación, Exportar conjunto de datos, Gráfica de dispersión, Gráfica de dispersión con etiquetas, Ver conjunto de datos, Ver múltiples gráficas de dispersión.
  • Aprendizaje de Spv: Regresión logística binaria, C4.5, C-PLS, C-RT, CS-CRT, CS-MC4, C-SVC, Lista de decisiones, ID3, K -NN, Análisis discriminante lineal, Log-Reg TRIRLS, Percepción multicapa, Regresión logística multinomial, Naive Bayes, Naive Bayes Continuous, PLS-DA, PLS-LDA, Prototype-NN, Radial Basis Function, Rnd Árbol, inducción de reglas, SVM.
  • Aprendizaje meta-spv: Arcing, Baggging, Boost, Cost Sensitivo Embolsado, aprendizaje sensible a las constantes, multicosto, aprendizaje supervisado.
  • Evaluación de aprendizaje de Spv: Descomposición de varianza de sesgo, Bootstrap, validación cruzada, prueba de Hosmer Lemeshow, dejar uno fuera, residuos de regresión logística, prueba, prueba de tren.
  • Estadísticas: ANOVA de bloques aleatorios, Test de Bartlett, Test de Box M, Test de Brown-Forsythe, Test de Fisher, Caracterización de grupos, Exploración de grupos, T2 de Hotelling, T2 de Hotelling Heteroscedástico, Levene Prueba, correlación lineal, más estadísticas continuas univariadas, prueba de normalidad, ANOVA unidireccional, MANOVA unidireccional, prueba T pareada, prueba V pareada, correlación parcial, correlación semiparcial, prueba T, prueba T de varianza desigual , estadísticas continuas univariadas, estadísticas discretas univariadas, detección de valores atípicos univariados, Welch ANOVA.
  • Estadísticas no paramétricas: Prueba de escala de Ansari-Bradley, r categórica, prueba Q de Cochran, chi-cuadrado de contingencia, ANOVA b de Friedmany Ranks, FYTH ANOVA de 1 vía, Goodman Krushkal Gamma, Goodman Krushkal Lambda, Goodman Krushkal Tau, Kendall Tau-b, Kendall Tau-c, Kendall’s tau, Kendall’s Concordance W, Klotz Scale Test, Kruskal-Wallis ANOVA de 1 vía, Prueba de 2 muestras K-S, comparación de Mann-Whitney, prueba de mediana, prueba de rachas de estado de ánimo, prueba de escala de estado de ánimo, U de Theil parcial, prueba de signos, d de Sommers, rho de Spearman, U de Theil, ANOVA de 1 vía de Van der Waerden, corridas de Wald-Wolfowitz Prueba, prueba de rangos con signos de Wilcoxon.
  • Análisis factorial: Análisis discriminante canónico, Análisis de correspondencias, Rotación de factores, Análisis de correspondencias múltiples, NIPALS, Análisis de componentes principales.
  • PLS: PLS Conf. Intervalo, factorial PLS, regresión PLS, selección PLS, PLSR.
  • Puntuación: List Curve, Posterior Prob, Precision-Roll Curve, Diagrama de confiabilidad, Roc Curve, Scoring.
  • Construcción de características: Binary Binning, Trend, Residual Scores, MDLPC, Cont to Disc, etc.

Proporciona bastantes herramientas para realizar tareas de minería de datos. Para comprenderlo más de cerca, puede consultar este videotutorial.

Página de inicio Página de descarga

Minería de datos NeoNeuro

NeoNeuro Data Mining es el próximo software de minería de datosen esta lista. Básicamente, permite el aprendizaje automático para varias tareas de agrupación en clústeres comunes y multidimensionales.

En él, puede abrir conjuntos de datos en formatos TXT, CSV, XLS, etc. También puede crear un nuevo conjunto de datos para realizar tareas relacionadas. Proporciona una sección de Cálculo que contiene opciones como Validación cruzada, Cálculo de series, etc. También proporciona una herramienta de Análisis para el análisis de datos que estima los parámetros más importantes y representa visualmente la influencia de cada valor paramétrico. También crea una fórmula de Excel que puede usar en sus procesos comerciales o investigaciones científicas. Consulte este videotutorial en caso de alguna dificultad para entenderlo.

Nota: Solo es gratuito para uso no comercial.

Página de inicio Página de descarga

khcoder

khcoder es básicamente un software de minería de datos de texto y se utiliza para el análisis de contenido cuantitativo. Proporciona una gran cantidad de herramientas de análisis que incluyen Asociación de palabras, Concordancia KWIC, Estadísticas descriptivas, Análisis de correspondencia, Escalado multidimensional, Análisis de conglomerados jerárquicos, Red de coincidencia, Mapa autoorganizado y Lista de frecuencia. También proporciona una herramienta Naive Bayes Classifier.

Se utiliza básicamente para el análisis de texto. Procesa archivos de texto y crea cantidad de oracionespárrafotokensmemolista de frecuenciafrecuencia de co-ocurrencia, etc. resultados. Puede agregar más complementos a este software para agregar más funciones a este software. Los resultados finales se pueden guardar en su formato nativo.

Página de inicio Página de descarga

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *