Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Mejora de la clasificación de los tumores del cáncer de pulmón basado en las propiedades estructurales y fisicoquímicas de las proteínas utilizando modelos de minería de datos
PLOS ONE: Mejora de la clasificación de los tumores del cáncer de pulmón basado en las propiedades estructurales y fisicoquímicas de las proteínas utilizando modelos de minería de datos

2013/1/21


Extracto

La detección de la divergencia entre los tumores oncogénicos juega un papel fundamental en el diagnóstico y la terapia del cáncer. Este trabajo de investigación se centra en el diseño de una estrategia computacional para predecir la clase de los tumores de cáncer de pulmón a partir de las propiedades estructurales y fisicoquímicas (1497 atributos) de las secuencias de proteínas obtenidos a partir de genes definidos por el análisis de microarrays. La metodología propuesta implicaba el uso de técnicas híbridas de selección de características (relación de ganancia y basada correlación evaluadores de subconjuntos con Selección de características incremental), seguido de la predicción de red bayesiana para discriminar los tumores de cáncer de pulmón como microcítico de pulmón (SCLC), de células no pequeñas del cáncer de pulmón ( NSCLC) y las clases comunes. Por otra parte, esta metodología elimina la necesidad de estrategias de limpieza de datos amplios sobre las propiedades de la proteína y reveló el conjunto óptimo y mínimo de características que contribuyeron a la clasificación de tumores de cáncer de pulmón con una precisión mejorada en comparación con trabajos anteriores. También se intentó predecir mediante el agrupamiento supervisado las posibles clusters en los datos de tumores de pulmón. Nuestros resultados revelaron que los algoritmos de agrupamiento supervisadas exhibieron un rendimiento deficiente en la diferenciación de las clases de tumores de pulmón. la selección de características híbridas identificó la distribución de disolvente accesibilidad, polarizabilidad y la hidrofobicidad como las características de más alto rango con la función de selección incremental y la predicción de red bayesiana óptima generación de la navaja de validación cruzada exactitud de 87,6%. Se espera que la categorización precisa de genes oncogénicos causan SCLC y NSCLC basado en las propiedades estructurales y fisicoquímicas de sus secuencias de proteínas para desentrañar la funcionalidad de las proteínas que son esenciales en el mantenimiento de la integridad genómica de una célula y también actúan como una fuente de información para el diseño de fármacos, la orientación propiedades de las proteínas esenciales y su composición que se determine que existe en los tumores de cáncer de pulmón

Visto:. Ramani RG, Jacob SG (2013) Mejora de la clasificación de los tumores del cáncer de pulmón basado en las propiedades estructurales y fisicoquímicas de proteínas usando Data Mining modelos. PLoS ONE 8 (3): e58772. doi: 10.1371 /journal.pone.0058772

Editor: Vladimir N. Uversky, University of South Florida College of Medicine, Estados Unidos de América

Recibido: Diciembre 22, 2012; Aceptado: 6 Febrero 2013; Publicado: Marzo 7, 2013

Derechos de Autor © 2013 Ramani, Jacob. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Esta investigación el trabajo es una parte del consejo de la India para la Educación técnica (AICTE), financiado por la India proyecto de investigación Promoción Esquema titulado "clasificador eficiente de los datos clínicos de vida (Parkinson, cáncer de mama y P53 mutantes) a través de análisis de relevancia función y clasificación" con los números de referencia 8023 /RID /RPS-56 /2010-11 y 200-62 /FIN /04/05/1624. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

tumores oncogénicos son la principal causa de muerte en todo el mundo con cáncer de pulmón que lleva el mayor número de víctimas mortales malignas [1] - [3]. El tabaquismo y consumo de tabaco, junto con diversos carcinógenos ambientales aumentan la susceptibilidad humana a esta dolencia mortal [4] - [5]. Polimorfismos genéticos relacionados con la desintoxicación de sustancias cancerígenas se han asociado con la formación de tumores de pulmón. Los tumores de pulmón han sido ampliamente categorizados como no microcítico de pulmón (NSCLC) que afecta a casi dos tercios de los pacientes con una baja tasa de supervivencia y microcítico de pulmón (SCLC), ambos de los cuales responde a diferentes formas de terapia [6] - [10]. Esto lleva a la necesidad de identificar con precisión las diferencias patológicas entre estos dos tipos de tumores.

patrones de expresión génica de análisis de microarrays permitieron a la sub-clasificación de los tipos de cáncer de pulmón que se relaciona con el grado de demarcación del tumor, y la naturaleza de la terapia víctima tasa de supervivencia [11] - [14]. Era un hecho establecido que la carcinogénesis de pulmón era un proceso que involucró cambios fenotípicos graduales que se produjeron como resultado de la activación de onco-gen y la desactivación de los genes supresores de tumores [8]. Los informes hasta ahora en la literatura no han logrado identificar ningún biomarcadores fiables para esta condición ya que los experimentos de laboratorio húmedo menudo consumen más tiempo, experiencia y el capital con retornos inseguro [1], [4] - [6]. Microarray tecnología se ha utilizado en el pasado reciente para detectar biomarcadores adecuados pero presentes metodologías eran más susceptibles a pasar por alto hechos posibles contenidos en muestras de tejido de pacientes [14]. Por lo tanto, la determinación de marcadores potenciales e informativos (diagnóstico y pronóstico), tanto del punto de vista biológico y molecular es muy esencial para estudiar y evaluar el carácter distintivo genético y molecular que caracteriza tumores y metástasis en los ganglios estadificación del tumor (TNM) en la carcinogénesis pulmonar para hacer posible un diagnóstico eficaz , y corroborar las estrategias terapéuticas.

En las empresas de investigación recientes, varios clasificadores y modelos de minería de datos se han utilizado que tenía como objetivo la clasificación apropiada de los tumores de cáncer de pulmón. Cuarenta y una muestras caracterizadas por 26 atributos calculados a partir de la relación masa-carga (m /z) y alturas de los picos de las proteínas identificadas por espectrometría de masas de las muestras de suero sanguíneo de cáncer de pulmón afectado y los pacientes no afectados se utilizó para entrenar a una clasificación y el árbol de regresión (CART) modelo [13]. Se utilizó la clasificación molecular de NSCLC basado en un enfoque de prueba del tren porcentaje de evaluar la fiabilidad de cDNA clasificaciones basadas en microarrays de no pequeñas de cáncer de pulmón de células humanas resecados (NSCLC) [14]. En la investigación adicional de clasificación y análisis discriminante lineal Artificial Neural Network de líneas celulares de cáncer de pulmón individuales (SCLC y NSCLC) se realizó sobre la base de marcadores de metilación del ADN [13]. Los resultados indicaron que el análisis de red neural artificial de los datos de la metilación del ADN era una técnica potencial para desarrollar métodos automatizados para la clasificación del cáncer de pulmón. En otro estudio de vectores de soporte de la máquina [14] fue utilizado en el análisis de la base de datos de expresión génica del cáncer de pulmón y los resultados proponen que el conocimiento previo incorporado en el cáncer de clasificación basado en los datos de expresión génica era esencial para mejorar la precisión de la clasificación. clasificación automática de las etapas del cáncer de pulmón TNM de los informes de patología de texto libre mediante una clasificación basada en reglas simbólica se intentó [15]. La metodología se evaluó en base a parámetros de precisión y matrices de confusión contra una base de datos de la estadificación equipo multidisciplinario de decisiones y un sistema de clasificación de texto basado en el aprendizaje de la máquina utilizando máquinas de vectores soporte.

La investigación actual se centra en un artículo muy reciente por Hosseinzadeh et.al [1] que tuvo como objetivo clasificar los tumores de cáncer de pulmón basados ​​en las propiedades estructurales y fisicoquímicas de las proteínas utilizando modelos de Bioinformática. Elegimos este documento por tres razones principales. (I) El trabajo es el más reciente y los datos están a disposición del público. (Ii) En la investigación participaron un montón de estrategias de limpieza de datos y pre-procesamiento que podrían evitarse. (Iii) Su trabajo consistía en unos supuestos en los datos obtenidos que no se ha adoptado en este trabajo. Además, el método propuesto en este trabajo fue capaz de generar una mayor precisión de clasificación para diferenciar entre tumores de cáncer de pulmón en base a propiedades de la proteína al tiempo que conserva los datos originales y la eliminación de los supuestos. Precisamente este documento hace las siguientes contribuciones: (a) El diseño de una nueva metodología con técnicas de selección de características híbridas para identificar las características óptimas de proteínas que distinguían entre los tumores de cáncer de pulmón con una mayor precisión. (B) eliminó la necesidad de depuración de los datos y los supuestos en importancia atributo. (C) características identificadas se cree que influyen en el diseño de fármacos que podrían dirigirse a la propiedad de proteínas que conducen a los tumores de cáncer de pulmón Contribuyendo.

Materiales y Métodos

Conjunto de datos

El conjunto de genes de enriquecimiento base de datos de análisis (GSEA db) [16] se utilizó para obtener los conjuntos de genes que contribuyeron al desarrollo de CPNM y CEP. Se obtiene a partir de la Enciclopedia de Kyoto de genes y genomas (KEGG) [17] conjuntos de genes. Un total de 84 genes [17] estaban presentes en el conjunto de genes SCLC, mientras que se encontraron 54 genes [17] contribuir a NSCLC. Con el fin de discriminar con precisión entre las dos clases de tumores, los genes que ocurren comúnmente en ambos tumores se colocaron en una clase diferente llamado COMÚN. La fuerza del conjunto de genes para el CPCP fue de 59, incluido el CPCNP 29 mientras que el conjunto de genes COMÚN resumió a 25. Las proteínas para cada grupo de genes se obtuvieron de la base de datos de tarjeta de genes [18] y las correspondientes secuencias de proteínas extraídas de la base de datos UniProt base de conocimientos [19]. Estas secuencias se guardan como archivo de texto y se cargaron en el servidor web PROFEAT [20] - [21] para calcular la propiedades estructurales y fisicoquímicas asociadas con la proteína. Un total de mil cuatrocientos noventa y siete atributos se calcula y se representa como Fi.jkl donde "L" representa el valor de descriptor y 'k' denota el descriptor mientras que 'j' indica la función y 'í' significó el grupo de funciones [ ,,,0],20] - [21]. Las características y sus anotaciones se han proporcionado como S1 Archivo. El conjunto completo de datos que comprende de 1497 características y 113 muestras de tumor [17] se cargaron a WEKA 3.7.7 software de aprendizaje automático [22] y el tipo de tumor se estableció a ser la clase de destino. El conjunto de datos pre-procesados ​​completa se proporciona como S2 de archivos. La variación en el tamaño de la muestra, en comparación con el trabajo anterior se atribuye a posibles updations en la base de datos. La metodología propuesta en este trabajo de investigación se describe en la siguiente sección

Propuesta Computacional Metodología

La metodología propuesta consta de dos fases:. La fase de entrenamiento y la fase de predicción. La fase de entrenamiento incorpora el proceso de preparación de datos, la función de selección y clasificación, mientras que la evaluación involucrados fase de predicción del modelo clasificador utilizando navaja prueba de validación cruzada basado en los parámetros de rendimiento [23] - [24]: Matthews coeficiente de correlación ( MCC) y exactitud. La representación esquemática de la metodología propuesta se da en la figura 1. La fase de preparación de datos incorporada categorización de los conjuntos de genes de entrada como SCLC, NSCLC y las clases comunes. Esto fue seguido por la selección de características híbrido con Selección de características incremental. Los modelos de clasificación A continuación, se construyen y se compararon para identificar la mejor técnica de predicción computacional que se realiza en la clasificación de tumores de pulmón utilizando la proteína propiedades estructurales y fisicoquímicas. Selección

Característica híbrido.

Característica el ranking presentado significativa características en el orden de su contribución a la categorización de las muestras en las diferentes clases de objetivos [25] - [28]. Dado que la mayoría de los algoritmos de selección de características se centraron en la clasificación de los atributos de acuerdo a su valor de significación, la responsabilidad de la elección de la restricción que limita a descansar con el usuario [29] - [31]. Por lo tanto, con el fin de automatizar el proceso de encontrar el mínimo conjunto de características aún óptima, los algoritmos de selección de características de clasificación fueron seguidos por correlación subconjunto evaluadores [32] que incluía características altamente correlacionadas con la clase y menos correlacionados entre sí. Dado que tanto el ranking y subconjuntos evaluadores fueron utilizados para obtener el conjunto de características óptimo, esto se denomina la estrategia de selección de características híbrido. La descripción de los métodos utilizados en esta investigación se detalla a continuación

Ganancia Relación Criterio

Ganancia criterio ratio [33] -.. [34], reveló la asociación entre un atributo y el valor de la clase , computándose principalmente de la ganancia de información utilizando los valores de entropía de información (INFOE) [35]. Después de haber obtenido el valor de la entropía H (S
R), y suponiendo 'F' para el conjunto de todas las características, y S
R para el conjunto de todos los registros, Valor (r, f) se toma como el valor de una instancia específica 'r & lt; $ & gt; \\ trama = "RG1" & lt; $ & gt; S 'para la función' f & lt; $ & gt; \\ trama = "RG1" & lt; $ & gt; F'. Ganancia de información para el atributo se calcula utilizando la ecuación (1) de la siguiente manera [35] :( 1)

Con el fin de calcular el valor intrínseco de una prueba, se adoptó la siguiente fórmula: (2)

el índice de ganancia de información [33] - [35] se calculó como la relación entre la ganancia de información y el valor intrínseco, de acuerdo con la ecuación (3) (3)

los atributos de este modo se clasifican en función de su rango en el orden decreciente de la puntuación relación de ganancia y se utilizaron para el método de SFC subconjunto Evaluador se describe a continuación.

Selección de correlación de funciones (SFC) subconjunto Evaluador.

la hipótesis CFS [36] sugirieron que las características más predictivos necesarios para tener una alta correlación con la clase de objetivo y menos relevante para otros atributos de predicción. La siguiente ecuación [36] - [37] registró el valor de una característica subconjunto S que consistía en características «k» (4), donde, fue el valor medio de todas las correlaciones de funciones de clasificación, y fue el valor promedio de todos feature- correlaciones de funciones. El criterio CFS [36] se define como sigue:

(5) ¿Dónde y las variables fueron referidos como correlaciones. Los atributos que retrataron a una alta correlación con la clase de destino y menos relevancia entre sí fueron elegidos como el mejor subconjunto de atributos.

Los atributos filtrados por el método del CFS subconjunto Evaluador se añadieron de forma incremental para identificar el conjunto óptimo de características que contribuyeron a la clasificación de tumores de pulmón. Esta metodología se informa a continuación.

incremental Selección de características.

El predictor atributos generado por el método del CFS subconjunto de atributos Evaluador (híbrido de función Selección) Relación de ganancia y más tarde fueron utilizados para incremental función de selección (IFS ) [38] - [39] para determinar el conjunto mínimo y óptimo de características. En la adición de cada función, un nuevo conjunto de características y se obtuvo el k
º conjunto de características podría ser declarado como (6)

Donde M denota el número total de subconjuntos de predicción. En la construcción de cada conjunto de características, el modelo predictor fue construido y probado a través de navaja método de validación cruzada. La MCC y la precisión de la validación cruzada se midió, lo que lleva a la formación de la tabla IFS con el número de características y de la precisión de clasificación que fueron capaces de generar. 'A
O' fue el mínimo y óptimo conjunto de características que logró el mayor MCC y precisión.

Con el fin de determinar el mejor modelo de clasificación para la clasificación de los tumores de pulmón [40], un total de cinco predicción de referencia técnicas a saber, Apoyo Vector Machine [29], Random Forest [1], el algoritmo de vecino más cercano [39], red bayesiana de aprendizaje [22] y el Comité aleatoria (clasificador Ensemble) [22] fueron analizados y comparados. Nuestros resultados confirmaron que el enfoque de red bayesiana genera una mayor precisión en la clasificación de tumores con el conjunto de características óptimo.

Aprendizaje red bayesiana.

La fase de aprendizaje en este enfoque incorpora el proceso de encontrar una red bayesiana apropiada [41] dado un conjunto de datos D más de R, donde R = {r
1, r
n}, n ≥1 fue el conjunto de variables de entrada. La tarea de clasificación consistió en clasificar a una variable V = V
0 se llama la variable de clase (CPNM /CEP /COMÚN) dado un conjunto de variables R = r
1. . . r
n. Un clasificador C: r → v es una función que asigna una instancia de "r" a un valor de 'v'. El clasificador se supo de un conjunto de datos D que consistía en muestras más (r, v) [42]. Una red bayesiana sobre un conjunto de variables R era una estructura de red B
s, un gráfico acíclico dirigido (DAG) sobre el conjunto de las variables R y un conjunto de tablas de probabilidad [43] fue dada por (7)

Cuando pa (r) fue el conjunto de padres de r en B
S y la red representa una distribución de probabilidad dada por la ecuación. (8) (8)

La inferencia a partir de la red bayesiana [41] - [43] fue asignar la categoría con la máxima probabilidad [44]. El Estimador simple con el método de búsqueda local K2 utilizando Bayes Score se utilizaron (parámetros por defecto) para la ejecución del algoritmo en WEKA 3.7.7 [22]. Los métodos de la agrupación se les informa acerca de la siguiente sección

Supervisó la agrupación

Supervisó la agrupación [45] -.. [47] se desvió de la agrupación sin supervisión en que se aplicó en los ejemplos ya categorizados con la objetivo principal de la detección de grupos que tenían alta densidad de probabilidad con respecto a una sola clase. Supervisó la agrupación requiere el número de grupos que se mantiene al mínimo, y los objetos se asignaron a grupos usando la noción de proximidad con respecto a una función dada distancia [48] - [49]. Supervisó la agrupación evaluó una técnica basada en la agrupación de los dos criterios siguientes [47] - [49]:


Clase de impurezas, la impureza (X):
Se mide por el porcentaje de ejemplos marginales en los diferentes grupos de una agrupación X. un ejemplo marginal fue un ejemplo que pertenecía a una clase diferente de la clase más frecuente en su clúster.

el número de racimos, k.

en esta investigación hemos comparado las clases a agruparse exactitud evaluación de siete algoritmos de agrupamiento [22] es decir, expectativa de maximización (EM) algoritmo, telaraña [22], la agrupación jerárquica, K-means clustering, más lejana Primera la agrupación, la agrupación Densidad-base y Clustering filtrada. El número de grupos se asigna automáticamente en el algoritmo COBWEB mientras que los algoritmos restantes permitidos al usuario seleccionar el número deseado de grupos [22]. Algunos algoritmos mostraron un mejor rendimiento en la inclusión de todos los atributos para la agrupación mientras que el rendimiento se deterioró en los conjuntos de datos híbridos de selección de características. Los métodos de evaluación del desempeño y los parámetros son informados acerca de las secciones posteriores.

navaja de validación cruzada de prueba.

métodos de predicción estadística [50] se utilizaron para medir el rendimiento de predicción con el fin de evaluar su eficacia en aplicaciones prácticas. En este estudio, el método de validación cruzada de navaja [50] - [51] fue utilizado para la verificación y validación de la precisión del clasificador ya que los informes anteriores han dicho que sea menos arbitraria en la naturaleza y ampliamente aclamado por los investigadores y profesionales para estimar el rendimiento de predictores. En navaja de validación cruzada [38] - [39], [52], cada uno de los registros estadísticos en la formación de datos fue a su vez identificado como una muestra de ensayo y el predictor fue entrenado por las muestras restantes. Durante el proceso de efecto tijera [23] - [24], [39], tanto en la formación de datos y conjunto de datos de prueba eran en realidad abierta, y una muestra estadística se movían de un grupo a otro. En esta investigación, los siguientes índices [50] - [52] fueron adoptadas para poner a prueba la metodología propuesta (9) (10) donde se refleja el coeficiente de correlación Mathews.; refleja la precisión, es decir, la tasa de clase tumor de cáncer de pulmón predijo correctamente; TP, TN, FP y FN denotan el número de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos, respectivamente.

Resultados experimentales y discusión

Los resultados experimentales se analizan en tres secciones. El lugar se describe la clasificación de las propiedades estructurales y fisicoquímicas de acuerdo con su relación de ganancia. Toda la lista de atributos se clasificó y el archivo se proporciona como el cuadro S1. La segunda sección se ocupa de los resultados de Selección de características incremental mientras que la sección final muestra el rendimiento comparativo de los modelos de clasificación de referencia sobre las propiedades de las secuencias de proteínas en la clasificación de los tumores de pulmón.

híbrido de función Selección

total de 1497 atributos se cargaron inicialmente como los datos de entrenamiento con 113 casos [17] - [18]. No hay registros se realizaron por duplicado y no hubo valores perdidos. En la clasificación de los atributos por el criterio de relación de ganancia, un total de 134 atributos se le asigna una relación de ganancia mayor que cero. El subconjunto evaluador CFS regresó 39 características como el subconjunto más óptima que fue altamente correlacionado a la clase objetivo, pero menos correlacionada entre sí. Estas características fueron luego utilizados para el proceso de selección de características incremental. Los resultados de las Pruebas de Selección de funciones híbridos se dan como el cuadro S1.

Característica incremental Selección

Los atributos clasificados desde el evaluador subconjunto CFS fueron luego ingrese en el orden descendente de su rango para el clasificador . En cada entrada de atributo, se calculó la MCC y la precisión del clasificador en la prueba de Jack-cuchillo. La red de aprendizaje bayesiano se encontró para dar la más alta MCC predicción de 0,812 y la precisión del 87,6% con 36 funciones. Las curvas IFS generados en la precisión del clasificador y para el MCC correspondiente se representa en la figura 2. La precisión óptima predicción con la metodología propuesta para cada subconjunto característica se da en la Tabla 1. Los resultados completos del proceso de selección de características incremental en todos los tres Selección de características híbrido conjuntos de datos se dan en la Tabla S2
.
(a) La curva de IFS generada utilizando la clasificación de precisión en el pulmón categorización del tumor. El eje x representa el número de características, mientras que el eje Y representa la navaja de precisión de validación cruzada. El pico de la precisión de clasificación alcanzado fue del 87,6%, con 36 funciones. Las 36 mejores prestaciones derivadas de híbrido de función Selección (relación de ganancia + CFS Subset) método forman el conjunto de características óptimo. (B) La curva de IFS generado utilizando los valores de MCC obtenidos a partir de algoritmos de clasificación. El pico de la MCC es 0,812 con 36 funciones. Las 36 mejores prestaciones obtenidas por el método de selección de características híbrido (relación de ganancia + CFS Subset) forman el conjunto de características óptimo.

Modelos de clasificador

modelos de clasificación de referencia que han sido informado [14], [38] - [39] [53] - [54] para generar una alta precisión en la clasificación de los datos biológicos se compararon para determinar la técnica de predicción óptima que genera más alta precisión en la predicción. El rendimiento comparativo de los modelos de clasificación con el conjunto de características generadas por la técnica de selección de características híbrido se representa en la Tabla 2. El rendimiento se compara basa en el MCC y precisión de la predicción.

La agrupación de modelos

Este estudio utilizó siete algoritmos de agrupamiento [22] con el fin de comparar su rendimiento en la categorización de las clases de tumores de pulmón en base a los valores de los atributos. Se presentan los resultados de la generación de los algoritmos de agrupamiento en el conjunto de datos antes y después de realizar la selección de características híbridas. Las clases se agrupan a resultados de la evaluación son presentados en la Tabla 3. Es evidente a partir de los resultados tabulados que los algoritmos de agrupamiento no eran útiles para proporcionar cualquier nueva idea sobre el significado del atributo en la detección de grupos, ya que su precisión en la performance era sustancialmente baja. Las discusiones sobre los datos y los resultados se presentan en la sección siguiente.

Discusión

Influencia de la estructurales y propiedades fisicoquímicas

Ha habido varias investigaciones sobre el pulmón clasificación del cáncer [55] - [65], pero el único estudio de cálculo anterior sobre la influencia de la secuencia de la proteína propiedades estructurales y fisicoquímicas basado en la clasificación de los tumores de pulmón hecho por Hosseinzadeh et.al [1] que utiliza el árbol de decisión generado por el Random clasificador bosque para identificar los atributos que contribuyen. En este estudio, hemos utilizado el árbol más pequeño entre los modelos de árboles de decisión que generan 10 por el clasificador Random Forest [66] en la formación de datos con el fin de identificar los atributos que más contribuyen a la clasificación de tumores de pulmón. Si bien el Comité algoritmo aleatorio también se representa 100% de precisión y un alto MCC de 1 en la fase de entrenamiento, los resultados obtenidos en la navaja de validación cruzada no eran tan alto como el Bosque Modelo al azar. El modelo de árbol de decisiones con el menor número de nodos generados por el bosque al azar en la formación de datos se representa en la figura 3. La visualización de este árbol hace que sea más fácil identificar la composición de cada propiedad proteínas en los diferentes tipos de tumores de cáncer de pulmón, proporcionando así una fuente para el diseño de fármaco que se dirige la composición de proteínas.

los siguientes nuevos conocimientos sobre las propiedades de la proteína se adquieran en el Bosque Modelo al azar con un nuevo conjunto de características discriminantes que se informa por primera vez en discriminar las clases de tumores pulmonares.

composición dipéptido fue la característica más discriminar entre las clases. F1.2 [Composición dipéptido], F5.3 [descriptor de distribución], F4.1 [Geary auto-correlación] y F6.1 [Número de secuencia de acoplamiento fin] fueron las siguientes propiedades de la proteína significativos utilizados por el Bosque Modelo al azar para discriminar la clases de tumores pulmonares.

Un valor bajo de la F5.3.2 [volúmenes normalizado vdW] y F composición [7,1] seudo-amino ácido se movieron los registros en la clase COMÚN. Un alto F5.3.1 [distribución de hidrofobicidad] y F5.3.3 [distribución de polaridad] se encontró entre los genes comunes en ambas clases de tumores mientras que se encontró una concentración más baja de la misma entre los genes tumorales de NSCLC. Esto dirige la investigación molecular para diseñar fármacos que podrían reducir la distribución de la hidrofobicidad y la polaridad mientras que aumenta los volúmenes normalizados vdW y la composición de amino-ácido de pseudo para orientar las clases comunes de tumores.

Una composición de alto dipéptido era característica de la genes de NSCLC y un valor relativamente bajo representados los tumores SCLC. Una alta concentración de F5.3.1 [Distribución de hidrofobicidad] y F5.3.7 [distribución de solvente Accesibilidad] fue evidente en las clases comunes de tumores. Estos hallazgos sugieren que el diseño de fármacos que elevan dipeptide composición para ayudar en la curación de los tumores SCLC y fármacos que disminuyen la composición dipéptido para curar tumores de NSCLC. Por otra parte el diseño de fármacos que disminuyen la distribución de la hidrofobicidad y la accesibilidad de disolvente podría ayudar en la curación de los tumores de ambos tipos.

Fue evidente que una separación estricta entre las categorías de tumores era una tarea complicada, ya que muchas de las propiedades eran encontrado que exhiben una composición similar de ambas las clases de tumores. Sin embargo se encontró que la metodología propuesta para diferenciar entre las clases de tumores con una alta MCC de 0.812 y la precisión de la clasificación del 87,6%, el más alto reportado hasta ahora en la categorización tumor de pulmón basado -property proteína.

Comparación de trabajo anterior

Como se dijo anteriormente, el único estudio computacional anterior sobre categorización tumor pulmonar basado en las propiedades estructurales y fisicoquímicas basadas en secuencias de proteínas fue reportado por Hosseinzadeh et.al [1] que se hizo una comparación de diez técnicas de selección de características diferentes y informaron el conjunto de características generado por el criterio de relación de ganancia óptima para generar 10 veces cruzar a la validación de la exactitud del 86% con el clasificador Bosque aleatoria. Su metodología incorpora 114 secuencias con 30 genes en la clase de NSCLC, 59 en el CPCP y 25 en la clase común de los tumores. Además, su metodología también participa una limpieza exhaustiva de datos y de tratamiento previo. Aquí hemos hecho uso de las 113 secuencias [16] - [18] a partir de los conjuntos de genes KEGG correspondientes a las clases de tumores de NSCLC y SCLC y segregado los genes en las tres clases a saber, NSCLC, SCLC y común. El número de registros resumió a 113 con 29 genes [16] - [17] en la clase de NSCLC. Este estudio tuvo como objetivo identificar el conjunto mínimo y óptimo de características para clasificar las clases de tumores de pulmón para su uso en la práctica de diagnóstico y diseño de fármacos. Por lo tanto, se utilizó el criterio de relación de ganancia, el criterio de información de ganancia y la incertidumbre simétrica para clasificar las características y luego se aplicó el evaluador de correlación de funciones de subconjuntos [22] con un umbral de finalización de búsqueda del 5 y el enfoque de la mejor primera búsqueda para identificar el más pequeño subconjunto de características con una alta correlación con la clase de objetivo y menos correlación entre sí. Esto dio lugar a un subconjunto de características con 39 características. En la comparación de la navaja de validación cruzada exactitud de cinco modelos de clasificación de referencia, el algoritmo de aprendizaje de red bayesiana se encontró para generar la más alta MCC de 0,77 con una precisión de 85% con todos los tres subconjuntos de selección de características híbridas. En la aplicación de Selección de características incremental obtuvimos el conjunto de características más óptima de 36 características (subconjunto característica de ganancia + Relación de SFC) que genera una precisión del 87,6%.

El trabajo previo de Hosseinzadeh informó et.al una alta precisión de 86% sólo en los datos limpiados después de la eliminación de registros duplicados, los registros de correlación y en base a los valores de desviación estándar. Al considerar los mismos datos, nuestro trabajo propuesto ha logrado una mayor precisión con los datos originales, sin modificar el consiguiente ahorro de tiempo de cálculo por la eliminación del proceso de limpieza de datos. Con el fin de llevar a cabo la comparación más clara que hemos identificado la exactitud de bosque aleatorio con una relación de ganancia (propuesto previamente modelo clasificador) en los datos originales, que fue capaz de generar una precisión óptima de sólo el 79,6% con 26 características de la relación de ganancia - CFS conjunto de características en comparación con nuestro método propuesto, que produce el 87,6% de precisión con 36 funciones desde el mismo subconjunto de características. Creemos que nuestra metodología propuesta se puede extender fácilmente para clasificar y discriminar entre otros tumores oncogénicos desde los datos originales se retuvo para el análisis computacional. Sin embargo el método anterior parece haber generado una alta precisión (86%) sólo en los datos limpiado que hace que sea una limitación al extender la metodología a otros conjuntos de datos de cáncer. Por otra parte el modelo propuesto anteriormente implicaría tiempo de pre-procesamiento de datos adicionales cuando se aplica a nuevos conjuntos de datos de cáncer.

Comparación con otros métodos

Se compararon tres métodos de selección [22] es decir, información de ganancia, simétrico La incertidumbre y la relación de ganancia. Aplicamos CFS subconjunto evaluador en todos los conjuntos de características clasificados por los tres algoritmos. Todos los cinco algoritmos de clasificación de referencia [67] - [68] se han aplicado sobre los conjuntos de datos de características reducidas. Los resultados se tabulan en la Tabla 2. Todos los tres métodos de predicción que se muestran consistentemente alta precisión con la técnica de predicción de red bayesiana. Se obtuvo la precisión óptima sólo durante el proceso de selección de características incremental con la relación de ganancia y el SFC combinación subconjunto evaluador, que alcanza una precisión mejorada de 87.6% con 36 funciones.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]