311 likes | 1.57k Views
Warren McCulloch Walter Pitts. Por FRANCISCO MARÍN MIRA. Introducción (I). 1899: Nacimiento de Warren Sturgis McCulloch 1923: Nacimiento de Walter Pitts 1927: McCulloch: Doctorado en psicología.
E N D
Warren McCullochWalter Pitts PorFRANCISCO MARÍN MIRA
Introducción (I) • 1899: Nacimiento de Warren Sturgis McCulloch • 1923: Nacimiento de Walter Pitts • 1927: McCulloch: Doctorado en psicología. • 1943: Se propone uno de los primeros modelos matemáticos de la neuronaMcCulloch-Pitts. “A logical calculus of the ideas immanent in nervous activity” • 1947: McCullch-Pitts. “How we know universals: the perception of visual and auditory forms” • 1949: Donald Hebb propone una de las primeras reglas de aprendizaje
Introducción (II) • 1956: Se acuña el término de Inteligencia Artificial • 1957: Frank Rosenblatt presentó el Perceptrón • Años 60: modelos basados en el Perceptrón: Adaline y Madaline • 1969: Mueren McCulloch y Pitts • 1969: Back propagation • Posteriormente, otros modelos permiten un aprendizaje no supervisado (mapa auto-organizativo de Kohonen, los basados en la Teoría de Resonancia Adaptativa (ART) de Grossberg y Carpenter, o los modelos de control motor de Bullock, Gaudiano y Grossberg, entre otros)
Introducción (III) • McCulloch y Pitts impulsaron el nacimiento de la I.A. proponiendo la definición de la neurona • Con estas ideas nace la cibernética y más tarde el término Inteligencia Artificial • McCulloch y Pitts. A logical calculus of the ideas immanent in nervous activity: • una Máquina de Turing podría ser implementada en una red finita de neuronas formales • 1947: aproximaciones para diseñar “redes nerviosas” para reconocer entradas visuales • Las redes neuronales actuales se basan en el modelo de neurona descrito en este artículo • Cada neurona consta de un conjunto de entradas y una sola salida. Cada entrada está afectada por un coeficiente, denominado peso. • La cantidad calculada como la suma del producto de cada entrada multiplicada por su respectivo peso se denomina activación de la neurona • Una de las primeras arquitecturas neuronales donde se aplica es el Perceptrón • Los pesos de las neuronas se modifican sometiendo a la red a un entrenamiento, mediante una regla de aprendizaje.
La Inteligencia Artificial • Se puede decir que la Inteligencia Artificial empezó a surgir en 1943 cuando Warren McCulloch y Walter Pitts propusieron un modelo de neurona del cerebro humano y animal, una abstracción que proporcionó una representación simbólica de la actividad cerebral. • Podríamos situar el origen de los modelos conexionistas con la definición de la neurona formal dada por McCulloch y Pitts en 1943 como un dispositivo binario con varias entradas y salidas. • Más adelante, Norbert Wiener elaboró con estas ideas junto con otras, dentro del mismo campo, lo que se llamó “cibernética”. De aquí nacería, sobre los años 50, la Inteligencia Artificial.
McCulloch (I) • Warren Sturgis McCulloch • ( 1899 - 1969 ) • Nació en Orange, New Jersey el 16 de Noviembre de 1899. • Neurofisiólogo y Cibernético • Estudió en Yale (filosofía y psicología hasta 1921)y en Columbia (psicología, graduado en 1923). Recibiendo su doctorado en 1927 en Nueva York.
McCulloch (II) • Recordado por su trabajo con Dusser de Barenne (en Yale) y después con Walter Pitts (en Illinois) que posibilitó la fundación de ciertas teorías de la inteligencia en un número de artículos clásicos, incluyendo “A logical calculus of the ideas immanent in nervous activity” (1943) y “How we know universals: the perception of visual and auditory forms” (1947), ambos en el “Bulletin of Mathematical Biophysics”. • En el artículo de 1943 demostraron que una Máquina de Turing podría ser implementada en una red finita de neuronas formales, donde la neurona es la unidad base lógica del cerebro. En el artículo de 1947 ofrecieron aproximaciones para diseñar “redes nerviosas” para reconocer entradas visuales a pesar de los cambios de orientación o de tamaño.
McCulloch (III) • Desde 1952 trabajó en el Laboratorio de Investigación de Electrónica del MIT (Instituto de Tecnología de Massachusetts), principalmente en modelado de Redes Neuronales. • Su equipo examinó el sistema visual de la rana, en consideración con el artículo de 1947, descubriendo que el ojo proporciona al cerebro información que es, en cierto sentido, organizada e interpretada, en vez de únicamente transmitir la imagen. • McCulloch fue miembro de la American Society for Cybernetics y su primer presidente desde 1967 al 1968.
McCulloch (IV) • Conoció a Alan Turing, que discrepó con él llegando a llamarle charlatán. • Warren McCulloch tiene un notable rango de intereses y talentos. A parte de sus contribuciones a la ciencia, escribió poesía (sonetos) y diseñó edificios y un embalse para su granja de Old Lyme, Conneticut. • Murió en Cambridge en 1969.
Pitts (I) • Walter Pitts • ( 1923 - 1969 ) • Nació en Detroit el 23 de Abrilde 1923. • Matemático que trabajó en el campode la psicología cognitiva. • Aparentemente escapó de su casaa los 15 años. • Aprendió por su cuenta lógica ymatemáticas y era capaz de leer en numerosos lenguajes, incluyendoGriego y Latin.
Pitts (II) • Con 12 años pasó tres dias en una biblioteca leyendo “Principia Mathematica” y mandó una carta a Bertrand Russell indicandole lo que él consideraba problemas serios en la primera mitad del primer volumen. Russell se mostró agradecido y le invitó a estudiar en el Reino Unido. Aunque esta oferta fue aparentemente rechazada, Pitts decidió estudiar lógica. • Acudió a clases de la Universidad de Chicago, sin inscribirse como estudiante. • Obtuvo un trabajo en la universidad gracias a un filósofo alemán (Rudolf Carnap) al que le presentó su propio libro de lógica lleno de correcciones. Pitts por ese tiempo no tenía hogar ni ningún ingreso.
Pitts (III) • Más tarde Warren McCulloch llegó a la Universidad y, a principios de 1942, invitó a Pitts, que seguía sin hogar, a vivir con su familia. • McCulloch y Pitts trabajaban juntos. Pitts estaba familiarizado con el trabajo en informática de Gottfried Leibniz y consideraron la cuestión de si el sistema nervioso podía ser considerado un tipo de maquina de computación universal, como la describida por Leibniz. Esto llevó a su determinante artículo de redes neuronales “A Logical Calculus of Ideas Immanent in Nervous Activity”. • En 1943, Jerome Lettvin, con el que Pitts obtuvo una gran amistad en la universidad, le presentó a Norbert Wiener en el MIT, quien había perdido a su “mano derecha”. Su primer encuentro, en el que estuvieron discutiendo el trabajo de Wiener, fue tan bien que Pitts se trasladó a Boston para trabajar con Wiener. • En 1944 Pitts fue contratado por Kellex Corp., parte del Proyecto de Energía Atómica.
Pitts (IV) • En 1951 Wiener convenció a Jerry Wiesner para contratar algunos científicos del sistema nervioso. Un grupo fue estrablecido con Pitts, Lettvin, McCulloch y Pat Wall. • Pitts escribió una larga tesis de las propiedades de las redes neuronales conectadas en tres dimensiones. Lettvin le describió como el genio del grupo. • Pitts también es descrito como un excéntrico, negando que su nombre se hiciese público. Rechazó todas las ofertas de graduados avanzados o posiciones oficiales en el MIT ya que tendría que firmar con su nombre.
Pitts (V) • Wiener inesperadamente se puso en contra de McCulloch, a cuenta de su mujer que odiaba a McCulloch, y separó las relaciones con cualquiera que estubiese relacionado con él, incluido Pitts. Esto empujó a Pitts a un “suicidio cognitivo”, un aislamiento social del que nunca se recuperaría. Pitts quemó el manuscrito sobre las redes tridimensionales y prestó poco más interés en el trabajo. La única excepción fué una colaboración con Robert Gesteland que produjo un artículo sobre el olfato. • Pitts murió en 1969. • El modelo matemático de una neurona se llama actualmente la neurona de McCulloch-Pitts. La formulación teórica de la actividad neuronal del cerebro es el legado permanente de Walter Pitts y Warren McCullch a las ciencias cognitivas.
La Neurona McCulloch-Pitts (I) • McCulloch y Pitts propusieron en 1943 uno de los primeros modelos matemáticos de una neurona, del que se basan las redes neuronales actuales. • En este modelo, cada neurona consta de un conjunto de entradas, Si, y una sola salida Sj. Cada entrada i está afectada por un coeficiente que se denomina peso y que se representa por wij. El subíndice i refleja que el peso afecta a la entrada i, y el subíndice j que se trata de la neurona j. • La cantidad calculada como la suma del producto de cada entrada multiplicada por su respectivo peso se denomina activación de la neurona xj. La salida Sj de la neurona es una función de la activación de ésta. Es decir: xj = Si*wij + Qj Sj = f(xj) • Donde el término Qj es un valor umbral y f(xj) es una función de la activación de la neurona.
La Neurona McCulloch-Pitts (II) • Una de las primeras arquitecturas neuronales donde se aplica es el Perceptrón, que utiliza la siguiente función de salida: Sj=0 si xj < h Sj=1 si xj>=hdonde la constante h se denomina umbral. Esta es una función de salida de tipo binaria, y existen otras de tipo lineal puro, lineal con umbral, y sigmoidea, entre otras.
La Neurona McCulloch-Pitts (III) • En este modelo tan sencillo puede verse que la activación de la neurona depende del valor que tomen los pesos y las entradas, de forma que la variación de éstos origina distintas salidas para la misma entrada a la neurona. • En la práctica, los pesos de las neuronas se modifican sometiendo a la red a un entrenamiento, permitiendo que la red realice una función determinada. Esta es la característica que diferencia a una red neuronal de una máquina algorítmica clásica: una red neuronal no se programa, se «educa». • La red es capaz de retener y asociar el conocimiento a través de la adaptación de los pesos de las neuronas siguiendo una regla de aprendizaje. Estas reglas son ecuaciones expresadas en función de las entradas y salidas de las neuronas y describen la forma de variación de los pesos. En definitiva, son el instrumento empleado por las neuronas para adaptarse a la información que se le presenta.
La Neurona McCulloch-Pitts (IV) • El aprendizaje de una red se puede producir de tres formas: • Aprendizaje supervisado: consiste en introducir una serie de patrones de entrada a la red y a su vez mostrar la salida que se quiere tener. La red es capaz de ajustar los pesos de las neuronas de forma que a la presentación posterior de esos patrones de entrada la red responde con salida memorizada. • Aprendizaje no supervisado: se presentan los patrones de entrada a la red y ésta los clasifica en categorías según sus rasgos más sobresalientes. • Aprendizaje autosupervisado: la propia red corrige los errores en la interpretación empleando una realimentación. • Una de las primeras reglas de aprendizaje fue propuesta por Donald Hebb en 1949. • Esta se basa en un hecho biológico constatado: cuando dos neuronas se activan simultáneamente su conexión se refuerza.
Historia Redes Neuronales (I) • Partiendo de que las redes neuronales se fundamentan en el sistema nervioso humano deberíamos remontarnos a los tiempos de Galeno en los que ya se tenía un conocimiento considerable de éste. Sin embargo, los verdaderos avances en neurología se produjeron a partir de la segunda mitad del siglo XIX. Investigadores ilustres de esta época son Jackson, Ramón y Cajal y Golgi entre otros. • Fue en 1943 cuando Warren McCulloch y Walter Pitts propusieron el clásico modelo de neurona en el que se basan las redes neuronales actuales. Seis años después, en 1949, en su libro The Organization of Behavior, Donald Hebb presentaba su conocida regla de aprendizaje.
Historia Redes Neuronales (II) • En 1957, Frank Rosenblatt presentó el Perceptron, una red neuronal con aprendizaje supervisado cuya regla de aprendizaje era una modificación de la propuesta por Hebb. El Perceptron trabaja con patrones de entrada binarios, y su funcionamiento, por tratarse de una red supervisada, se realiza en dos fases: una primera en la que se presentan las entradas y la salidas deseadas; en esta fase la red aprende la salida que debe dar para cada entrada. • La principal aportación del Perceptron es que la adaptación de los pesos se realiza teniendo en cuenta el error entre la salida que da la red y la salida que se desea. • En la fase siguiente, de operación, la red «es capaz» de responder adecuadamente cuando se le vuelven a presentar los patrones de entrada. Se crearon grandes expectativas sobre sus aplicaciones, que posteriormente se tornaron en gran decepción cuando en 1969 Minsky y Papert demostraron las grandes limitaciones de esta red.
Historia Redes Neuronales (III) • En los años 60 se propusieron otros dos modelos, también supervisados, basados en el Perceptron de Rosenblatt denominados Adaline y Madaline. • En estos, la adaptación de los pesos se realiza teniendo en cuenta el error, calculado como la diferencia entre la salida deseada y la dada por la red, al igual que en el Perceptron. • Sin embargo, la regla de aprendizaje empleada es distinta. Se define una función error para cada neurona que da cuenta del error cometido para cada valor posible de los pesos cuando se presenta una entrada a la neurona. Así, la regla de aprendizaje hace que la variación de los pesos se produzca en la dirección y sentido contrario del vector gradiente del error. A esta regla de aprendizaje se la denomina Delta.
Historia Redes Neuronales (IV) • La era moderna de las redes neuronales artificiales surge con la técnica de aprendizaje de propagación hacia atrás o Back Propagation. • La contribución de Minsky y Papert fue la de demostrar que una red del tipo Perceptron no es capaz de aprender todas las posibles combinaciones entre entradas y salidas. • La solución del problema consiste en añadir capas intermedias de neuronas, introduciendo de esta forma el problema de cómo enseñar a estas capas intermedias. Aquí es donde tiene importancia el algoritmo de propagación hacia atrás. • En éste se compara la salida real con la salida deseada. La diferencia entre ambas constituye un error que se propaga hacia atrás desde la capa de salida hasta la de entrada permitiendo así la adaptación de los pesos de las neuronas intermedias mediante una regla de aprendizaje Delta. Sin embargo, también tiene sus limitaciones. • Posteriormente se han desarrollado otros modelos que permiten un aprendizaje no supervisado como el mapa auto-organizativo de Kohonen, los basados en la Teoría de Resonancia Adaptativa (ART) de Grossberg y Carpenter, o los modelos de control motor de Bullock, Gaudiano y Grossberg, entre otros.
Referencias (I) • http://www.wikipedia.org • McCulloch, Warren S. (1965), Embodiments of Mind, MIT Press, Cambridge, MA. • Talking Nets: An Oral History of Neural Networks, Edited by James A. Anderson and Edward Rosenfeld, 1998. The interview with Jerome Lettvin discusses Walter Pitts. • Pitts, Walter, MIT Encyclopedia of Cognitive Science. (http://cognet.mit.edu/MITECS/Entry/lettvin1)
Referencias (II) PERCEPTRÓN: • Freund, Y. and Schapire, R. E. 1998. Large margin classification using the perceptron algorithm. In Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT' 98). ACM Press. • Gallant, S. I. (1990). Perceptron-based learning algorithms. IEEE Transactions on Neural Networks, vol. 1, no. 2, pp. 179-191. • Rosenblatt, Frank (1958), The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386-408. • Minsky M L and Papert S A 1969 Perceptrons (Cambridge, MA: MIT Press) • Novikoff, A. B. (1962). On convergence proofs on perceptrons. Symposium on the Mathematical Theory of Automata, 12, 615-622. Polytechnic Institute of Brooklyn. • Widrow, B., Lehr, M.A., "30 years of Adaptive Neural Networks: Peceptron, Madaline, and Backpropagation," Proc. IEEE, vol 78, no 9, pp. 1415-1442, (1990).
Referencias (III) • Introducción a las redes neuronales artificiales. Alfredo Catalina Gallego. (www.gui.uva.es/login/login/13/redesn.html) PUBLICACIONES: • Warren McCulloch and Walter Pitts, A Logical Calculus of Ideas Immanent in Nervous Activity, 1943, Bulletin of Mathematical Biophysics 5:115-133. • Warren McCulloch and Walter Pitts, On how we know universals: The perception of auditory and visual forms, 1947, Bulletin of Mathematical Biophysics 9:127-147. • Howland, R., Jerome Lettvin, Warren McCulloch, Walter Pitts, and P. D. Wall, Reflex inhibition by dorsal root interaction, 1955, Journal of Neurophysiology 18:1-17. • Wall, P. D., Warren McCulloch, Jerome Lettvin and Walter Pitts, Effects of strychnine with special reference to spinal afferent fibres, 1955, Epilepsia Series 3, 4:29-40. • Jerome Lettvin, Humberto Maturana, Warren McCulloch, and Walter Pitts, What the Frog's Eye Tells the Frog's Brain, 1959, Proceedings of the Institute of Radic Engineers 47: 1940-1959 • Humberto Maturana, Jerome Lettvin, Warren McCulloch, and Walter Pitts, Anatomy and physiology of vision in the frog, 1960, Journal of General Physiology, 43:129--175 • Robert Gesteland, Jerome Lettvin and Walter Pitts, Chemical Transmission in the Nose of the Frog, 1965, J.Physiol. 181, 525-529.