miércoles, 18 de enero de 2012

Adorad al Dios de la programación, Nyarlathotep, "el caos reptante"

Nyarlathotep es un dios del panteón del conocido escritor  H.P. Lovecraft, y aunque este hombre no llegó a conocer los placeres de la programación, misteriosamente anticipo sus cualidades y les dio forma en este dios.


Repasemos sus atributos según la wikipedia...


* Para él es interesante causar locura y sufrimiento más que simple destrucción.
  * Se sabe que es capaz de aparecer en mil avatares diferentes, y nunca se han podido listar todas sus formas.
* Su conducta es extraña (incluso se podría decir más humana) si se compara con los demás seres.
* Es de los pocos que puede presentar algún servicio útil a sus sirvientes humanos, posee objetivos y suele manipular a los humanos para alcanzarlos.

* Emisario de los Otros Dioses... todo lo que él pida será llevado a cabo al instante por Nyarlathotep.
* Incluso puede parecer humano y suele usar nuestro lenguaje.

* Es horrible -más horrible de lo que te puedas imaginar- pero maravilloso. Te atrapa durante horas.


Y aquí su aspecto, que tiene algo entre diagrama de flujo y autómata...


Imàgen bajo licencia de documentación libre de GNU


Oh Nyarlathotep ! Guíame y dame fuerzas para conseguir mis estadísticas por provincia...
















lunes, 9 de enero de 2012

Precio y oferta vs dormitorios

El precio de compra de una residencia crece más o menos linealmente entre 1 y 3 dormitorios, con un leve incremento para el caso de 4 dormitorios. A partir de 5 dormitorios, la categoría del inmueble acostumbra a ser de lujo y el precio abandona la zona lineal para dar una subida desproporcionada. No es fácil encontrar pisos 'normales' en cuanto a coste de 6 dormitorios, las familias numerosas son para ricos.

Precio x dormitorios España. Oferta a 2012-01-06

Veamos como varía la superficie de la residencia y la oferta disponible en función de los dormitorios. El piso de 3 dormitorios domina con un 42% de la oferta.

Superficie y oferta disponible vs dormitorios. España. 2012-01-06

A partir de 4 dormitorios la superficie por dormitorio también se incrementa, en tanto que la residencia se dirige a un segmento de compradores más pudiente.

Conclusiones:

C2. Falta oferta de pisos de 5 o más habitaciones, y los que hay, están dirigidos a segmentos de lujo con precios desproporcionados, eso sí, las habitaciones son más grandes y el coste por metro en realidad se mantiene o incluso se reduce.

C3. Juntar 2 pisos de 3 habitaciones en uno de 6 podría ser una opción muy interesante para salirse de las normas del mercado que consideran 6 dormitorios como algo propio de un segmento de lujo, pero cuidado, informarse de gestiones, coste reformas, comunidad... juntar 2 pisos es todo un mundo.

domingo, 8 de enero de 2012

Primeras estadísticas no temporales. Alquiler vs compra.

A la espera de disponer de datos durante un cierto periodo de tiempo que permita estadísticas evolutivas, os ofrezco ciertos resultados de la situación actual.

De momento solo os doy datos de España en su conjunto. Aún no puedo representar de manera conveniente datos por provincias. Estoy probando visualizaciones de tipo gráfico para esos casos.  De alguna manera se podrá seleccionar la provincia, el tipo de contrato... para obtener un gráfico en cada caso de complejidad razonable.

De la extracción bruta de datos de los anuncios obtengo estos valores para cada anuncio...

    Tipo de contrato: compra / alquiler
    Tipo inmueble: vivienda, oficina, local comercial, plaza de aparcamiento, vacacional
    Provincia
    Id inmueble ( Identificador único que permite identificar altas y desapariciones en la oferta de fecha en fecha )
    Precio,  Metros cuadrados, precio por m2
    # Dormitorios
    Antigüedad oferta / metadatos fotografía, si disponibles, para obtener la fecha de la foto como pista antigüedad oferta ( solo lo consigo una vez de cada 3, pero aún así es demasiado interesante para ignorarlo )

Sobre un número de resultados total que oscilan entre 600.000 - 700.000 valores, por ejemplo, para el 5 de enero obtenemos:


Contrato LocalOfertasDormitoriosPrecio medioPrecio M2
compra
residencial
475.003
2,9746
273.957
2135
compra
oficinas
4.072
-
617.026
2616
compra
locales
24.254
-
424.230
1759
compra
garajes
19.011
-
24.044
1686
alquiler
residencial
90.218
2,4705
805
8,38
alquiler
oficinas
9.965
-
3.179
11,50
alquiler
locales
23.002
-
2136
9,62
alquiler
garajes
8.508
-
129
10,56

Lo que nos permite ya sacar nuestra primera conclusión:

C1: Las residencias en alquiler son de media medio dormitorio más pequeñas que las residencias en venta, y tienen unos 30 metros cuadrados menos de superficie.

Sin considerar el sesgo de que las viviendas en alquiler son más pequeñas, más o menos en 30 años de alquiler habremos pagado lo mismo que en una hipotética compra financiada sin interés, en realidad considerando el interés y el coste de esos metros de diferencia, posiblemente hablamos de un periodo bastante superior. 

También me llama la atención que haya el doble de oferta de alquiler de oficinas que de compra.

En el próximo post vamos a investigar como varia el precio en función de las variables nº de dormitorios y metros cuadrados. 

jueves, 5 de enero de 2012

Presentación

Esta página esta dedicada a la investigación y elaboración de estadísticas originales, es decir, que no podemos encontrar en otro sitio, ( que yo sepa ) cuyos datos puedan recuperarse de manera automática a partir de consultas de páginas disponibles en internet.

Esta definición es muy amplia. Los datos disponibles y la manera de combinarlos de manera que se obtengan vistas con valor añadido es un conjunto enorme.  A parte de mis ideas, espero recibir vuestras propuestas.

Estas estadísticas pueden ser originales por dar una visión alternativa de datos ya conocidos o por darla en plazos temporales diferentes ( más cortos ) que las estadísticas disponibles. Por ejemplo, ¿ Cuanto ha variado el precio medio del m2 residencial en España entre ayer y hoy ?

Como objetivo secundario se podría añadir el reprocesar datos estadísticos ya disponibles en otras maneras más convenientes, pero lo que me interesa particularmente es, desde los datos 'en bruto' no estadísticos poder elaborar estadísticas originales que resulten útiles en la toma de decisiones.

Como primer campo de recolección de datos me he fijado el mercado inmobiliario. Complejo, fascinante,  y que ocupa una parte del pensamiento y de las decisiones de muchas personas. Hay varios portales, varias fuentes de información sobre las ofertas... suficientes datos para intentar extraer información y darle 'cuerpo', y siendo un asunto que interesa a tantas personas parece un buen comienzo.

Una dificultad que se presenta en la extracción en bruto de datos es la del tiempo y la infraestructura necesaria para recolectarlos diariamente. Queda fuera de objetivo de esta presentación entrar en detalles técnicos, pero como muestra del coste en recursos de la extracción masiva de datos de internet os adelanto unas cifras. Mi primer 'agente' recolector necesita unas 5 horas al día para descargar unas 700.000 ofertas del mercado inmobiliario español, muestra que considero suficiente. La descarga de datos, dividida en miles de páginas, requiere una transferencia de 2.3GB. En realidad, una página que en bruto mide unos 200Kb luego se transforma, una vez parseada, en unos pocos registros en la base de datos. Con mi limitada infraestructura actual solo podría mantener actualizados 2 o 3 conjuntos de datos estadísticos de similar complejidad.

Este tipo de actividad intensiva de descarga puede ser interpretada por las webs como un 'ataque' o un 'abuso', lo que puede obligar a repartir las comunicaciones entre diferentes lineas, de momento solo dispongo de los lineas de datos para alternar la descarga. Hasta la fecha he tenido suerte, pero es perfectamente posible que mi agente se encuentre con problemas más adelante. Eso me aconseja cierta discreción en cuanto a las fuentes de datos.

A modo de ejemplo de las dificultades que pueden surgir: Hace algún tiempo quise contestar la pregunta, ¿ Cual es la palabra más corta, que alterna vocal y consonantes y de menor orden alfabético que no devuelve ningún resultado al buscarla en google ? Automatizé una serie de búsquedas y la cosa funcionaba bastante bien, pero al cabo de un rato... me salio un mensaje de que no podía seguir usando el buscador hasta pasado un cierto tiempo. ( Lástima, no me guarde copia del mensaje ) Así que para cierto tipo de trabajos intensivos, disponer de varias lineas y alternar entre ellas puede ser necesario. Desconozco si tal vez otras técnicas de ocultación de la IP pueden ayudar, pero dado que el volumen de datos es muy grande y de todas formas puede ser necesario disponer de varias lineas para cada objetivo concreto puede ser suficiente alternar entre las lineas disponibles.

Próximanente añadiré los primeros resultados de mi investigaciones...así como otras cuestiones de tipo técnico.