I m divertirsi imparando su Hadoop e vari progetti che lo circondano e attualmente sono 2 diverse strategie I m pensando per la costruzione di un sistema per memorizzare una grande raccolta di dati tick mercato, io sto appena iniziato con entrambi Hadoop HDSF e HBase ma sperando qualcuno mi può aiutare a piantare un seme sistema che ho vinto t devono spazzatura in seguito utilizzando queste tecnologie di seguito una descrizione del mio sistema e le esigenze di alcuni casi di query e l'uso di dati di utilizzo e infine il mio pensiero corrente circa l'approccio migliore dal piccolo documentazione che hanno letto si tratta di una domanda a risposta aperta e mi ll volentieri come qualsiasi risposta che è perspicace e accettare il migliore, sentitevi liberi di commentare qualsiasi o tutti i punti sotto - Requisiti Duncan Krebs. System - in grado di sfruttare l'archivio dati per la prova storica posteriore dei sistemi, la creazione di grafici dei dati storici e futura data mining una volta memorizzati, i dati saranno sempre di sola lettura, accesso veloce ai dati è desiderato, ma non è un must-have quando torna testing. Static schema - Molto semplice, voglio catturare 3 tipi di messaggi dalla feed. Timestamp tra cui data, giorno, tra cui time. Quote Simbolo, timestamp, chiedere, askSize, offerta, bidSize, volume di circa 40 colonne di data. Trade tra cui Symbol, timestamp, prezzo, dimensione, scambio Circa il 20 colonne di DATA. data Inserire casi d'uso - sia da un flusso di mercato dal vivo di dati o di ricerca tramite mediatore API. Data Query casi d'uso - Qui di seguito dimostra come vorrei interrogare logicamente il mio data. Get me tutte le citazioni, notizie, timestamp per GOOG in data 9 22 2014.Get me tutti i mestieri per GOOG, FB prima delle 9 1 2014 E DOPO 5 1 2014.Get me il numero di transazioni per questi 50 simboli per ogni giorno negli ultimi 90 infradiciavi Santo Graal - Posso MapReduce essere utilizzato per usi casi come questi meta-dati below. Generate dai dati di mercato grezzi attraverso agenti distribuiti ad esempio, scrivere un lavoro che calcolare il volume degli scambi media su un intervallo di 1 minuto per tutti gli stock e tutte le sessioni memorizzate nel database Creare il lavoro di avere un agente per ogni seduta di che dico quello azionario e la sessione dovrebbe calcolare questo valore per questo che è MapReduce può do. On classpath degli agenti posso aggiungere il mio codice util in modo che il caso d'uso di cui sopra per esempio potrebbe pubblicare il suo valore in un repo centrale o server di messaggistica Posso distribuire un agente come un OSGI bundle. Create diversi tipi di agenti per diversi tipi di metriche ei punteggi che vengono eseguiti ogni mattina prima di pre-mercato trading. High Frequency Trading I m interessati anche se qualcuno può condividere alcune esperienze utilizzando Hadoop nel contesto dei sistemi di trading ad alta frequenza solo entrare in questa tecnologia il mio senso iniziale è Hadoop può essere grande per l'archiviazione e l'elaborazione di grandi volumi di dati storici tick, se qualcuno sta usando questo per il trading in tempo reale mi piacerebbe essere interessato a saperne di più - Duncan Krebs. Based della mia comprensione delle vostre esigenze, Hadoop sarebbe davvero buona soluzione per memorizzare i dati ed eseguire le query su di esso utilizzando Hive. Storage è possibile memorizzare i dati in Hadoop in una struttura di directory like. Inside la cartella ore, i dati specifici a quell'ora della giornata può reside. One vantaggio di utilizzare tale struttura è che si possono creare tabelle esterne in Hive su questi dati con le partizioni sul anni, mesi, giorni e ore Qualcosa di simile thising alla parte query, una volta che hai i dati memorizzati nel formato di cui sopra si possono facilmente eseguire semplici queries. Get me tutte le citazioni, notizie, timestamp per GOOG il 9 22 2014.Get mE mestieri per GOOG, FB prima delle 9 1 2014 e dOPO 5 1 2014.You possibile eseguire tali richieste di aggregazione una volta in un giorno e utilizzare l'uscita a venire con le metriche prima di trading pre-mercato dal Hive gestisce internamente MapReduce queste query ha vinto t essere molto fine di ottenere fast. In i risultati più veloci, è possibile utilizzare alcuni dei progetti di memoria come Impala o Spark io stesso ho usato Impala per eseguire query sui miei tavoli dell'alveare e ho visto un notevole miglioramento nella fase di esecuzione per le mie domande intorno a 40x Inoltre è wouldn t necessario apportare modifiche alla struttura delle DATA. data Inserire casi d'uso, è possibile utilizzare strumenti come Flume o Kafka per l'inserimento di dati in tempo reale per Hadoop e, quindi, ai tavoli alveare Flume è linearmente scalabile e può anche aiutare a eventi di elaborazione in tempo reale mentre transferring. Overall, una combinazione di più grandi tecnologie di dati in grado di fornire una soluzione veramente decente al problema che proposte e queste soluzioni potrebbe scalare a enormi quantità di data. Apache Rivet è un sistema per la creazione di contenuti web dinamici tramite il linguaggio di programmazione Tcl integrato con Apache Web Server e 'progettato per essere veloce, potente ed estensibile, consuma poche risorse di sistema, essere facile da imparare, e di fornire all'utente una piattaforma che può anche essere usedmons-IO contiene le classi di utilità, le implementazioni di flusso, filtri di file, comparatori di file e endian comunità classes. The Adobe Flex è lieta di annunciare il rilascio di Adobe Flex SDK 4 16 0. il Adobe Flex SDK è una applicazione open source team altamente produttivo framework. The Apache Tomcat annuncia la disponibilità immediata di Apache Tomcat 8 5 12.Tomcat 8 x gli utenti dovrebbero essere normalmente utilizzando 8 x 5 uscite a preferenza di 8 0 x squadra releases. The Apache Tomcat annuncia la disponibilità immediata di Apache Tomcat 9 0 0 M18.Apache Tomcat 9 è un'implementazione software open source del Java Servlet, JavaServer Pages, Java Unified. Latest attività. TheASF A ApacheCon Incontra persone prodotti fornitori dietro comunità di progetto Apache in un amichevole, non le vendite comunità environment. The Adobe Flex è lieta di annunciare il rilascio di Adobe Flex SDK 4 16 0. Il Adobe Flex SDK è un altamente produttivo, applicazione open source quadro per la costruzione di comunità and. Apache Ignite vi dà il benvenuto a partecipare Big Data Bootcamp il 27 marzo, 28 e 29 2017 a Santa Clara, conferenza USA. The riunisce esperti e fornitori da Big Data. And s Venerdì già Qui è ciò che la comunità Apache hanno lavorato su questa gestione week. ASF consiglio di amministrazione e la supervisione del business e degli affari della società in accordance. October 10, 2009.MapReduce è sicuramente guadagnando trazione, in particolare ma non significa solo sotto forma di Hadoop in seguito Hadoop mondiale Jeff Hammerbacher di Cloudera mi ha camminato velocemente attraverso 25 clienti ha tirato da Cloudera s file fatti e metriche variavano ampiamente, di course. Some sono in produzione pesante con Hadoop, e strettamente impegnato con Cloudera altri sono gli utenti attivi Hadoop, ma sono molto riservata altri ancora firmato per la formazione iniziale Hadoop ultimo week. Some hanno cluster Hadoop in migliaia di nodi Molti sono i cluster Hadoop nel range 50-100 nodi altri sono solo la prototipizzazione uso Hadoop E sembra essere Oeming un piccolo gruppo Hadoop in ogni pezzo di equipaggiamento esportare i dati sold. Many da Hadoop per un DBMS relazionale molti altri solo lasciarlo in HDFS Hadoop Distributed File System, ad esempio con Hive come il linguaggio di interrogazione, o esattamente un caso Jaql. Some sono i nomi delle famiglie, nelle imprese web o in altro modo altri sembrano essere abbastanza obscure. Industries includono i servizi finanziari, le telecomunicazioni in Asia solo, e del tutto nuove, bioinformatica e altre ricerche, l'intelligenza, e un sacco di aree web eo media. Application pubblicità, perché hanno ottenuto questi si sovrappongono in alcuni casi include. Log e o l'analisi clickstream di vari apprendimento kinds. Marketing analytics. Machine e sofisticato o dati mining. Image processing. Processing di XML messages. Web scansione e l'archiviazione o il testo processing. General, compresi dei dati tabulari relazionali, ad esempio per compliance. We andato oltre questa lista così in fretta che didn t andare troppo nei dettagli su qualsiasi utente, ma un esempio che mi ha colpito era di servire ditta annuncio che ha avuto un oleodotto aggregazione composta da 70-80 MapReduce jobs. I anche parlato ancora ieri w Omer Trajman di Vertica, che ha sorpreso mi indicando un numero elevato a una cifra di clienti Vertica s erano in produzione con Hadoop cioè oltre il 10 di Vertica s clienti di produzione Vertica ha recentemente fatto la sua vendita 100 °, e, naturalmente, non tutti quei compratori sono ancora in produzione l'utilizzo Vertica Hadoop sembra avere iniziato nel Vertica s servizi roccaforte finanziaria specificamente nel trading finanziario con analisi web e come tornare in seguito, basato su interventi di prototipazione attuali, Omer aspetta bioinformatica per essere il terzo mercato di produzione di Vertica Hadoop, con le telecomunicazioni in arrivo fourth. Unsurprisingly, il Vertica generale modello di utilizzo Hadoop sembra be. Do qualcosa ai dati in Hadoop. Dump in Vertica essere queried. What ho trovato sorprendente è che i dati spesso isn t ridotti di questa analisi, ma piuttosto è esplosa in termini di dimensioni e ga completa vendite di dati di negoziazione dei mutui potrebbero essere un paio di terabyte, ma la post-elaborazione Hadoop-based possono aumentare tale da 1 o 2 ordini di grandezza Analogie l'importanza e la grandezza dei dati cotte nel trattamento dei dati scientifici venire a mind. And finalmente, ho parlato con Aster qualche giorno fa circa l'utilizzo del suo connettore Aster nCluster Hadoop caratterizzato utenti Aster Hadoop Hadoop utilizzo come della varietà lotto ETL, che è il caso d'uso classica ammette di Hadoop, anche se si crede che MapReduce deve comunemente essere fatto proprio nel il DBMS. Subscribe ai nostri complete risposte feed.9 a Come 30 imprese stanno utilizzando Hadoop. Vlad il 11 ottobre 2009 3 34 am. I hanno fatto alcuni calcoli in base ai dati disponibili al pubblico su Internet il famoso record di Yahoo Terasort ordinamento 1 TB di dati in realtà 10 miliardi 100 byte registrare su un cluster di server Hadoop.3400 in 60 secondi mi omettere rispettivamente Questi sono i dettagli di calcolo, ma il disco medio della CPU iO e l'utilizzo della rete iO durante la were.1 corsa, 5-6 e 30 non è esatto numero, naturalmente, ma le stime basate su algoritmo di ordinamento, della configurazione del cluster s, potenza CPU del server, max NIC rendimento 1Gb e 4 SATA disk array iO capability. So, il collo di bottiglia è sicuramente rete penso che non è solo per i l'ordinamento, ma per molti altri problemi, ma sembra che sia gruppo Yahoo è ottimale dal punto di vista della massima produttività o Hadoop sostenuta non può saturare 1Gb collegamento OK, lascia immaginare che non utilizzano i server hardware merce, ma più ottimizzato e la rete configurations. How circa 2 NIC port 10 Gb per server e passare da 10 GB a 128 porta solo un aumentando la velocità di rete da 30 MB s a 2GB s NIC 2 porte 10 Gb per ogni server sec possiamo ridurre il numero di server in un cluster per il fattore di 70.50 server e ancora mantenere la stessa corsa 60 sec e 'possibile ordinare 2 GB al secondo di 20 milioni 100 byte record su un server Certo is. Yahoo grappolo costa circa 7 milioni posso costruire il mio gruppo per meno di 1 milione e noi non stiamo parlando di consumo di energia e di altre Associated costs. MapReduce e hardware di largo consumo ha vinto t risparmiare denaro non comprare cheap. Curt, sai quanti di questi clienti V sono nel cloud cioè re in esecuzione su V AMI in EC2 e quanti di questi sono in quel 10 o così si mention. Vlad il 11 ottobre 2009 10 40 pm. MapReduce è fortemente promosso, per qualche ragione, da Yahoo e Facebook, ma non da Google Google e Microsoft hanno sviluppato già prossima generazione Hadoops Pregel e Driade, ma non sono ancora disponibili per genere Anche l'informazione pubblica e non open-source sul Pregel è limited. To mi ricorda la situazione in Unione Sovietica degli anni '80 medio-tardiva non essendo in grado di creare i propri supercomputer, sovietici hanno cercato di invertire quelle ingegnere americano Cray ecc è possibile riprodurre ciò che ha già stato fatto, ma è sempre essere behind. UPD Dryad può essere scaricato dal sito Microsoft ma solo per research. RC accademico il 12 ottobre 2009 3 46 am. Is Dryad molto meglio di Hadoop Se sì, quali sono le improvements. Vlad ottobre 12, 2009 3 53 pm. RC Da Driade whitepaper La differenza fondamentale tra i due sistemi di Driade e MapReduce è che un'applicazione Driade può specificare una comunicazione arbitrario DAG piuttosto che richiedere una sequenza di mappa distribuiscono sorta ridurre le operazioni, in particolare, i vertici grafico potrebbe consumano più ingressi, e generano uscite multiple , di diversi tipi per molte applicazioni questo modo si semplifica la mappatura da algoritmo per l'attuazione, ci permette di costruire su un maggior libreria di subroutine di base, e, insieme con la capacità di sfruttare i tubi TCP e memoria condivisa per i bordi dei dati, in grado di portare notevoli miglioramenti delle prestazioni Allo stesso tempo, la nostra implementazione è abbastanza generale per supportare tutte le funzioni descritte nel MapReduce paper. Andrew S il 19 ottobre 2009 7 54 pm. Vlad, la differenza è che i sovietici didn t hanno open source alle spalle una più comune soluzione software proprietario modello nella storia recente ha been.1 esce 2 Una buona soluzione open source con funzionalità simili esce dopo 3 soluzione open source guadagna grandi sostenitori, i sviluppatori, aziende di tecnologia all'avanguardia, studiosi di spicco 4 soluzione open source eclissi proprietarie soluzione in uso a causa della facile disponibilità e la documentazione 5 soluzione proprietaria si estingue perché diventa redditizio per passare ad aprire solution. Hadoop fonte è da qualche parte in 3 e in parte in 4. Niente di tutto questo è in contrasto con le indagini precedenti di Hadoop casi d'uso. essere Bank of America s amministratore delegato per i grandi dati e analisi Un anno fa, già, Vertica ha indicato che circa il 10 per cento dei suoi clienti erano in produzione con Hadoop un trend guidato dai suoi clienti di servizi finanziari on the. Search nostri blog e white paper. Monash Research blogs. DBMS 2 copre la gestione di database, analisi e relativo technologies. Text Technologies copre il text mining, di ricerca e di analisi sociale software. Strategic messaggistica di marketing e di messaggistica strategy. The Monash Rapporto esamina la tecnologia e delle politiche pubbliche issues. Software Memorie racconta la storia della industry. User software consulting. Building una breve lista Perfezionare il vostro piano strategico possiamo help. Vendor advisory. We dire fornitori quello che succede - e, cosa più importante, quello che dovrebbe fare per it. Monash Research mette in luce.
Comments
Post a Comment