Friday 27 October 2017

Høyfrekvente Trading System Utvikling


Høyfrekvent trading system design og prosess management. High frekvens trading system design og prosess management. Advisor Roy E Welsch. Department System Design og Management Program. Publisher Massachusetts Institute of Technology. Date Utgitt 2009.Trading bedrifter i dag er svært avhengige av data mining, datamodellering og programvareutvikling Finansanalytikere utfører mange lignende oppgaver til de i programvare - og produksjonsindustriene. Finansnæringen har imidlertid ennå ikke fullt ut vedtatt høyteknologiske systemkonstruksjonsrammer og prosesshåndteringsmetoder som har vært vellykkede innen programvare - og produksjonsindustrien. Mange av De tradisjonelle metodene for produktdesign, kvalitetskontroll, systematisk innovasjon og kontinuerlig forbedring funnet i ingeniørfagene kan brukes på finansfeltet. Denne oppgaven viser hvordan kunnskapen fra tekniske disipliner kan forbedre design og prosesshåndtering av høyfrekvent handel s ystems Høyfrekvente handelssystemer er beregningsbaserte Disse systemene er automatiske eller halvautomatiske programvare systemer som er iboende komplekse og krever en høy grad av design presisjon. Design av et høyfrekvent trading system knytter sammen flere felt, inkludert kvantitativ finans, systemdesign og software engineering I finansbransjen, hvor matematiske teorier og handelsmodeller er relativt godt undersøkt, er evnen til å implementere disse designene i ekte handelspraksis et av hovedelementene i et investeringsselskaps konkurranseevne. Evnen til å konvertere investeringsideer til high performance trading systemer kan effektivt og effektivt gi et investeringsselskap en stor konkurransefortrinn. Denne oppgaven gir en detaljert studie som består av høyfrekvent trading systemdesign, systemmodellering og prinsipper, og prosesshåndtering for systemutvikling. Spesielt vektlegges sikkerhetskopiering og optimalisering som er betraktet th e viktigste delene i å bygge et handelssystem Denne forskningen bygger systemteknologimodeller som styrer utviklingsprosessen. Det bruker også eksperimentelle handelssystemer til å verifisere og validere prinsipper som tas opp i denne oppgaven. Slutten konkluderer denne oppgaven at systemtekniske prinsipper og rammer kan være nøkkelen til suksess for å implementere høyfrekvent trading eller kvantitative investeringssystemer. Tenk SM - Massachusetts Institute of Technology, System Design og Management Program, 2009 Katalogert fra PDF-versjon av avhandling Inkluderer bibliografiske referanser p 78-79.Keywords System Design og Management Program. Best Programmeringsspråk for algoritmiske handelssystemer. Et av de vanligste spørsmålene jeg mottar i QS-postbag er Hva er det beste programmeringsspråket for algoritmisk handel? Det korte svaret er at det ikke finnes noe beste språk. Strategi parametere, ytelse, modularitet, utvikling, fleksibilitet og kostnad må alle vurderes Denne artikkelen vil o skissere de nødvendige komponentene i en algoritmisk handelssystemarkitektur og hvordan beslutninger om implementering påvirker valg av språk. Først vil hovedkomponentene i et algoritmisk handelssystem bli vurdert, for eksempel forskningsverktøyene, porteføljeoptimerer, risikostyring og utførelsesmotor. , vil ulike handelsstrategier undersøkes og hvordan de påvirker systemets utforming. Spesielt vil frekvensen av handel og det sannsynlige handelsvolumet bli diskutert. Når handelsstrategien er valgt, er det nødvendig å arkitisere hele systemet. Dette inkluderer valg av maskinvare, operativsystem s og systemresistens mot sjeldne, potensielt katastrofale hendelser Mens arkitekturen vurderes, må det tas hensyn til ytelse - både til forskningsverktøyene og i liveutførelsesmiljøet. Hva er handelssystemet Prøver å gjøre. Før du bestemmer deg for det beste språket som du skal skrive en automatisk tradi ng system er det nødvendig å definere kravene Er systemet skal være rent utførelsesbasert Vil systemet kreve en risikostyring eller porteføljekonstruksjonsmodul Vil systemet kreve en høy ytelse backtester For de fleste strategier kan handelssystemet deles inn i to kategorier Forskning og signalgenerering. Forskning er opptatt av evaluering av en strategisk ytelse over historiske data Prosessen med å evaluere en handelsstrategi over tidligere markedsdata kalles backtesting. Datastørrelsen og algoritmisk kompleksitet vil ha stor innvirkning på beregningsintensiteten til backtesteren. CPU-hastighet og samtidighet er ofte begrensende faktorer for optimalisering av utførelseshastigheten for forskning. Signalgenerering er opptatt av å generere et sett av handelssignaler fra en algoritme og sende slike ordrer til markedet, vanligvis via en megling. For visse strategier er et høyt ytelsesnivå kreves IO-problemer som nettverksbåndbredde og latens er ofte begrensningsfaktoren i optimalisering av kjøringssystemer. Valg av språk for hver komponent i hele systemet kan derfor være ganske forskjellig. Type, frekvens og volum av strategi. Type algoritmisk strategi som brukes vil ha en betydelig innvirkning på systemets utforming. vil være nødvendig for å vurdere markedene som handles, tilkoblingen til eksterne dataleverandører, frekvensen og volumet av strategien, avstanden mellom enkel utvikling og ytelsesoptimalisering, samt enhver tilpasset maskinvare, inkludert samlokaliserte tilpassede servere , GPUer eller FPGAer som kan være nødvendige. Teknologifunksjonene for en lavfrekvens US-aksjestrategi vil være vesentlig forskjellig fra en høyfrekvent statistisk arbitrage-strategi som handler på futuresmarkedet. Før valg av språk må mange dataleverandører være evaluert som angår en strategi for hånden. Det vil være nødvendig å vurdere tilkobling til leverandøren, strukturen til noen APIer, aktualiteten til d ata, lagringskrav og fleksibilitet i møte med en leverandør som går frakoblet. Det er også lurt å ha rask tilgang til flere leverandører. Ulike instrumenter har alle sine egne lagringsfunksjoner, eksempler på hvilke inkluderer flere tickersymboler for aksjer og utløpsdatoer for futures for ikke å nevne noen spesifikke OTC-data. Dette må innarbeides i plattformen. Frekvensen av strategien er sannsynligvis en av de største driverne for hvordan teknologibakken vil bli definert. Strategier som bruker data hyppigere enn små eller andre linjer, krever vesentlig hensyntagen til hensyn til ytelse. En strategi som overstiger andre streker, dvs. tick-data fører til en ytelsesdrevet design som det primære kravet. For høyfrekvente strategier må en betydelig mengde markedsdata lagres og evalueres. Programmer som HDF5 eller kdb brukes ofte til disse roller. For å behandle de omfattende datamengder som trengs for HFT-applikasjoner, en omfattende opsjon misforstått backtester og kjøringssystem må brukes CC muligens med noen assembler er sannsynligvis den sterkeste språkkandidaten Ultrahøyfrekvensstrategier vil nesten absolutt kreve tilpasset maskinvare som FPGAer, bytte samlokalisering og kernal nettverksgrensesnitt tuning. Research Systems. Research Systems vanligvis involverer en blanding av interaktiv utvikling og automatisert skripting. Den tidligere finner ofte sted innenfor en IDE som Visual Studio, MatLab eller R Studio. Den sistnevnte innebærer omfattende numeriske beregninger over mange parametere og datapunkter. Dette fører til et språkvalg som gir et rettferdig miljø til testkode, men gir også tilstrekkelig ytelse til å evaluere strategier over flere parameter dimensjoner. Typiske IDEer i dette rommet inkluderer Microsoft Visual CC, som inneholder omfattende feilsøkingsverktøy, kode ferdigstillingsfunksjoner via Intellisense og enkle oversikter over hele prosjektstakken via databasen ORM, LINQ MatLab som er utviklet for omfattende numerisk lineær algebra og vektoriserte operasjoner, men på en interaktiv konsoll måte R Studio som bryter R statistisk språkkonsoll i en fullverdig IDE Eclipse IDE for Linux Java og C og semi-proprietary IDEer som Enthought Canopy for Python, som inkluderer databehandlingsbiblioteker som NumPy SciPy scikit-lær og pandas i et enkelt interaktivt konsollmiljø. For numerisk backtesting er alle ovennevnte språk egnet, selv om det ikke er nødvendig å bruke en GUI IDE som koden vil bli utført i bakgrunnen Hovedprinsippet på dette stadiet er det med kjøringshastighet Et kompilert språk som C er ofte nyttig dersom parameterene for backtesting-parameteren er store. Husk at det er nødvendig å være forsiktig med slike systemer dersom det er tilfelle. Interpreterte språk for eksempel Python bruker ofte høypresterende biblioteker som NumPy pandas for backtesting-trinnet, for å opprettholde en rimelig grad av c ompetitiveness med kompilerte ekvivalenter Til slutt vil språket som er valgt for backtesting, bestemmes av bestemte algoritmiske behov, så vel som omfanget av biblioteker tilgjengelig på språket mer på det under. Språket som brukes til backtester og forskningsmiljøer kan imidlertid være helt uavhengig av de som brukes i porteføljekonstruksjon, risikostyring og utførelseskomponenter, som det vil bli sett. Porteføljebygging og risikostyring. Porteføljebygging og risikostyringskomponenter blir ofte oversett av detaljistalgoritmiske forhandlere. Dette er nesten alltid en feil. Disse verktøyene gir mekanismen som kapital vil bli bevart De forsøker ikke bare å lette antall risikable spill, men minimerer også kjøringen av handelen selv, og reduserer transaksjonskostnadene. Avanserte versjoner av disse komponentene kan ha en betydelig innvirkning på kvaliteten og konsistensen av lønnsomhet. Det er greit å skape et stabilt strategier som porteføljekonstruksjonsmekanisme og risikostyring kan enkelt endres for å håndtere flere systemer. Derfor bør de betraktes som viktige komponenter ved inngangen til utformingen av et algoritmisk handelssystem. Oppgaven av porteføljes konstruksjonssystemet er å ta et sett av ønskede bransjer og produsere settet av faktiske handler som minimerer churn, opprettholder eksponeringer mot ulike faktorer som sektorer, aktivaklasser, volatilitet etc. og optimaliserer kapitalallokering til ulike strategier i en portefølje. Porteføljekonstruksjon reduserer ofte til et lineært algebraproblem som matrisefaktorisering og dermed ytelse er svært avhengig av effektiviteten av den numeriske lineære algebra implementeringen tilgjengelig. Felles biblioteker inkluderer uBLAS LAPACK og NAG for C MatLab har også omfattende optimaliserte matriseprosesser. Python benytter NumPy SciPy for slike beregninger. En ofte gjenbalansert portefølje vil kreve en kompilert og godt optimalisert matrisebibliotek for å bære dette uttrekk for å ikke flaskehals handelssystemet. Risikostyring er en annen ekstremt viktig del av et algoritmisk handelssystem Risiko kan komme i mange former Økt volatilitet, selv om dette kan ses som ønskelig for visse strategier, økte korrelasjoner mellom aktivaklasser, disk - partys standard, serveravbrudd, svarte svanehendelser og uoppdagede feil i handelskoden, for å nevne noen. Risikostyringskomponenter forsøker og forutsier effekten av overdreven volatilitet og korrelasjon mellom aktivaklasser og deres påfølgende effekt s på tradingkapital Ofte reduseres dette til et sett med statistiske beregninger som Monte Carlo stresstester Dette er veldig lik de beregningsmessige behovene til en derivatprisemotor og som sådan vil være CPU-bundet Disse simuleringene er svært parallelliserbare se nedenfor og i en viss grad er det mulig å kaste maskinvare på problemet. Ekspedisjonssystemer. Jobben til kjøringssystemet er å motta filtrerte handelssignaler fra t han komponerer porteføljekonstruksjon og risikostyringskomponenter og sender dem til megling eller annen form for markedsadgang. For de fleste detaljhandelsalgoritmiske handelsstrategier innebærer dette en API eller FIX-tilkobling til en megling som Interactive Brokers. De primære hensynene når man bestemmer seg for et språk Inkluderer kvalitet API, tilgjengelighet for API, utførelsesfrekvens og forventet sliping. Kvaliteten på API-en refererer til hvor godt dokumentert det er, hvilken type ytelse det gir, om det er behov for frittstående programvare som skal nås eller om en gateway kan etableres på en hovedløs måte, dvs. ingen GUI. Når det gjelder Interactive Brokers, må Trader WorkStation-verktøyet kjøres i et GUI-miljø for å få tilgang til API-en. Jeg måtte en gang installere en Desktop Ubuntu-utgave på en Amazon sky server for å få tilgang til interaktive meglere eksternt, bare av denne grunn. De fleste APIer vil gi et C - eller Java-grensesnitt. Det er vanligvis opp til samfunnet utvikler språkspesifikke wrappers for C, Python, R, Excel og MatLab. Merk at med hver ekstra plugin som brukes spesielt API-wrappers, finnes det muligheter for feil å krype inn i systemet. Test alltid plugins av denne typen og sørg for at de holdes aktivt. Et verdifullt mål er å se hvor mange nye oppdateringer til en kodebase har blitt gjort i de siste månedene. Ekspansjonsfrekvensen er av største betydning i utførelsesalgoritmen. Merk at hundrevis av ordrer kan sendes hvert minutt, og som sådan er ytelsen kritisk. pådratt seg gjennom et dårlig utførelseseksempler, og dette vil ha en dramatisk innvirkning på lønnsomheten. Statisk typede språk se nedenfor, slik som C Java er generelt optimal for utførelse, men det er et avslag i utviklings tid, testing og vedlikeholdsvennlighet. Dynamisk - typede språk, for eksempel Python og Perl, er nå generelt raske nok. Sørg alltid for at komponentene er designet på en modulær måte, se nedenfor slik at De kan byttes ut som systemet skalerer. Planleggings - og utviklingsprosessens komponenter. Komponentene i et handelssystem, frekvens - og volumkravene er omtalt ovenfor, men systeminfrastruktur har ennå ikke blitt dekket. De fungerer som en detaljhandler eller arbeider i et lite fond vil det trolig være på seg mange hatter Det vil være nødvendig å dekke alfa-modellen, risikostyring og utførelsesparametere, og også den endelige implementeringen av systemet Før du deltar i bestemte språk, vil utformingen av en optimal systemarkitektur bli diskutert. Separering av bekymringer. En av de viktigste beslutningene som må gjøres i begynnelsen, er hvordan man skiller problemene i et handelssystem. I programvareutvikling betyr dette i hovedsak hvordan man kan bryte opp de ulike aspektene av handelssystemet i separate modulære komponenter . Ved å utstede grensesnitt på hver av komponentene er det enkelt å bytte ut deler av systemet for andre versjoner som støtter ytelse, pålitelighet eller vedlikehold uten å endre ekstern avhengighetskode Dette er den beste praksis for slike systemer. For strategier med lavere frekvenser, anbefales slik praksis. For ultrahøyfrekvenshandel må regelboken ignoreres på bekostning av å tilpasse systemet for enda bedre ytelse Et mer tett koblet system kan være ønskelig. Å lage et komponentkart av et algoritmisk handelssystem er verdt en artikkel i seg selv. En optimal tilnærming er imidlertid å sørge for at det er separate komponenter for de historiske og sanntidige markedsdatainngangene, datalagring , dataadgang API, backtester, strategiparametere, porteføljekonstruksjon, risikostyring og automatiserte eksekveringssystemer. For eksempel, hvis datalageret som brukes, for tiden er underpresterende, selv ved betydelige optimaliseringsnivåer, kan det byttes ut med minimal omskrivning til datainntak eller datatilgang API Så langt som backtesteren og de etterfølgende komponentene er det ingen d Ifference. Another fordel med separerte komponenter er at det tillater at en rekke programmeringsspråk brukes i det overordnede systemet. Det er ikke nødvendig å være begrenset til et enkelt språk hvis kommunikasjonsmetoden til komponentene er språkuafhængig. Dette vil være tilfelle hvis de kommuniserer via TCP IP, ZeroMQ eller noen andre språkuavhengige protokoller. Som et konkret eksempel, bør du vurdere om et backtesting system skrives i C for nummerkrypende ytelse, mens porteføljestyring og utførelsessystemer er skrevet i Python ved hjelp av SciPy og IBPy. Performance Considerations. Performance er et vesentlig hensyn til de fleste handelsstrategier. For høyere frekvensstrategier er det den viktigste faktoren. Resultatet dekker et bredt spekter av problemer, for eksempel algoritmisk eksekveringshastighet, nettverkslatens, båndbredde, data IO, parallell parallellitet og skalering Hver av disse områdene er individuelt dekket av store lærebøker, så denne artikkelen vil bare skrape den e-overflaten av hvert emne Arkitektur og språkvalg vil nå bli diskutert med tanke på deres effekt på ytelse. Den rådende visdom som fremgår av Donald Knuth, en av fedrene til datalogi, er at for tidlig optimalisering er roten til alt ondt. Dette er nesten alltid tilfelle - unntatt når du bygger en høyfrekvent handelsalgoritme For de som er interessert i lavere frekvensstrategier, er en felles tilnærming å bygge et system på den enkleste måten, og bare optimalisere etter hvert som flaskehalser begynner å vises. Profilverktøy brukes til å bestemme hvor flaskehalser oppstår Profiler kan gjøres for alle faktorene som er oppført ovenfor, enten i et MS Windows - eller Linux-miljø. Det er mange operativsystem og språkverktøy tilgjengelig for dette, samt tredjepartsverktøy. Språkvalg vil nå bli diskutert i kontekst av ytelse. C, Java, Python, R og MatLab inneholder alle høyytelsesbiblioteker enten som en del av deres standard eller eksternt for grunnleggende datastrøm uktur - og algoritmisk arbeid C-skip med Standard Template Library, mens Python inneholder NumPy SciPy Vanlige matematiske oppgaver finnes i disse bibliotekene, og det er sjelden gunstig å skrive en ny implementering. Ett unntak er om det er nødvendig med svært tilpasset maskinvarearkitektur og en algoritmen gjør omfattende bruk av proprietære utvidelser som tilpassede caches. Men ofte gjenoppfinnelse av hjulavfallet tid som kan bli bedre brukt å utvikle og optimalisere andre deler av handelsinfrastrukturen. Utviklingstiden er ekstremt verdifull, spesielt i sammenheng med eneste utviklere. Latency er ofte et problem med utførelsessystemet som forskningsverktøyene er vanligvis plassert på samme maskin For det første kan latens forekomme på flere punkter langs utførelsesbanen. Databaser må konsulteres med diskenettverkets latens, signaler må genereres operativsystem, kjernalmeldingsforsinkelse , handel signaler sendt NIC latency og ordrer behandlet utvekslingssystemer i ternal latency. For høyere frekvens operasjoner er det nødvendig å bli godt kjent med kernal optimalisering samt optimalisering av nettverksoverføring Dette er et dypt område og er betydelig utenfor artikkelen, men hvis en UHFT algoritme er ønsket, vær da oppmerksom på Kunnskapsdybde som kreves. Caching er veldig nyttig i verktøykassen til en kvantitativ handelsutvikler. Caching refererer til konseptet om lagring av ofte tilgangsdata på en måte som tillater høyere ytelse, på bekostning av potensiell stallhet av dataene. En vanlig brukstilfelle forekommer i webutvikling når du tar data fra en diskbasert relasjonsdatabase og legger den i minnet. Eventuelle etterfølgende forespørsler om dataene behøver ikke å treffe databasen, og prestasjonsgevinstene kan derfor være signifikante. For handelssituasjoner kan caching være ekstremt gunstig. For eksempel , kan den nåværende tilstanden til en strategiportefølje lagres i en cache til den er rebalansert, slik at listen ikke t nee d for å bli regenerert på hver krets av handelsalgoritmen. Slike regenerering er sannsynligvis en høy CPU - eller disk-IO-operasjon. Imidlertid er caching ikke uten sine egne problemer. Regenerering av cacherdata på en gang, på grunn av cache-lagringens volatilie-karakter , kan plassere betydelig etterspørsel etter infrastruktur Et annet problem er hundesporing hvor flere generasjoner av en ny hurtigbufferkopi utføres under ekstremt høy belastning, noe som fører til kaskadesvikt. Dynamisk minneallokering er en dyr operasjon i programvareutførelse Dermed er det viktig for applikasjoner med høyere ytelseshandel skal være godt oppmerksomme på hvordan minne blir tildelt og fordelt under programflyten. Nye språkstandarder som Java, C og Python utfører automatisk automatisk søppelsamling som refererer til deallokering av dynamisk allokert minne når gjenstander går utenfor omfanget. samling er ekstremt nyttig under utvikling, da det reduserer feil og hjelpemidler lesbarhet. Det er imidlertid ofte suboptimal for c oppnå høyfrekvent trading strategier Tilpasset søppelinnsamling er ofte ønsket for disse tilfellene I Java, for eksempel ved å stille inn søppelkollektor og haugkonfigurasjon, er det mulig å oppnå høy ytelse for HFT-strategier. C gir ikke en innfødt søppelkollektor og så det er nødvendig å håndtere all minneallokering som en del av en objekt s implementering Mens potensielt feilproblemer potensielt fører til dangling pointers er det ekstremt nyttig å ha finkornet kontroll over hvordan objekter vises i bunken for visse applikasjoner Når du velger språk sikker på å studere hvordan søppelkollektor fungerer, og om det kan modifiseres for å optimalisere for en bestemt brukstilfelle. Mange operasjoner i algoritmiske handelssystemer kan brukes til parallellisering. Dette refererer til konseptet om å utføre flere programmatiske operasjoner samtidig, dvs. parallell S-kalt forlegenhet parallelle algoritmer inkluderer trinn som kan beregnes helt uavhengig Visse statistiske operasjoner, som Monte Carlo-simuleringer, er et godt eksempel på embarassingly parallelle algoritmer, da hver tilfeldig tegning og etterfølgende baneoperasjon kan beregnes uten kjennskap til andre baner. Andre algoritmer er bare delvis parallelle. Fluiddynamiske simuleringer er slike et eksempel hvor domenet til beregning kan deles opp, men i siste rekke må disse domenene kommunisere med hverandre og dermed operasjonene er delvis sekventielle. Paralleliserbare algoritmer er underlagt Amdahls lov som gir en teoretisk øvre grense for ytelsesøkningen av en parallellisert algoritme når det er underlagt N separate prosesser, f. eks. på en CPU-kjerne eller - drage. Parallellisering har blitt stadig viktigere som et middel til optimalisering siden prosessorens klokkeslett har stagnert, da nyere prosessorer inneholder mange kjerner som skal utføre parallelle beregninger. Stigningen av forbruksgrafikkhardware hovedsakelig for dataspill har bly til utviklingen av grafiske prosesseringsenheter GPUer, som inneholder hundrevis av kjerner for svært samtidige operasjoner. Slike GPUer er nå veldig rimelige Høytstående rammer, for eksempel Nvidia s CUDA, har ført til omfattende adopsjon i akademia og finans. Slike GPU-maskinvare er generelt bare egnet for forskningsaspektet ved kvantitativ finansiering, mens andre mer spesialiserte maskinvare inkludert feltprogrammerbare gatearrayer - FPGAer brukes til U HFT I dag støtter de fleste moderne langauges en grad av samtidighet multithreading. Derfor er det greit å optimalisere en backtester siden alle beregninger er generelt uavhengig av de andre. Oppskalering i programvare engineering og operasjoner refererer til systemets evne til å håndtere kontinuerlig økende belastninger i form av større forespørsler, høyere prosessorbruk og mer minneallokering. I algoritmisk handel er en strategi i stand til å skalere hvis den kan akseptere større mengder kapital og fremdeles produsere konsekvent avkastning rading teknologi stabell skalaer hvis det kan tåle større handelsvolumer og økt latens uten flaskehalsing. Mens systemene skal utformes for å skalere, er det ofte vanskelig å forutse på forhånd hvor en flaskehals vil oppstå. Fast logging, testing, profilering og overvåkning vil hjelpe sterkt i tillate et system å skalere Språk er ofte beskrevet som unscalable Dette er vanligvis et resultat av feilinformasjon, snarere enn hardt faktum. Det er den totale teknologistakken som bør fastslås for skalerbarhet, ikke språket. Klart visse språk har større ytelse enn andre spesielt Bruk tilfeller, men ett språk er aldri bedre enn en annen i alle forstand. En måte å styre skalaen på er å skille opp bekymringer som nevnt ovenfor For å ytterligere introdusere evnen til å håndtere pigger i systemet, dvs. plutselig volatilitet som utløser en rekke fag , er det nyttig å lage en meldingskøararkitektur. Dette innebærer ganske enkelt å plassere et meldingskøssystem mellom c omponents slik at bestillinger blir stablet hvis en bestemt komponent ikke klarer å behandle mange forespørsler. I stedet for at forespørsler går tapt, holdes de bare i en stabel til meldingen håndteres. Dette er spesielt nyttig for å sende handel til en utførelsesmotor. Hvis motoren er lider under tung ventetid, så vil det sikkerhetskopiere handler En kø mellom handelssignalgeneratoren og utførelses-APIen vil lindre dette problemet på bekostning av potensiell handel slippage En respektert åpen kildekode meldings køemegler er RabbitMQ. Hardware og operativsystemer. maskinvare som kjører strategien din, kan ha en betydelig innvirkning på lønnsomheten til algoritmen Dette er ikke et problem som er begrenset til høyfrekvente handelsfolk enten Et dårlig valg i maskinvare og operativsystem kan føre til maskinkrasj eller omstart på det mest uopprettelige øyeblikket. Således er det Nødvendig å vurdere hvor søknaden din skal ligge. Valget er vanligvis mellom en personlig stasjonær maskin, en ekstern server, en sky leverandør eller en utveksling co-lokalisert server. Desktop maskiner er enkle å installere og administrere, spesielt med nyere brukervennlige operativsystemer som Windows 7 8, Mac OSX og Ubuntu Desktop systemer har noen betydelige ulemper, men det fremste er at versjonene av operativsystemer designet for stasjonære maskiner, vil trolig kreve omstart av patching og ofte i verste fall. De bruker også flere beregningsmessige ressurser på grunn av å kreve et grafisk brukergrensesnitt GUI. Bruk av maskinvare i et hjem eller lokalt kontormiljø kan føre til Internett-tilkobling og strømbruddsproblemer Hovedfordelen ved et stasjonært system er at betydelig beregningsgrad kan kjøpes for brøkdel av kostnaden for en fjernbetjent dedikert server eller et skybasert system med tilsvarende hastighet. En dedikert server eller skybasert maskin, mens ofte dyrere enn et skrivebordsmulighet, muliggjør mer betydelig redundans infrastruktur, for eksempel automatisert dat en sikkerhetskopiering, muligheten til å sikre enklere oppetid og fjernovervåking. De er vanskeligere å administrere, siden de krever muligheten til å bruke ekstern påloggingsfunksjoner for operativsystemet. I Windows er dette vanligvis via GUI Remote Desktop Protocol RDP I Unix-baserte systemer kommandolinjen Secure SHell SSH brukes Unixbasert serverinfrastruktur er nesten alltid kommandolinjebasert som umiddelbart gjør GUI-baserte programmeringsverktøy som MatLab eller Excel ubrukelig. En samlokalisert server, som uttrykket brukes i kapitalmarkedene er rett og slett en dedikert server som ligger innenfor en bytte for å redusere ventetiden til handelsalgoritmen. Dette er absolutt nødvendig for visse høyfrekvente handelsstrategier, som er avhengige av lav ventetid for å generere alfa. Det endelige aspektet til maskinvare valg og valg av programmeringsspråk er plattform uavhengighet Er det behov for at koden skal løpe over flere forskjellige operativsystemer Er koden d utpekt til å bli kjørt på en bestemt type prosessorarkitektur, for eksempel Intel x86 x64 eller vil det være mulig å kjøre på RISC-prosessorer som de som er produsert av ARM Disse problemene vil være svært avhengig av frekvensen og typen strategi som implementeres. Resilience and Testing. One av de beste måtene å miste mye penger på algoritmisk handel er å skape et system uten spenning. Dette refererer til holdbarheten til systemet når det er underlagt sjeldne hendelser, som for eksempel megling, konkurs, plutselig overflødig volatilitet, region - brett nedetid for en nettleser-leverandør eller ved en utilsiktet sletting av en hel handelsdatabase Årets fortjeneste kan elimineres innen sekunder med en dårlig utformet arkitektur. Det er helt nødvendig å vurdere problemer som debuggng, testing, logging, sikkerhetskopiering, tilgjengelighet og overvåking som kjernekomponenter i systemet ditt. Det er sannsynlig at i noen rimelig kompliserte tilpassede kvantitative handelsapplikasjoner minst 50 av utviklingen tiden vil bli brukt på feilsøking, testing og vedlikehold. Nesten alle programmeringsspråk enten sendes med en tilhørende debugger eller har respekterte tredjepartsalternativer. I hovedsak tillater en debugger utføring av et program med innføring av vilkårlig bruddpunkter i kodebanen , som midlertidig stopper utførelsen for å undersøke systemets tilstand. Hovedfordelen ved feilsøking er at det er mulig å undersøke kodeksens oppførsel før et kjent krasjpunkt. Stopp er en viktig komponent i verktøykassen for å analysere programmeringsfeil. , blir de mer brukt i kompilerte språk som C eller Java, da tolkede språk som Python ofte er enklere å feilsøke på grunn av færre LOC og mindre verbose utsagn. Til tross for denne tendensen, sender Python med pdb som er et sofistikert feilsøkingsverktøy. Microsoft Visual C IDE har omfattende GUI-feilsøkingsverktøy, mens for kommandolinjens Linux C-programmator eksisterer gdb debugger. Testing i programvareutvikling refererer til prosessen med å bruke kjente parametere og resultater til bestemte funksjoner, metoder og objekter i en kodebase, for å simulere atferd og evaluere flere kodebaner, noe som bidrar til å sikre at et system oppfører seg som det skal. En nyere paradigmet er kjent som testdrevet utvikling TDD, hvor testkoden er utviklet mot et spesifisert grensesnitt uten implementering Før ferdigstillelse av den faktiske kodebasen, vil alle tester mislykkes. Som kode er skrevet for å fylle ut blanke, vil testene etter hvert passere alle, på hvilket tidspunkt bør utviklingen opphøre. TDD krever omfattende forhåndsspesifikasjonsdesign samt en sunn grad av disiplin for å kunne utføre suksess. I C gir Boost et enhetstestingsramme. I Java eksisterer JUnit-biblioteket for å oppfylle samme formål Python også har den unittest modulen som en del av standardbiblioteket Mange andre språk har enhetstestrammer og ofte er det flere opti ons. I et produksjonsmiljø er sofistikert logging helt avgjørende. Logging refererer til prosessen med å sende ut meldinger med ulik grad av alvorlighetsgrad vedrørende utførelsesadferd av et system til en flat fil eller database. Logger er en første angrepslinje når de jager etter uventet program runtime oppførsel Dessverre mangler en logging system bare å bli oppdaget etter det som med backups diskutert nedenfor, bør et loggsystem settes i betraktning FØR et system er utformet. Men Microsoft Windows og Linux kommer med omfattende systemlogging evne og Programmeringsspråk pleier å sendes med standard loggbiblioteker som dekker de fleste brukssaker. Det er ofte lurt å sentralisere logginformasjon for å analysere det på et senere tidspunkt, da det ofte kan føre til ideer om forbedring av ytelse eller feilreduksjon, noe som nesten helt sikkert ha en positiv innvirkning på handelsavkastningen. Mens logging av et system vil gi informasjon om hva som har skjedd tidligere, vil overvåking av et program gi innsikt i hva som skjer akkurat nå. Alle aspekter av systemet bør vurderes for å overvåke Systemnivåmålinger som diskbruk, tilgjengelig minne, nettverksbåndbredde og CPU-bruk gir grunnleggende last informasjon. Traderingsverdier som unormalt prisvolum, plutselige hurtige drawdowns og kontoeksponering for ulike sektorer bør også overvåkes kontinuerlig. Videre bør det opprettes et terskelsystem som gir varsel når enkelte beregninger brytes, forhøyer meldingsmetoden e-post, SMS, automated phone call depending upon the severity of the metric. System monitoring is often the domain of the system administrator or operations manager However, as a sole trading developer, these metrics must be established as part of the larger design Many solutions for monitoring exist proprietary, hosted and open source, which allow extensive customisation of metrics for a particular use case. Backups and high availability should be prime concerns of a trading system Consider the following two questions 1 If an entire production database of market data and trading history was deleted without backups how would the research and execution algorithm be affected 2 If the trading system suffers an outage for an extended period with open positions how would account equity and ongoing profitability be affected The answers to both of these questions are often sobering. It is imperative to put in place a system for backing up data and also for testing the restoration of such data Many individuals do not test a restore strategy If recovery from a crash has not been tested in a safe environment, what guarantees exist that restoration will be available at the worst possible moment. Similarly, high availability needs to be baked in from the start Redundant infrastructure even at additional expense must always be considered, as the cost of downtime is likely to far outw eigh the ongoing maintenance cost of such systems I won t delve too deeply into this topic as it is a large area, but make sure it is one of the first considerations given to your trading system. Choosing a Language. Considerable detail has now been provided on the various factors that arise when developing a custom high-performance algorithmic trading system The next stage is to discuss how programming languages are generally categorised. Type Systems. When choosing a language for a trading stack it is necessary to consider the type system The languages which are of interest for algorithmic trading are either statically - or dynamically-typed A statically-typed language performs checks of the types e g integers, floats, custom classes etc during the compilation process Such languages include C and Java A dynamically-typed language performs the majority of its type-checking at runtime Such languages include Python, Perl and JavaScript. For a highly numerical system such as an algorithmic tra ding engine, type-checking at compile time can be extremely beneficial, as it can eliminate many bugs that would otherwise lead to numerical errors However, type-checking doesn t catch everything, and this is where exception handling comes in due to the necessity of having to handle unexpected operations Dynamic languages i e those that are dynamically-typed can often lead to run-time errors that would otherwise be caught with a compilation-time type-check For this reason, the concept of TDD see above and unit testing arose which, when carried out correctly, often provides more safety than compile-time checking alone. Another benefit of statically-typed languages is that the compiler is able to make many optimisations that are otherwise unavailable to the dynamically - typed language, simply because the type and thus memory requirements are known at compile-time In fact, part of the inefficiency of many dynamically-typed languages stems from the fact that certain objects must be type-ins pected at run-time and this carries a performance hit Libraries for dynamic languages, such as NumPy SciPy alleviate this issue due to enforcing a type within arrays. Open Source or Proprietary. One of the biggest choices available to an algorithmic trading developer is whether to use proprietary commercial or open source technologies There are advantages and disadvantages to both approaches It is necessary to consider how well a language is supported, the activity of the community surrounding a language, ease of installation and maintenance, quality of the documentation and any licensing maintenance costs. The Microsoft stack including Visual C , Visual C and MathWorks MatLab are two of the larger proprietary choices for developing custom algorithmic trading software Both tools have had significant battle testing in the financial space, with the former making up the predominant software stack for investment banking trading infrastructure and the latter being heavily used for quantitative trading research within investment funds. Microsoft and MathWorks both provide extensive high quality documentation for their products Further, the communities surrounding each tool are very large with active web forums for both The software allows cohesive integration with multiple languages such as C , C and VB, as well as easy linkage to other Microsoft products such as the SQL Server database via LINQ MatLab also has many plugins libraries some free, some commercial for nearly any quantitative research domain. There are also drawbacks With either piece of software the costs are not insignificant for a lone trader although Microsoft does provide entry-level version of Visual Studio for free Microsoft tools play well with each other, but integrate less well with external code Visual Studio must also be executed on Microsoft Windows, which is arguably far less performant than an equivalent Linux server which is optimally tuned. MatLab also lacks a few key plugins such as a good wrapper around the Interactive Brokers API, one of the few brokers amenable to high-performance algorithmic trading The main issue with proprietary products is the lack of availability of the source code This means that if ultra performance is truly required, both of these tools will be far less attractive. Open source tools have been industry grade for sometime Much of the alternative asset space makes extensive use of open-source Linux, MySQL PostgreSQL, Python, R, C and Java in high-performance production roles However, they are far from restricted to this domain Python and R, in particular, contain a wealth of extensive numerical libraries for performing nearly any type of data analysis imaginable, often at execution speeds comparable to compiled languages, with certain caveats. The main benefit of using interpreted languages is the speed of development time Python and R require far fewer lines of code LOC to achieve similar functionality, principally due to the extensive libraries Further, they often allow interactive console based development, rapidly reducing the iterative development process. Given that time as a developer is extremely valuable, and execution speed often less so unless in the HFT space , it is worth giving extensive consideration to an open source technology stack Python and R possess significant development communities and are extremely well supported, due to their popularity Documentation is excellent and bugs at least for core libraries remain scarce. Open source tools often suffer from a lack of a dedicated commercial support contract and run optimally on systems with less-forgiving user interfaces A typical Linux server such as Ubuntu will often be fully command-line oriented In addition, Python and R can be slow for certain execution tasks There are mechanisms for integrating with C in order to improve execution speeds, but it requires some experience in multi-language programming. While proprietary software is not immune from dependency versioning issues it is far less common to have to deal with incorrect library versions in such environments Open source operating systems such as Linux can be trickier to administer. I will venture my personal opinion here and state that I build all of my trading tools with open source technologies In particular I use Ubuntu, MySQL, Python, C and R The maturity, community size, ability to dig deep if problems occur and lower total cost ownership TCO far outweigh the simplicity of proprietary GUIs and easier installations Having said that, Microsoft Visual Studio especially for C is a fantastic Integrated Development Environment IDE which I would also highly recommend. Batteries Included. The header of this section refers to the out of the box capabilities of the language - what libraries does it contain and how good are they This is where mature languages have an advantage over newer variants C , Java and Python all now possess extensive libraries for network programming, operating system interact ion, GUIs, regular expressions regex , iteration and basic algorithms. C is famed for its Standard Template Library STL which contains a wealth of high performance data structures and algorithms for free Python is known for being able to communicate with nearly any other type of system protocol especially the web , mostly through its own standard library R has a wealth of statistical and econometric tools built in, while MatLab is extremely optimised for any numerical linear algebra code which can be found in portfolio optimisation and derivatives pricing, for instance. Outside of the standard libraries, C makes use of the Boost library, which fills in the missing parts of the standard library In fact, many parts of Boost made it into the TR1 standard and subsequently are available in the C 11 spec, including native support for lambda expressions and concurrency. Python has the high performance NumPy SciPy Pandas data analysis library combination, which has gained widespread acceptance fo r algorithmic trading research Further, high-performance plugins exist for access to the main relational databases, such as MySQL MySQL C , JDBC Java MatLab , MySQLdb MySQL Python and psychopg2 PostgreSQL Python Python can even communicate with R via the RPy plugin. An often overlooked aspect of a trading system while in the initial research and design stage is the connectivity to a broker API Most APIs natively support C and Java, but some also support C and Python, either directly or with community-provided wrapper code to the C APIs In particular, Interactive Brokers can be connected to via the IBPy plugin If high-performance is required, brokerages will support the FIX protocol. As is now evident, the choice of programming language s for an algorithmic trading system is not straightforward and requires deep thought The main considerations are performance, ease of development, resiliency and testing, separation of concerns, familiarity, maintenance, source code availability, licensing costs and maturity of libraries. The benefit of a separated architecture is that it allows languages to be plugged in for different aspects of a trading stack, as and when requirements change A trading system is an evolving tool and it is likely that any language choices will evolve along with it. Just Getting Started with Quantitative Trading. Algorithmic Trading Custom Software Development. DataArt s services have been very helpful to firms and institutions which use automated trading strategies and quantitative data analysis We help clients in building and implementation of alpha, risk, transaction cost and portfolio models. For many modern strategies which use data mining for building data driven alpha models intraday and end-of-day data availability and quality is critical for strategy success High volumes of trades could lead to delays of historical data series delivered by exchanges This often leads to losing days of algo trading. DataArt is familiar with building custom frameworks a nd systems for big volume high frequency data logging. High frequency market data signals frequency down to five milliseconds. Process up to 15,000 inputs prices, Volumes and Quotes for 5000 of US stocks per registration node. Real-time data filtering. Publishing filtered signals to enterprise message bus. Quick access to historical data series is another critical point for quantitative data mining The speed of access to data often defines how much data one can mine and quality of output results the more in-sample data is mined the better the out-of-sample strategy behavior will be DataArt is experienced in building historical tick data storing in an optimized compact format. One-second data available for a three years period, thousands of signals, regular disk space. Quick access to historical data access time is 600 ms when accessing one year of data for one signal. Ability to apply cleaning anti-spike filters and transformation to raw historical data on the fly. Data quality validation jobs missing points, duplicates, out-of-range values. Integration jobs. DataArt also helps with building fast and effective back-testing systems which allow for executing and playing back in-sample and out-of-sample tests for strategies in seconds The quality of our back-testing systems and proprietary algorithms allow matching 99 of the intra-day trades with back-tests They support the following output parameters. Cumulative profit over time. Average rate of return and Std of return over time. Predictive power. Winning trades winning time percentage. Return ratio VS Risk. Sharpe ratio. DataArt is familiar with specifics of order execution in algorithmic trading such as. Cancelling and amending orders. Hidden Visible order. Aggressive Passive execution. Order size strategy. Execution strategy. Our experience and knowledge of algo trading and data mining opens additional opportunities for those who use mathematical models and quantitative analysis for big data, web and social web mining.

No comments:

Post a Comment