Wednesday, May 18, 2011

Budgetsök - jämförelse mellan Microsoft och Google

Många är de sökmotoralternativ, för webbplatsers interna sökmotor, som vi jobbar med på Nansen. Som budgetalternativ är de två mest lysande stjärnorna just nu:

Dokumentationen av dessa tjänsters egenskaper är ofta både luddig och svår att tolka. Direkta jämförelser har jag inte hittat alls. Måhända har jag inte Googlat om Google på Google tillräckligt eller inte lusläst alla säljiga "feature specs" på Microsofts sidor men behovet att syna dessa två tjänster i sömmarna har uppstått av ren självbevarelsedrift i samband med en kundimplementering.

Så här följer en inventering* av vad vi vet om tjänsterna så långt:





Egenskap viktigast för roll

MS Search 2010 Express

Google Site Search

Antal dokument i index

Administratör

10 miljoner

Oändligt

Statistik på sökningar

Administratör

Ja

Ja

Relevansfinjustering baserat på angivning av viktiga delar av webbaplatsen

Administratör

Ja

Nej

Metadata-finsjustering (dess påverkan i relevans)

Administratör

Ja

Nej

Kostnad

Administratör

MS-server+drift/ i övrigt gratis

Per sökning

Manuellt konfigurerad uppdelning av index: scope eller collection

Administratör

Ja

Njae**

Synonymer (egna) - automatisk sökning på flera ord samtidigt, baserat på eget inskrivet

Besökare

Ja

Ja

Filindexering, de flesta vanliga filtyper, pdf, doc, xls...

Besökare

Ja

Ja

Sökordsförslag efter genomförd sökning: "menade du"

Besökare

Ja

Ja

Sökordsförslag som ges momentant när man skriver i sökrutan, kallat autosuggest eller autocomplete (både baserat på sökningar som görs ofta och ord som är automatiskt inlagda)

Besökare

Ja

Ja

Samma resultat som stora Googles index

Besökare

Nej

Ja

Söka i delar av indexet, med hjälp av metadatafilterering

Besökare

Ja

Nej

Intern "Adwords" - möjlighet att framhäva en specifik sida för vissa sökord

Besökare

Nej

Ja

Ordböjningar (stemmings) svenska språket, automatisk sökning på flera former av ett ord, bestämd form, genetiv, pluralis m.m.

Besökare

Ja

Ja

Sökalgoritm

Besökare

Microsoft (ej FAST)

Google

Få egendefinierade metadatafält tillbaka i sökresultatet

Utvecklare

Ja

Ja

Grafiskt administrationsgränssnitt

Utvecklare

Ja, åtkomligt om driften sätts upp

Ja, åtkomligt på webben

Antal träffar per sökning

Utvecklare

oändligt

20

Manuellt igångsatt indexering

Utvecklare

Ja

Ja, men delvis oklar kontroll


Tillsynes lika alltså. Bra stöd för de vanligaste kraven man kan ställa på en modern sökmotor, samt det viktiga stöder för svenska ordböjningar m.m. Lite olika kostnadsbild, beroende på att Google använder sig av en licensmodell som baseras på antal sökningar och att Microsofts tjänst i sig är gratis, men kräver en MS Server 2008, och såklart drift av detta. Tämligen jämn kamp i kostnad- och smidighetsfrågan alltså, men med viss övervikt till Google för dess molnliknande approach.

Men, och här kommer den stora nackdelen med Google Site Search. Den har begränsat antalet träffar i XML-svret per sökning till 20 st. I kombination med att man inte kan söka på utvalda delar av indexet gör att Googles budgetsök blir helt oanvändbart när det kommer till sökresultatsidor av modernare snitt, med filtrerat sök. Alternativet hade ju såklart varit att göra en bred sökning med 100+ träffar och själv gruppera sökresultatet. Men det går inte, för max antalet träffar är 20, och skulle man själv göra flera sökningar för att bulka upp så dras ju den köpta sökmängden ner för varje sökning. Och vips så sänktes sökmängden till en bråkdel för att uppnå något så trivialt som filtrerat sök. Nej, stor stor varning för Google Site Search när det kommer till något mer än bara organisk sökresultat, och vad är då värdet när det är samma index som stor-Google? En XML?

Summerat är alltså att Microsoft Search Server 2010 Express, är en mer kompetent sökmotor, trots att Googles sökalgoritm är allmänt känt som mer kraftfull än Microsofts icke-FAST-algoritm.

En intressant fråga som väcks är varför Google gjort så här, förutom det uppenbara att de vill tjäna mer pengar. Men med tanke på att alternativet Google Mini är på utfasning (utan uppdatering på flera år och saknar stöd för svenska m.m.) och 250 kkr Google Search Appliance så hade Site Search varit ett intressant alternativ men inte efter denna dyrköpta resa...

UPDATE)
Man kan lätt räkna ut att det här inte är söklösningen för intranätet, eftersom molnet måste komma åt det, och vad är skillnaden mellan Google Site Search och stora Google? Denna skiljelinje är oklar och blir också känslig när det handlar om nya webbplatser som inte lanserats och som ska använda sig av Google Site Search, man vill ju inte få ut dem i storindexet.

*) med reservation för fel, kommentera eventuella felaktigheter, så rättar vi.
**) Begreppet "Refinements" finns som möjliggör indelning av indexet baserat på sökvägen, eller delar av URL:en, ok, men långt i från tillräckligt. Med tanke på att man fortfarande bara får 20 svar åt gången från varje, och vet inte mängden träffar i index per refinement.