Blog
Projects
Talks
Notes

LLMs
Inference

Python Concurrency
CUDA Version Management
How to learn
pandoc filters
Docker
dbt
programming languages
Video Editing
LLMs
ML Serving
K8s
fastai
Linux
GitHub Actions
- ocotokit.js
- Resources
Prompt engineering
- Course
Web Scraping
- Browser requests to code
- Transcribe & Diarize Videos
Quarto
Jupyter

Inference

Notes on inference for LLMs

Title	Description
Optimizing latency	An exploration of ways to optimize on latency.
vLLM & large models	Using tensor parallelism w/ vLLM & Modal to run…

No matching items